このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240910となっている論文です。

PDF登録状況(公開日: 20240910)

TitleAuthorsAbstract論文公表日・翻訳日
# 自然条件下における量子デコヒーレンスから熱力学への遷移について

On the transition from quantum decoherence to thermal dynamics in natural conditions ( http://arxiv.org/abs/2409.12986v1 )

ライセンス: Link先を確認
J. H. Brownell, (参考訳) 波動関数の崩壊、古典運動、散逸、平衡、純粋量子力学から開放系デコヒーレンスから自然状態への遷移を説明するための単一のメカニズムが提案されている。 粒子の近傍における自発的な事象は、大きな多粒子状態が持続せず、各粒子が隣人が確立した安定な運動モードに崩壊するという相関を乱す。 これらの事象は熱ゆらぎと拡散の源である。 その結果、進化は決定論的、一元的、古典的に保守的ではなく、定常状態への拡散は全ての粒子系で必然的に起こるが、これらの現象を抑える不自然な実験条件下では遅くなる。 系の平均的な性質は、粒子が単一粒子モードの間を飛び交うにつれて進化し、観察された輸送法則と、追加の仮定や経験的要因を伴わない平衡性を生み出す。 これらのモードは濃厚な物質に局在し、古典的な特性をもたらす。 ボルツマンの等確率仮定は、非相対論的観測者の結果を比較する場合にのみ有効である。

A single mechanism, endemic to the standard model of physics, is proposed to explain wavefunction collapse, classical motion, dissipation, equilibration, and the transition from pure quantum mechanics through open system decoherence to the natural regime. Spontaneous events in the neighborhood of a particle disrupts correlation such that large many-particle states do not persist and each particle collapses to a stable mode of motion established by its neighbors. These events are the source of thermal fluctuation and drive diffusion. Consequently, evolution is not deterministic, unitary or classically conservative; diffusion toward a steady state occurs incessantly in every system of particles, though slowed under unnatural experimental conditions that suppress these events. Mean properties of a system evolve as particles jump between single-particle modes, producing observed transport laws and equilibrium properties without additional postulate or empirical factors. These modes are localized in dense material, yielding classical characteristics. Boltzmann's equal probability postulate is valid only when comparing results of nonrelativistic observers.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-10
# MathGLM-Vision:マルチモーダル大言語モデルによる数学的問題の解法

MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model ( http://arxiv.org/abs/2409.13729v1 )

ライセンス: Link先を確認
Zhen Yang, Jinhao Chen, Zhengxiao Du, Wenmeng Yu, Weihan Wang, Wenyi Hong, Zhihuan Jiang, Bin Xu, Yuxiao Dong, Jie Tang, (参考訳) 大規模言語モデル(LLM)は、特にテキストベースの数学的問題において、数学的推論において重要な機能を示している。 しかしながら、現在のマルチモーダル大言語モデル(MLLM)、特に数学に特化しているものは、幾何学的な問題を解くことに集中する傾向にあるが、数学の他の領域で利用可能な視覚情報の多様性を無視する傾向にある。 さらに、これらの特殊数学的MLLMの幾何学的情報は、多様性と複雑さに制限されるいくつかの公開データセットから導かれる。 これらの制約に対処するために、MathVLという微調整データセットを構築し、パラメータスケールのバックボーンを用いてMathGLM-Visionと呼ばれる特殊な数学的MLLMのシリーズを開発することを目的としている。 そこで我々は,MathGLM-Visionの有効性を広く評価するために,2000問題からなるMathVL-testといくつかの公開ベンチマークを用いて実験を行った。 実験の結果,MathGLM-Visionはバックボーンモデルやオープンソースの数学的MLLMなど,既存のモデルと比較して大幅に改善されている。 これらの結果から,MLLMの数学的推論能力を高める上で,多様性データセットの重要性が示唆された。

Large language models (LLMs) have demonstrated significant capabilities in mathematical reasoning, particularly with text-based mathematical problems. However, current multi-modal large language models (MLLMs), especially those specialized in mathematics, tend to focus predominantly on solving geometric problems but ignore the diversity of visual information available in other areas of mathematics. Moreover, the geometric information for these specialized mathematical MLLMs is derived from several public datasets, which are typically limited in diversity and complexity. To address these limitations, we aim to construct a fine-tuning dataset named MathVL, and develop a series of specialized mathematical MLLMs termed MathGLM-Vision by conducting Supervised Fine-Tuning (SFT) on MathVL with various parameter-scale backbones. To extensively evaluate the effectiveness of MathGLM-Vision, we conduct experiments on several public benchmarks and our curated MathVL-test consisting of 2,000 problems. Experimental results demonstrate that MathGLM-Vision achieves significant improvements compared with some existing models, including backbone models and open-source mathematical MLLMs. These findings indicate the importance of diversity dataset in enhancing the mathematical reasoning abilities of MLLMs.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# VisScience:K12教育マルチモーダル科学推論評価のための総合ベンチマーク

VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning ( http://arxiv.org/abs/2409.13730v1 )

ライセンス: Link先を確認
Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang, (参考訳) MLLM(Multi-modal large language model)は、複雑なシナリオにおける視覚的理解を実現するために、テキスト情報と視覚情報を統合することで、様々なタスクにまたがる有望な能力を実証している。 いくつかのベンチマークが利用可能であるにもかかわらず、MLLMは視覚的な質問応答から複雑な問題解決までタスクのMLLMを評価することを目的としており、主に数学や一般的な視覚的理解タスクに焦点を当てている。 これは、物理や化学といった他の重要な科学分野を含めることをしばしば見落としている、現在のベンチマークにおける重要なギャップを明らかにしている。 このギャップに対処するため、我々は、数学、物理学、化学の三分野にわたるマルチモーダルな科学的推論を評価するために、VisScienceという包括的なベンチマークを構築した。 このベンチマークは、K12教育から引き出された3000の質問 - 小学校から高校まで - を3つの分野に均等に分散し、1つの分野に1000の質問がある。 VisScience内の質問は21の異なる主題に及び、5つの難易度に分類される。 VisScienceでは,25種の代表的MLLMの科学的推論における性能を詳細に評価する。 実験により、クローズドソースMLLMは一般的にオープンソースモデルより優れていることが示された。 最高性能は、クロード3.5-ソネットによる数学の53.4\%、GPT-4oによる物理学の38.2\%、ジェミニ1.5-Proによる化学の47.0\%である。 これらの結果はMLLMの強みと限界を強調し、将来の改善の領域を示唆し、マルチモーダルな科学的推論の多様な要求を効果的に扱えるモデルを開発することの重要性を強調している。

Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# TopoChat: 大規模言語モデルとマルチソース知識によるトポロジカル資料検索の促進

TopoChat: Enhancing Topological Materials Retrieval With Large Language Model and Multi-Source Knowledge ( http://arxiv.org/abs/2409.13732v1 )

ライセンス: Link先を確認
HuangChao Xu, Baohua Zhang, Zhong Jin, Tiannian Zhu, Quansheng Wu, Hongming Weng, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、テキスト生成タスクにおいて印象的なパフォーマンスを示し、複雑な命令を理解し、応答する能力を示している。 しかし、ドメイン特定コーパスの不足と専門訓練のため、特定ドメインにおけるナイーブLLMの性能は制限されている。 さらに、特殊な大規模モデルのトレーニングは、研究者が進歩を促進するためにそのようなモデルを活用することを制限する、シグニフカントなハードウェアリソースを必要とする。 したがって、仕様ドメインの要求を満たすためにLCMをさらに改善し、最適化し、スケーラビリティを高めることが重要である。 凝縮物質データベースに基づいて,物質知識グラフ(MaterialsKG)を構築し,文献と統合する。 大規模言語モデルと即時学習を用いて,トポチャットと呼ばれるトポロジカル教材の対話システムを開発する。 単純LLMと比較して、TopoChatは構造的および特性的クエリ、物質的レコメンデーション、複雑なリレーショナル推論において優れたパフォーマンスを示す。 本システムは, 情報検索の効率化と知識相互作用の促進を実現し, 凝縮物質のフフェルト向上を促進させる。

Large language models (LLMs), such as ChatGPT, have demonstrated impressive performance in the text generation task, showing the ability to understand and respond to complex instructions. However, the performance of naive LLMs in speciffc domains is limited due to the scarcity of domain-speciffc corpora and specialized training. Moreover, training a specialized large-scale model necessitates signiffcant hardware resources, which restricts researchers from leveraging such models to drive advances. Hence, it is crucial to further improve and optimize LLMs to meet speciffc domain demands and enhance their scalability. Based on the condensed matter data center, we establish a material knowledge graph (MaterialsKG) and integrate it with literature. Using large language models and prompt learning, we develop a specialized dialogue system for topological materials called TopoChat. Compared to naive LLMs, TopoChat exhibits superior performance in structural and property querying, material recommendation, and complex relational reasoning. This system enables efffcient and precise retrieval of information and facilitates knowledge interaction, thereby encouraging the advancement on the ffeld of condensed matter materials.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# RNR: 大きな言語モデルに役割とルールをフォローするように教える

RNR: Teaching Large Language Models to Follow Roles and Rules ( http://arxiv.org/abs/2409.13733v1 )

ライセンス: Link先を確認
Kuan Wang, Alexander Bukharin, Haoming Jiang, Qingyu Yin, Zhengyang Wang, Tuo Zhao, Jingbo Shang, Chao Zhang, Bing Yin, Xian Li, Jianshu Chen, Shiyang Li, (参考訳) Instruction fine-tuning (IFT)は、教師付き学習を通じて、命令に従う能力を与え、大きな言語モデル(LLM)の振る舞いを操縦する。 しかし、オープンソースのIFTデータセットでトレーニングされた既存のモデルは、ユーザからの指示に従う能力しか持たず、しばしば開発者が指定する複雑な役割やルール、すなわちシステムプロンプトに従わない。 これらの役割とルールに従う能力は、開発者が定義したガイドラインの中で、モデルがユーザと安全に対話できることを保証するため、デプロイメントに不可欠である。 このような役割とルール追従能力を改善するために,既存のIFT命令から多様な役割とルールを生成する自動データ生成パイプラインである \model を提案する。 このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。 提案するモデルでは,役割とルール追従能力のベンチマーク,標準命令追従ベンチマーク,一般的なNLPタスクについて評価を行った。 アルパカデータセットとUltrachatデータセットを用いた実験では、規則順守に関するパスレートが25%以上増加していることが証明されている。 さらに,我々のモデルは,ベンチマーク後の一般的な命令の回帰を伴わずに,この増加を達成する。

Instruction fine-tuning (IFT) elicits instruction following capabilities and steers the behavior of large language models (LLMs) via supervised learning. However, existing models trained on open-source IFT datasets only have the ability to follow instructions from users, and often fail to follow complex role and rules specified by developers, a.k.a. system prompts. The ability to follow these roles and rules is essential for deployment, as it ensures that the model safely interacts with users within developer defined guidelines. To improve such role and rule following ability, we propose \model, an automated data generation pipeline that generates diverse roles and rules from existing IFT instructions, along with corresponding responses. This data can then be used to train models that follow complex system prompts. The models are evaluated on our newly created benchmarks for role and rule following ability, as well as standard instruction-following benchmarks and general NLP tasks. Our framework significantly improves role and rule following capability in LLMs, as evidenced by over 25% increase in pass-rate on rule adherence, i.e. following all requirements, in our experiments with the Alpaca and Ultrachat datasets. Moreover, our models achieves this increase without any regression on popular instruction following benchmarks.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# ゼロショット学習による社会的に受け入れられない談話の分析

Analysis of Socially Unacceptable Discourse with Zero-shot Learning ( http://arxiv.org/abs/2409.13735v1 )

ライセンス: Link先を確認
Rayane Ghilene, Dimitra Niaouri, Michele Linardi, Julien Longhi, (参考訳) 社会的に受け入れられない談話(SUD)の分析は、オンラインのポジティブな環境を維持するために不可欠である。 本研究では、事前学習したトランスフォーマーモデルとプロンプト技術を活用して、SUDの検出と特徴付けのためのエンタテインメントベースのゼロショットテキスト分類(unsupervised method)の有効性について検討する。 以上の結果から,これらのモデルがデータの発見に有効であることを示すとともに,ラベル付きデータセットを生成して,過激主義的物語の分析と評価を行う上で,このアプローチの有望な性質を明らかにすることができた。 本研究の成果は,SUD研究のための堅牢なツールの開発や,インターネット上での責任あるコミュニケーションの促進に寄与する。

Socially Unacceptable Discourse (SUD) analysis is crucial for maintaining online positive environments. We investigate the effectiveness of Entailment-based zero-shot text classification (unsupervised method) for SUD detection and characterization by leveraging pre-trained transformer models and prompting techniques. The results demonstrate good generalization capabilities of these models to unseen data and highlight the promising nature of this approach for generating labeled datasets for the analysis and characterization of extremist narratives. The findings of this research contribute to the development of robust tools for studying SUD and promoting responsible communication online.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# NLP4PBM:ルールベース,マシン,ディープラーニングによる自然言語処理によるプロセス抽出の体系的レビュー

NLP4PBM: A Systematic Review on Process Extraction using Natural Language Processing with Rule-based, Machine and Deep Learning Methods ( http://arxiv.org/abs/2409.13738v1 )

ライセンス: Link先を確認
William Van Woensel, Soroor Motie, (参考訳) 本稿では,自然言語処理(NLP)を用いてテキスト記述を構造化プロセスに変換する,自動プロセス抽出の分野について検討する。 機械学習 (ML) / ディープラーニング (DL) メソッドが NLP コンポーネントにますます利用されていることが分かりました。 いくつかのケースでは、プロセス抽出に対する適合性から選択され、その結果、古典的なルールベースの手法よりも優れていることが示された。 また、ゴールドスタンダードでスケーラブルなアノテートデータセットの明快さは、ML/DLメソッドのトレーニングや微調整だけでなく、現在客観的評価を妨げている。 最後に,LLMのプロセス自動抽出への応用に関する予備研究と,その分野での有望な開発について論じる。

This literature review studies the field of automated process extraction, i.e., transforming textual descriptions into structured processes using Natural Language Processing (NLP). We found that Machine Learning (ML) / Deep Learning (DL) methods are being increasingly used for the NLP component. In some cases, they were chosen for their suitability towards process extraction, and results show that they can outperform classic rule-based methods. We also found a paucity of gold-standard, scalable annotated datasets, which currently hinders objective evaluations as well as the training or fine-tuning of ML / DL methods. Finally, we discuss preliminary work on the application of LLMs for automated process extraction, as well as promising developments in this field.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# 事前学習拡散モデルによるテーブル・ツー・テキスト生成

Table-to-Text Generation with Pretrained Diffusion Models ( http://arxiv.org/abs/2409.13739v1 )

ライセンス: Link先を確認
Aleksei S. Krylov, Oleg D. Somov, (参考訳) 拡散モデルは様々なテキスト生成タスクにまたがって最先端のパフォーマンスを実現する上で大きな可能性を示している。 本研究では,タスクに拡散モデルを適用し,詳細な分析を行うことにより,テーブル・トゥ・テクスチャ問題へのそれらの適用について検討する。 我々の実験は拡散モデルトレーニングの様々な側面をカバーしている。 我々は,最近の拡散モデルアクセラレータDPM-Solver++をコアモデルに導入することにより,サンプリング戦略の影響について検討する。 ROVER や Minimum Bayes-Risk (MBR) など,様々な予測アグリゲーション手法を検証した。 本研究は,拡散モデルにおける事前学習相の影響と生成長制約の影響について述べる。 また,拡散モデル生成と自己回帰型テキスト・テキスト・テキスト・モデルとの比較を行った。 我々のキーとなる観察は、拡散モデルが品質と多様性のバランスを示す一方で、自動回帰テキスト-テキストモデルが同時に両方の処理に成功していないことである。 さらに,最大品質を達成するためには,複数のサンプルを作成するために最も厳密な長さ制約を持つ正則サンプリング器を用いて,予測をまとめるためにMBRを用いることが望ましいことがわかった。 しかし、ハイレベルな多様性を諦め、プロセスを加速する準備ができたら、DPM-Solver++の高速サンプリングも使えます。 本研究は,表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表-表

Diffusion models have demonstrated significant potential in achieving state-of-the-art performance across various text generation tasks. In this systematic study, we investigate their application to the table-to-text problem by adapting the diffusion model to the task and conducting an in-depth analysis. Our experiments cover multiple aspects of diffusion models training. We explore sampling strategy influence by inducing recent diffusion model accelerator DPM-Solver++ into our core model. We have tested different prediction aggregation methods, like ROVER and Minimum Bayes-Risk (MBR). Our studies cover the impact of the pre-training phase in diffusion models and the generation length constraints influence. We also have compared diffusion model generation with auto-regressive text-to-text models with different temperature settings for diversity evaluation. Our key observation is that diffusion models demonstrate the balance between quality and diversity while auto-regressive text-to-text models are not successful at handling both at the same time. Furthermore, we found out that to achieve the highest quality possible, it is preferable to use a regular sampler with the strictest length constraint to create multiple samples, and then use MBR to aggregate the predictions. However, if you are prepared to give up high level of diversity and to accelerate the process, you can also utilize a fast sampler DPM-Solver++. Our findings reveal that diffusion models achieve comparable results in the table-to-text domain, highlighting their viability in the table-to-text challenge as a promising research direction.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-10
# 質問のタイミングを知る - 大規模言語モデルとデータのブリッジ

Knowing When to Ask -- Bridging Large Language Models and Data ( http://arxiv.org/abs/2409.13741v1 )

ライセンス: Link先を確認
Prashanth Radhakrishnan, Jennifer Chen, Bo Xu, Prem Ramaswami, Hannah Pho, Adriana Olmos, James Manyika, R. V. Guha, (参考訳) 大規模言語モデル(LLM)は、数値および統計データやその他のタイムリーな事実を含むクエリに応答するときに、事実的に誤った情報を生成する傾向がある。 本稿では、国連(UN)、疾病対策センター(CDC)、世界国勢調査局などの信頼できる機関の公開統計の膨大なオープンソースリポジトリであるData Commonsと統合して、LCMの精度を高めるためのアプローチを提案する。 データコモンズからデータを取得するための自然言語クエリを生成するためにLLMを訓練するRetrieval Interleaved Generation(RIG)と、関連するデータテーブルをData Commonsから取得してLLMのプロンプトを拡張するRetrieval Augmented Generation(RAG)の2つの主要な手法を検討する。 これらの手法を多種多様な問合せで評価し,LLM出力の実際の精度向上に有効であることを示す。 我々の研究は、検証可能な統計的データに基づいて、複雑な事実推論が可能な、信頼性が高く信頼性の高いLCMを構築するための初期のステップである。

Large Language Models (LLMs) are prone to generating factually incorrect information when responding to queries that involve numerical and statistical data or other timely facts. In this paper, we present an approach for enhancing the accuracy of LLMs by integrating them with Data Commons, a vast, open-source repository of public statistics from trusted organizations like the United Nations (UN), Center for Disease Control and Prevention (CDC) and global census bureaus. We explore two primary methods: Retrieval Interleaved Generation (RIG), where the LLM is trained to produce natural language queries to retrieve data from Data Commons, and Retrieval Augmented Generation (RAG), where relevant data tables are fetched from Data Commons and used to augment the LLM's prompt. We evaluate these methods on a diverse set of queries, demonstrating their effectiveness in improving the factual accuracy of LLM outputs. Our work represents an early step towards building more trustworthy and reliable LLMs that are grounded in verifiable statistical data and capable of complex factual reasoning.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-10
# 楕円曲線スカラー乗算アルゴリズムの実装基礎としてのLongaの原子パターンの識別可能性の検討

Distinguishability Investigation on Longa's Atomic Patterns when used as a Basis for Implementing Elliptic Curve Scalar Multiplication Algorithms ( http://arxiv.org/abs/2409.13742v1 )

ライセンス: Link先を確認
Sze Hei Li, (参考訳) 暗号セキュリティの進化する状況において、楕円曲線暗号(ECC)のサイドチャネル解析(SCA)攻撃に対する堅牢性は、ECCの普及とSCAの高度化により最重要となる。 この論文は、楕円曲線スカラー乗算アルゴリズムで適用されたロンガの原子パターンの調査に発展し、それらの水平SCAに対する耐性を評価した。 本研究では,これらの原子パターンを,オープンソースの暗号ライブラリ FLECC を用いたマイクロコントローラ(テキサス・インスツルメンツ・ローンチパッド F28379 ボード)上で実践的に実装する。 技術的制限が多様であったため,実行時間と原子ブロックの形状に有意な差は認められなかった。 本研究に基づいてSCA抵抗に関するさらなる調査を行うことができる。 この研究の重要な貢献は、ロンガの元々の原子パターンにおけるいくつかの相違点の同定と修正である。 この論文はロンガのパターンの最初の実践的な実装であり、理論的研究を経験的分析へと拡張した。

In the evolving landscape of cryptographic security, the robustness of Elliptic Curve Cryptography (ECC) against side-channel analysis (SCA) attacks is of paramount importance due to the widespread use of ECC and the growing sophistication of SCAs. This thesis delves into the investigation of Longa's atomic patterns applied within Elliptic Curve scalar multiplication algorithms, assessing their resistance to horizontal SCAs. The research employs these atomic patterns in practical implementation on a microcontroller (Texas Instruments Launchpad F28379 board) using the open-source cryptographic library FLECC in C. In our analysis, we only focused on the distinguishability of the first atomic block in the Elliptic Curve point doubling and point addition patterns. Due to various technical limitations, we were unable to determine significant differences in the execution time and the shapes of the atomic blocks. Further investigations of the SCA-resistance can be performed based on this work. A significant contribution of this work is the identification and correction of several discrepancies in Longa's original atomic patterns. This thesis marks the first practical implementation of Longa's patterns, extending the theoretical research into empirical analysis.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-10
# 糖尿病患者の腎合併症の予測モデル性能に及ぼす臨床歴の影響

Effect of Clinical History on Predictive Model Performance for Renal Complications of Diabetes ( http://arxiv.org/abs/2409.13743v1 )

ライセンス: Link先を確認
Davide Dei Cas, Barbara Di Camillo, Gian Paolo Fadini, Giovanni Sparacino, Enrico Longato, (参考訳) 糖尿病は糖尿病性腎症を発症するリスクが高いと特徴付けられる慢性疾患である。 このような合併症やその悪化のリスクを高める個人を早期に同定することは、適切な治療方針を設定する上で非常に重要である。 本研究は, DARWIN-Renal (DApagliflozin Real-World evIdeNce-Renal) 研究で収集されたデータから, 様々な予測地平線上での予測, 臨床関連糸球体濾過率 (eGFR) の経時的変化を, 人口, 人為的, 実験室, 病理, 治療データに関連する変数を用いて予測するロジスティック回帰モデルを開発した。 そこで本研究では,患者の過去の訪問情報から得られた情報が,モデルの性能予測に与える影響について検討し,ボルタアルゴリズムによる特徴重要度の分析を行った。 私たちのモデルは、非常に優れたパフォーマンス(AUROCは0.98まで)を得る。 また,過去の訪問情報の導入により,モデルの性能が最大4%向上することが示唆された。 過去の情報の有用性は、特徴重要分析によってさらに裏付けられる。

Diabetes is a chronic disease characterised by a high risk of developing diabetic nephropathy, which, in turn, is the leading cause of end-stage chronic kidney disease. The early identification of individuals at heightened risk of such complications or their exacerbation can be of paramount importance to set a correct course of treatment. In the present work, from the data collected in the DARWIN-Renal (DApagliflozin Real-World evIdeNce-Renal) study, a nationwide multicentre retrospective real-world study, we develop an array of logistic regression models to predict, over different prediction horizons, the crossing of clinically relevant glomerular filtration rate (eGFR) thresholds for patients with diabetes by means of variables associated with demographic, anthropometric, laboratory, pathology, and therapeutic data. In doing so, we investigate the impact of information coming from patient's past visits on the model's predictive performance, coupled with an analysis of feature importance through the Boruta algorithm. Our models yield very good performance (AUROC as high as 0.98). We also show that the introduction of information from patient's past visits leads to improved model performance of up to 4%. The usefulness of past information is further corroborated by a feature importance analysis.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-10
# ビデオ駆動型グラフネットワーク型シミュレータ

Video-Driven Graph Network-Based Simulators ( http://arxiv.org/abs/2409.15344v1 )

ライセンス: Link先を確認
Franciszek Szewczyk, Gilles Louppe, Matthia Sabatelli, (参考訳) デザイン、シネマトグラフィー、ゲームにおけるライフライクな視覚化は、精密な物理シミュレーションに依存しており、典型的には広範な計算資源と詳細な物理入力を必要とする。 本稿では,学習条件に近い場合,簡単なビデオからシステムの物理的特性を推測し,明示的なパラメータ入力を不要にする方法を提案する。 学習された表現は、物理システムの軌道をエミュレートするために、グラフネットワークベースのシミュレータ内で使用される。 本研究では,映像由来の符号化がシステムの物理的特性を効果的に捉え,符号化とシステムの動作の線形依存性を示すことを実証する。

Lifelike visualizations in design, cinematography, and gaming rely on precise physics simulations, typically requiring extensive computational resources and detailed physical input. This paper presents a method that can infer a system's physical properties from a short video, eliminating the need for explicit parameter input, provided it is close to the training condition. The learned representation is then used within a Graph Network-based Simulator to emulate the trajectories of physical systems. We demonstrate that the video-derived encodings effectively capture the physical properties of the system and showcase a linear dependence between some of the encodings and the system's motion.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-10
# ニューロモルフィック光流による超高速視知覚

Ultrafast vision perception by neuromorphic optical flow ( http://arxiv.org/abs/2409.15345v1 )

ライセンス: Link先を確認
Shengbo Wang, Shuo Gao, Tongming Pu, Liangbing Zhao, Arokia Nathan, (参考訳) 光の流れはロボットの視覚知覚にとって重要であるが、現在の手法は主に2次元のフォーマットで動作し、水平と垂直の次元でのみ移動速度を捉えている。 この制限は、関心の欠如や異なる領域の詳細な動き分析のような不完全な動きの手がかりとなり、現実世界の設定で高ボリュームの視覚データを処理するのに遅延を引き起こす。 本稿では,メムリスタの時間領域処理機能を活用して外部動作特徴を直接ハードウェアに埋め込む3次元ニューロモルフィック光フロー法について報告する。 本実験では, 動作予測, 物体追跡, 物体セグメンテーションの精度を維持・改善しながら, 平均0.3秒で視覚データ処理時間を短縮する。 フレーム間視覚処理は、UAVシナリオで初めて達成される。 さらに、ニューロモルフィック光フローアルゴリズムの柔軟性は、既存のアルゴリズムとのシームレスな統合を可能にし、幅広い適用性を保証する。 これらの進歩は、正確性と効率のトレードオフなしに、ロボット知覚のための前例のない道を開いた。

Optical flow is crucial for robotic visual perception, yet current methods primarily operate in a 2D format, capturing movement velocities only in horizontal and vertical dimensions. This limitation results in incomplete motion cues, such as missing regions of interest or detailed motion analysis of different regions, leading to delays in processing high-volume visual data in real-world settings. Here, we report a 3D neuromorphic optical flow method that leverages the time-domain processing capability of memristors to embed external motion features directly into hardware, thereby completing motion cues and dramatically accelerating the computation of movement velocities and subsequent task-specific algorithms. In our demonstration, this approach reduces visual data processing time by an average of 0.3 seconds while maintaining or improving the accuracy of motion prediction, object tracking, and object segmentation. Interframe visual processing is achieved for the first time in UAV scenarios. Furthermore, the neuromorphic optical flow algorithm's flexibility allows seamless integration with existing algorithms, ensuring broad applicability. These advancements open unprecedented avenues for robotic perception, without the trade-off between accuracy and efficiency.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-10
# GLARE: 法律解析における高度な検索のためのガイド付きLexRank

GLARE: Guided LexRank for Advanced Retrieval in Legal Analysis ( http://arxiv.org/abs/2409.15348v1 )

ライセンス: Link先を確認
Fabio Gregório, Rafaela Castro, Kele Belloze, Rui Pedro Lopes, Eduardo Bezerra, (参考訳) ブラジルの憲法は市民憲章と呼ばれ、市民が司法を請願する仕組みを提供しており、その中にはいわゆる特別上訴も含まれていた。 この特別の控訴は、決定が連邦法と矛盾する場合にブラジルの法律の法的解釈を標準化することを目的としている。 特別上訴の取扱いは司法の日常的な業務であり、その裁判所における重要な要求を定期的に提示している。 我々は,ブラジル国立裁判所(STJ)が入手可能なリストから,法律アナリストがトピックに関する特別のアピールを分類するのを支援するため,教師なし機械学習に基づくGLAREと呼ばれる新しい手法を提案する。 本手法では,グラフに基づくLexRankアルゴリズムの修正を提案し,これを Guided LexRank と呼ぶ。 このアルゴリズムは特別な魅力の要約を生成する。 生成した要約と異なるトピックの類似度をBM25アルゴリズムを用いて評価した。 その結果、分析された特別訴求に最も適したテーマのランキングを提示する。 提案手法では,テキストの事前ラベル付けを必要とせず,大量のデータを排除してモデルを訓練する。 本研究では, 従来ヒトの専門家が分類していた特別魅力コーパスに適用し, 提案手法の有効性を検証した。

The Brazilian Constitution, known as the Citizen's Charter, provides mechanisms for citizens to petition the Judiciary, including the so-called special appeal. This specific type of appeal aims to standardize the legal interpretation of Brazilian legislation in cases where the decision contradicts federal laws. The handling of special appeals is a daily task in the Judiciary, regularly presenting significant demands in its courts. We propose a new method called GLARE, based on unsupervised machine learning, to help the legal analyst classify a special appeal on a topic from a list made available by the National Court of Brazil (STJ). As part of this method, we propose a modification of the graph-based LexRank algorithm, which we call Guided LexRank. This algorithm generates the summary of a special appeal. The degree of similarity between the generated summary and different topics is evaluated using the BM25 algorithm. As a result, the method presents a ranking of themes most appropriate to the analyzed special appeal. The proposed method does not require prior labeling of the text to be evaluated and eliminates the need for large volumes of data to train a model. We evaluate the effectiveness of the method by applying it to a special appeal corpus previously classified by human experts.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-10
# 確率ボルテラ系列に基づく不確定非線形ビームの損傷検出

Damage detection in an uncertain nonlinear beam based on stochastic Volterra series ( http://arxiv.org/abs/2409.15349v1 )

ライセンス: Link先を確認
Luis Gustavo Giacon Villani, Samuel da Silva, Americo Cunha Jr, (参考訳) 振動測定を用いた機械系の損傷検出問題は、一般に構造健康モニタリング(SHM)と呼ばれる。 多くのツールが振動パターンの変化によって損傷を検知することができる。 しかし, 機械系が基準条件下においても非線形な挙動を示す場合, 損傷に伴う構造変化を検出するのが困難である。 これらの場合、応答の変化が何らかの構造変化や振動状態の変化に基づいているかどうかを、より洗練された方法で検出する必要がある。 この問題を解決する多くの方法の中で、ボルテラ級数は線型畳み込みの一般化であり、ボルテラ核を通した入力フィルタリングによる線形および非線形寄与の分離を可能にするため、いくつかの有利な点を持つ。 一方, 騒音, 幾何学的不完全性, 製造の不規則性, 環境条件など, 機械系における不確実性の存在も応答を変化させることができ, 損傷検出が困難になる。 ボルテラ系列の確率バージョンに基づくアプローチは, 基準条件(クラック無し)においても, 非線形運動状態において振動するビームの呼吸き裂の検出に使用される。 系の不確かさは、線形剛性および減衰係数に課される変動によってシミュレートされる。 その結果、高次ボルテラ核を考慮に入れた非線形解析により、不確実性が存在する場合でも、小さな伝播と確率信頼で亀裂を検出することができることがわかった。

The damage detection problem in mechanical systems, using vibration measurements, is commonly called Structural Health Monitoring (SHM). Many tools are able to detect damages by changes in the vibration pattern, mainly, when damages induce nonlinear behavior. However, a more difficult problem is to detect structural variation associated with damage, when the mechanical system has nonlinear behavior even in the reference condition. In these cases, more sophisticated methods are required to detect if the changes in the response are based on some structural variation or changes in the vibration regime, because both can generate nonlinearities. Among the many ways to solve this problem, the use of the Volterra series has several favorable points, because they are a generalization of the linear convolution, allowing the separation of linear and nonlinear contributions by input filtering through the Volterra kernels. On the other hand, the presence of uncertainties in mechanical systems, due to noise, geometric imperfections, manufacturing irregularities, environmental conditions, and others, can also change the responses, becoming more difficult the damage detection procedure. An approach based on a stochastic version of Volterra series is proposed to be used in the detection of a breathing crack in a beam vibrating in a nonlinear regime of motion, even in reference condition (without crack). The system uncertainties are simulated by the variation imposed in the linear stiffness and damping coefficient. The results show, that the nonlinear analysis done, considering the high order Volterra kernels, allows the approach to detect the crack with a small propagation and probability confidence, even in the presence of uncertainties.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-10
# サンパウロにおけるアクセント発声音声の音声認識評価のための大規模データセット

A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation ( http://arxiv.org/abs/2409.15350v1 )

ライセンス: Link先を確認
Rodrigo Lima, Sidney Evaldo Leal, Arnaldo Candido Junior, Sandra Maria Aluísio, (参考訳) ブラジルポルトガル語の自発音声コーパスを無償で提供し,Wav2Vec2-XLSR-53とDistil-Whisperモデルを用いた予備的自動音声認識(ASR)結果を報告した。 NURC-SPオーディオコーパスは401人の異なる話者(204人の女性、197人の男性)で構成され、合計239.30時間の録音が記録されている。 私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。 まず, NURC-SPオーディオコーパスの設計・開発手順について述べる。 実験は、ASR用コーパスの適用性を示す有望な結果を示した。 具体的には、2種類のWav2Vec2-XLSR-53モデルを微調整し、Whisper Large-V3モデルを用いてデータセットを用いて Distil-Whisperモデルを訓練し、この Distil-Whisperモデルをコーパスで微調整した。 我々の最良の成果は、WERが24.22%のNURC-SPオーディオコーパスに、WERが33.73%のWav2Vec2-XLSR-53モデルに微調整された。 実験再現性を実現するために、NURC-SP Audio Corpusデータセット、事前訓練されたモデル、およびレシピをHugging-FaceとGithubリポジトリで共有する。

We present a freely available spontaneous speech corpus for the Brazilian Portuguese language and report preliminary automatic speech recognition (ASR) results, using both the Wav2Vec2-XLSR-53 and Distil-Whisper models fine-tuned and trained on our corpus. The NURC-SP Audio Corpus comprises 401 different speakers (204 females, 197 males) with a total of 239.30 hours of transcribed audio recordings. To the best of our knowledge, this is the first large Paulistano accented spontaneous speech corpus dedicated to the ASR task in Portuguese. We first present the design and development procedures of the NURC-SP Audio Corpus, and then describe four ASR experiments in detail. The experiments demonstrated promising results for the applicability of the corpus for ASR. Specifically, we fine-tuned two versions of Wav2Vec2-XLSR-53 model, trained a Distil-Whisper model using our dataset with labels determined by Whisper Large-V3 model, and fine-tuned this Distil-Whisper model with our corpus. Our best results were the Distil-Whisper fine-tuned over NURC-SP Audio Corpus with a WER of 24.22% followed by a fine-tuned versions of Wav2Vec2-XLSR-53 model with a WER of 33.73%, that is almost 10% point worse than Distil-Whisper's. To enable experiment reproducibility, we share the NURC-SP Audio Corpus dataset, pre-trained models, and training recipes in Hugging-Face and Github repositories.
翻訳日:2024-11-06 19:43:38 公開日:2024-09-10
# DeepScore:AI生成臨床文書の品質測定のための総合的なアプローチ

DeepScore: A Comprehensive Approach to Measuring Quality in AI-Generated Clinical Documentation ( http://arxiv.org/abs/2409.16307v1 )

ライセンス: Link先を確認
Jon Oleson, (参考訳) 医療実践者は、臨床ドキュメントに生成AIソリューションを急速に採用しており、大幅な時間節約とストレス軽減につながっている。 しかし、AI生成ドキュメンテーションの品質を評価することは、複雑で進行中の課題である。 本稿では,音質評価と管理を行うDeepScribeの方法論の概要を述べる。 これらの方法論は、説明責任と継続的な改善を通じて、患者のケア資料の品質を高めることを目的としている。

Medical practitioners are rapidly adopting generative AI solutions for clinical documentation, leading to significant time savings and reduced stress. However, evaluating the quality of AI-generated documentation is a complex and ongoing challenge. This paper presents an overview of DeepScribe's methodologies for assessing and managing note quality, focusing on various metrics and the composite "DeepScore", an overall index of quality and accuracy. These methodologies aim to enhance the quality of patient care documentation through accountability and continuous improvement.
翻訳日:2024-11-06 17:42:27 公開日:2024-09-10
# AIに基づくヌードのコンテンツモデレーションに関するアート中心の視点

An Art-centric perspective on AI-based content moderation of nudity ( http://arxiv.org/abs/2409.17156v1 )

ライセンス: Link先を確認
Piera Riccio, Georgina Curto, Thomas Hofmann, Nuria Oliver, (参考訳) 生成的人工知能が視覚芸術に与える影響が議論の的になっているとき、我々はより微妙な現象、すなわちオンラインの芸術ヌードのアルゴリズムによる検閲に注意を向ける。 芸術的ヌードに関する3つの「Not-Safe-For-Work」画像分類器の性能を解析し、特に視覚情報のみを考慮した場合の顕著な技術的制約だけでなく、性別とスタイル的バイアスの存在を実証的に明らかにする。 そこで我々は,芸術的ヌード分類を改善するマルチモーダルゼロショット分類手法を提案する。 本研究から,今後の研究に期待できるいくつかの示唆が得られた。

At a time when the influence of generative Artificial Intelligence on visual arts is a highly debated topic, we raise the attention towards a more subtle phenomenon: the algorithmic censorship of artistic nudity online. We analyze the performance of three "Not-Safe-For-Work'' image classifiers on artistic nudity, and empirically uncover the existence of a gender and a stylistic bias, as well as evident technical limitations, especially when only considering visual information. Hence, we propose a multi-modal zero-shot classification approach that improves artistic nudity classification. From our research, we draw several implications that we hope will inform future research on this topic.
翻訳日:2024-11-06 17:00:06 公開日:2024-09-10
# 信頼する教師, 信頼する学生? 説明の妥当性と不確実性への影響を調査するための新しいユーザスタディ設計

Confident Teacher, Confident Student? A Novel User Study Design for Investigating the Didactic Potential of Explanations and their Impact on Uncertainty ( http://arxiv.org/abs/2409.17157v1 )

ライセンス: Link先を確認
Teodor Chiaburu, Frank Haußer, Felix Bießmann, (参考訳) 説明可能な人工知能(XAI)における説明の質を評価することは、現在研究コミュニティで進行中の議論と共に、困難な問題である。 標準化されたオフラインメトリクスの確立を提唱する意見もある一方で、HIL(Human-in-the-loop)評価の重要性を強調している意見もある。 本稿では,人間とAIの協調環境におけるXAIの可能性と,ドクティクスにおけるXAIの可能性を評価するための実験的設計を提案する。 1200人の参加者によるユーザスタディにおいて、複雑な分類学における生物学的種のアノテーションである難解な視覚的タスクに対する人間のパフォーマンスに対する説明の影響について検討した。 我々の結果は、複雑な視覚的アノテーションタスクにおけるXAIの可能性を示している。 しかし、精度の上昇は、ユーザがモデルの単なる予測を示す場合と、説明を提供する場合とでは大きな違いはない。 ユーザーは、その予測が間違っていても、説明を見せた時にモデルの予測をより頻繁に複製する傾向があります。 協調的な人間-AI設定における説明の実践的効果を評価すると、AIアシストによるアノテーションの実行では、ユーザのアノテーションはそれほど良くないことがわかった。 このことは、視覚的人間とAIのコラボレーションにおける説明が、持続的な学習効果を誘発しないことを示している。 コードと実験データはすべてGitHubリポジトリにある。

Evaluating the quality of explanations in Explainable Artificial Intelligence (XAI) is to this day a challenging problem, with ongoing debate in the research community. While some advocate for establishing standardized offline metrics, others emphasize the importance of human-in-the-loop (HIL) evaluation. Here we propose an experimental design to evaluate the potential of XAI in human-AI collaborative settings as well as the potential of XAI for didactics. In a user study with 1200 participants we investigate the impact of explanations on human performance on a challenging visual task - annotation of biological species in complex taxonomies. Our results demonstrate the potential of XAI in complex visual annotation tasks: users become more accurate in their annotations and demonstrate less uncertainty with AI assistance. The increase in accuracy was, however, not significantly different when users were shown the mere prediction of the model compared to when also providing an explanation. We also find negative effects of explanations: users tend to replicate the model's predictions more often when shown explanations, even when those predictions are wrong. When evaluating the didactic effects of explanations in collaborative human-AI settings, we find that users' annotations are not significantly better after performing annotation with AI assistance. This suggests that explanations in visual human-AI collaboration do not appear to induce lasting learning effects. All code and experimental data can be found in our GitHub repository: https://github.com/TeodorChiaburu/beexplainable.
翻訳日:2024-11-06 16:50:22 公開日:2024-09-10
# 自律型クロスデータセット解析とネットワークアーキテクチャ修復 車線検出

Cross Dataset Analysis and Network Architecture Repair for Autonomous Car Lane Detection ( http://arxiv.org/abs/2409.17158v1 )

ライセンス: Link先を確認
Parth Ganeriwala, Siddhartha Bhattacharyya, Raja Muthalagu(参考訳) トランスファーラーニングは、あるタスクで得られた知識を利用して別のタスクを解くことによって、孤立した学習パラダイムを克服する標準的な方法の1つとなっている。 しかし、さらなる検証と説明のために、アプリケーションにトランスファーラーニングを誘導する前に、最初のステップを特定するために研究を行う必要がある。 本研究では,自律走行車における車線検出アプリケーションのためのクロスデータセット解析とネットワークアーキテクチャの修復を行った。 車線検出は自動運転車の運転支援システムの重要な側面である。 ほとんどの場合、現代のディープラーニングに基づく車線認識システムは成功しているが、複雑なトポロジを持つ車線と競合する。 提案アーキテクチャである ERFCondLaneNet は、高密度、湾曲、フォークラインのような複雑なトポロジを持つレーン線を検出することの難しさを解決するために、レーン識別フレームワークとして使用される CondlaneNet の強化である。 提案手法はCULaneとCurveLanesの2つの共通レーン検出ベンチマークとResNetとERFNetの2つのバックボーンで試験された。 ERFCondLaneNetによる調査では、ResnetCondLaneNetと同じような性能を示しながら、33%の機能を使用せず、モデルサイズを46%削減した。

Transfer Learning has become one of the standard methods to solve problems to overcome the isolated learning paradigm by utilizing knowledge acquired for one task to solve another related one. However, research needs to be done, to identify the initial steps before inducing transfer learning to applications for further verification and explainablity. In this research, we have performed cross dataset analysis and network architecture repair for the lane detection application in autonomous vehicles. Lane detection is an important aspect of autonomous vehicles driving assistance system. In most circumstances, modern deep-learning-based lane recognition systems are successful, but they struggle with lanes with complex topologies. The proposed architecture, ERFCondLaneNet is an enhancement to the CondlaneNet used for lane identification framework to solve the difficulty of detecting lane lines with complex topologies like dense, curved and fork lines. The newly proposed technique was tested on two common lane detecting benchmarks, CULane and CurveLanes respectively, and two different backbones, ResNet and ERFNet. The researched technique with ERFCondLaneNet, exhibited similar performance in comparison to ResnetCondLaneNet, while using 33% less features, resulting in a reduction of model size by 46%.
翻訳日:2024-11-06 16:50:22 公開日:2024-09-10
# BERTScoreVisualizer: BERTScoreによる簡易テキスト評価を理解するためのWebツール

BERTScoreVisualizer: A Web Tool for Understanding Simplified Text Evaluation with BERTScore ( http://arxiv.org/abs/2409.17160v1 )

ライセンス: Link先を確認
Sebastian Jaskowski, Sahasra Chava, Agam Shah, (参考訳) BERTScoreメトリックは、自動テキスト単純化システムを評価するために一般的に使用される。 しかし、現在のメトリックの実装では、メトリックが生成できる全ての情報を完全に可視化することができません。 特に、特定のトークンマッチングは、単純化されたテキストの品質に関する節レベルの洞察を生成するのに驚くほど有用である。 BERTScoreVisualizerは、正確さ、リコール、F1スコアを報告し、トークン間のマッチングを視覚化するWebアプリケーションです。 本ソフトウェアは,参照テキストから生成した簡易テキストがどの位置から逸脱するかを具体的に示すことによって,テキスト単純化システムの解析を改善することができると考えている。 コードをホストし、GitHubでデモを行います。

The BERTScore metric is commonly used to evaluate automatic text simplification systems. However, current implementations of the metric fail to provide complete visibility into all information the metric can produce. Notably, the specific token matchings can be incredibly useful in generating clause-level insight into the quality of simplified text. We address this by introducing BERTScoreVisualizer, a web application that goes beyond reporting precision, recall, and F1 score and provides a visualization of the matching between tokens. We believe that our software can help improve the analysis of text simplification systems by specifically showing where generated, simplified text deviates from reference text. We host our code and demo on GitHub.
翻訳日:2024-11-06 16:50:22 公開日:2024-09-10
# ネパール・ファブラブにおけるデスクトップ点字印刷機の設計と開発

Design and development of desktop braille printing machine at Fablab Nepal ( http://arxiv.org/abs/2409.17272v1 )

ライセンス: Link先を確認
Daya Bandhu Ghimire, Pallab Shrestha, (参考訳) デスクトップの点字印刷機の開発は、視覚障害者向けの安価なユーザフレンドリーなデバイスを作ることを目指している。 このドキュメントは、調査と要件分析から配布とサポートまで、すべてのプロセスの概要をGitHubリポジトリのコンテンツとガイドライン、https://github.com/fablabnepal1/Desktop-Braille-Printing-Machineで公開している。

The development of a desktop Braille printing machine aims to create an affordable, user-friendly device for visually impaired users. This document outlines the entire process, from research and requirement analysis to distribution and support, leveraging the content and guidelines from the GitHub repository,https://github.com/fablabnepal1/Desktop-Braille-Printing-Machine.
翻訳日:2024-09-30 12:52:34 公開日:2024-09-10
# 深度歩行ロボットの歩行切り替えと歩行安定化 学習に基づく到達可能性:2リンク歩行の事例研究

Gait Switching and Enhanced Stabilization of Walking Robots with Deep Learning-based Reachability: A Case Study on Two-link Walker ( http://arxiv.org/abs/2409.16301v1 )

ライセンス: Link先を確認
Xingpeng Xia, Jason J. Choi, Ayush Agrawal, Koushil Sreenath, Claire J. Tomlin, Somil Bansal(参考訳) 学習ベースのアプローチは、最近、足の移動において顕著な成功を収めた。 しかしながら、これらのアプローチは説明責任を欠くことが多く、その有効性を決定するために経験的テストを必要とする。 本研究では,安定度を検証・保証できる学習型移動制御器の設計に関心がある。 これは、脚のあるロボットの安定した歩行路へのアトラクション(RoAs)の領域を検証することで達成できる。 これは、そのハイブリッドなダイナミクスのため、脚のついたロボットにとって非自明な問題である。 これまでの研究は、ハミルトン・ヤコビ(HJ)がこの問題を解くのに有効であることを示してきたが、その実用性はスケーラビリティの貧弱さによって制限された。 我々の研究の中核的な貢献は、従来の作業の制限を克服するハイブリッド脚ロボットダイナミクスにディープラーニングベースのHJリーチビリティソリューションを採用することである。 まず、学習した到達性ソリューションを用いて、様々な歩行に対してRoAsのライブラリを推定する。 第2に、検証されたRoA内の個々の歩行に効果的に安定化するワンステップ予測コントローラを設計できる。 最後に、RoA分析により実現可能性を示す外部摂動に応答して、歩行を切り替える戦略を考案することができる。 数学的モデルが確立した2リンク歩行シミュレーションにおいて,本手法を実証する。 本手法は,既存の学習手法にはない透明性を確保しつつ,従来のモデルベース手法よりも安定性を向上する。

Learning-based approaches have recently shown notable success in legged locomotion. However, these approaches often lack accountability, necessitating empirical tests to determine their effectiveness. In this work, we are interested in designing a learning-based locomotion controller whose stability can be examined and guaranteed. This can be achieved by verifying regions of attraction (RoAs) of legged robots to their stable walking gaits. This is a non-trivial problem for legged robots due to their hybrid dynamics. Although previous work has shown the utility of Hamilton-Jacobi (HJ) reachability to solve this problem, its practicality was limited by its poor scalability. The core contribution of our work is the employment of a deep learning-based HJ reachability solution to the hybrid legged robot dynamics, which overcomes the previous work's limitation. With the learned reachability solution, first, we can estimate a library of RoAs for various gaits. Second, we can design a one-step predictive controller that effectively stabilizes to an individual gait within the verified RoA. Finally, we can devise a strategy that switches gaits, in response to external perturbations, whose feasibility is guided by the RoA analysis. We demonstrate our method in a two-link walker simulation, whose mathematical model is well established. Our method achieves improved stability than previous model-based methods, while ensuring transparency that was not present in the existing learning-based approaches.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-10
# 音声表現モデルにおけるトランスフォーマースタックの冗長性

How Redundant Is the Transformer Stack in Speech Representation Models? ( http://arxiv.org/abs/2409.16302v1 )

ライセンス: Link先を確認
Teresa Dorszewski, Albert Kj{\o}ller Jacobsen, Lenka T\v{e}tkov\'a, Lars Kai Hansen(参考訳) 自己教師付き音声表現モデル、特にトランスフォーマーアーキテクチャを利用するモデルは、音声認識、話者識別、感情検出といった様々なタスクにおいて顕著な性能を示している。 変圧器モデルに関する最近の研究により, 層間に高い冗長性と, 有意な刈り取りの可能性を明らかにし, トランスフォーマに基づく音声表現モデルについて検討する。 音声表現モデルにおいて,コサイン類似度,中心核アライメント,近接近傍アライメントという3つの類似度指標を用いて,層間類似度を詳細に解析する。 以上の結果から,ブロック状構造は高い類似性を示し,2つの主要な処理ステップとレイヤーの顕著な冗長性が示唆された。 本研究では,変換器をベースとした音声表現モデルにおいて,後処理を必要とせず,最大40%の変換器層削減を実現し,95%以上の予測能力を維持できることを示す。 さらに,全変圧器スタックを模擬層に置換し,ネットワークサイズ95~98%,推論時間を最大94%削減する知識蒸留手法を採用した。 この計算負荷の大幅な減少は、かなりの性能損失を伴わずに起こり、この変換器スタックは、音声表現モデルの下流の応用には、ほぼ完全に冗長であることを示す。

Self-supervised speech representation models, particularly those leveraging transformer architectures, have demonstrated remarkable performance across various tasks such as speech recognition, speaker identification, and emotion detection. Recent studies on transformer models revealed a high redundancy between layers and the potential for significant pruning, which we will investigate here for transformer-based speech representation models. We perform a detailed analysis of layer similarity in speech representation models using three similarity metrics: cosine similarity, centered kernel alignment, and mutual nearest-neighbor alignment. Our findings reveal a block-like structure of high similarity, suggesting two main processing steps and significant redundancy of layers. We demonstrate the effectiveness of pruning transformer-based speech representation models without the need for post-training, achieving up to 40% reduction in transformer layers while maintaining over 95% of the model's predictive capacity. Furthermore, we employ a knowledge distillation method to substitute the entire transformer stack with mimicking layers, reducing the network size 95-98% and the inference time by up to 94%. This substantial decrease in computational load occurs without considerable performance loss, suggesting that the transformer stack is almost completely redundant for downstream applications of speech representation models.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-10
# 確率に基づく不確実性非線形ビームの損傷検出 ボルテラ級数:実験的応用

Damage detection in an uncertain nonlinear beam based on stochastic Volterra series: an experimental application ( http://arxiv.org/abs/2409.16305v1 )

ライセンス: Link先を確認
Luis Gustavo Gioacon Villani, Samuel da Silva, Americo Cunha Jr, and Michael D. Todd(参考訳) 構造体の内在的非線形挙動と自然データ変動を考慮した場合, 両現象が線形および決定論的アプローチを実施すれば, 損傷と混同できるため, 損傷検出問題はより困難な課題となる。 そこで本研究は,不確実性の存在による測定データの変化を考慮した初期非線形システムにおける損傷検出のための新規検出手法を併用した,Volterraシリーズの確率バージョンを実験的に適用することを目的としている。 実験装置は、自由極端に近い磁石の存在によって誘導される健康状態であっても、非線形に運動するカンチレバービームによって構成される。 基準条件および損傷条件で推定した全応答におけるVolterra核の線形および非線形寄与の比較から,ボルト接続(ナッツ緩み)の質量変化に伴う損傷を検出する。 実験は、測定されたデータに自然な変動を加えるために、異なる日に行われた。 確率論的手法を用いて得られた結果とボルテラ級数の決定論的版との比較を行い, 統計的信頼度で損傷の有無を検出できる実験データ変動を考慮した場合の確率的モデル利用の利点を示した。 また, 非線形測定では, 損傷の発生に対する感度が高く, 固有非線形挙動を示す場合の非線形測定値の適用を正当化した。

The damage detection problem becomes a more difficult task when the intrinsically nonlinear behavior of the structures and the natural data variation are considered in the analysis because both phenomena can be confused with damage if linear and deterministic approaches are implemented. Therefore, this work aims the experimental application of a stochastic version of the Volterra series combined with a novelty detection approach to detect damage in an initially nonlinear system taking into account the measured data variation, caused by the presence of uncertainties. The experimental setup is composed by a cantilever beam operating in a nonlinear regime of motion, even in the healthy condition, induced by the presence of a magnet near to the free extremity. The damage associated with mass changes in a bolted connection (nuts loosed) is detected based on the comparison between linear and nonlinear contributions of the stochastic Volterra kernels in the total response, estimated in the reference and damaged conditions. The experimental measurements were performed on different days to add natural variation to the data measured. The results obtained through the stochastic proposed approach are compared with those obtained by the deterministic version of the Volterra series, showing the advantage of the stochastic model use when we consider the experimental data variation with the capability to detect the presence of the damage with statistical confidence. Besides, the nonlinear metric used presented a higher sensitivity to the occurrence of the damage compared with the linear one, justifying the application of a nonlinear metric when the system exhibits intrinsically nonlinear behavior.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-10
# 日頭風力発電の確率的時空間モデリング 入力Warped Gaussian プロセスで

Probabilistic Spatiotemporal Modeling of Day-Ahead Wind Power Generation with Input-Warped Gaussian Processes ( http://arxiv.org/abs/2409.16308v1 )

ライセンス: Link先を確認
Qiqi Li and Mike Ludkovski(参考訳) 我々は,日頭風力予測の特徴を捉えるために,ガウス過程(GP)時空間モデルを設計する。 我々は、数百の風力発電所で時間スケールの日頭予測を行い、その主な目的は、空間と時間にまたがる完全な確率論的ジョイントモデルを構築することである。 この目的のために、風力の共分散における非定常性を捉えるために、時空間入力ワープと時空間入力ワープの両方を実装した分離可能な時空カーネルを設計する。 我々は,空間カーネルの選択を検証し,非定常性に対処する上でのワープの有効性を示すために合成実験を行った。 論文の後半は、テキサス州のERCOT地域の風力発電所を表す現実的で完全に校正されたデータセットを用いた詳細な事例研究に費やされている。

We design a Gaussian Process (GP) spatiotemporal model to capture features of day-ahead wind power forecasts. We work with hourly-scale day-ahead forecasts across hundreds of wind farm locations, with the main aim of constructing a fully probabilistic joint model across space and hours of the day. To this end, we design a separable space-time kernel, implementing both temporal and spatial input warping to capture the non-stationarity in the covariance of wind power. We conduct synthetic experiments to validate our choice of the spatial kernel and to demonstrate the effectiveness of warping in addressing nonstationarity. The second half of the paper is devoted to a detailed case study using a realistic, fully calibrated dataset representing wind farms in the ERCOT region of Texas.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-10
# 能動学習における一般化誤差の境界

Bounds on the Generalization Error in Active Learning ( http://arxiv.org/abs/2409.09078v1 )

ライセンス: Link先を確認
Vincent Menden, Yahya Saleh, Armin Iske, (参考訳) 一般化誤差に基づいて上界の族を導出することにより,能動的学習のための経験的リスク最小化原理を確立する。 経験的観測と並行して,有界な問合せアルゴリズムは情報性と代表性の両方の問合せ戦略を組み合わせることで得られることを示唆し,後者を積分確率測定値を用いて評価する。 本研究は,これらの境界を応用しやすくするために,それらの損失関数と仮説クラスを特徴付ける多様なアクティブな学習シナリオを,対応する上限に体系的にリンクする。 この結果から,様々な仮説クラスの複雑性を制約するために用いられる正規化手法は,境界の妥当性を確保するのに十分な条件であることが示唆された。 本研究は,能動学習におけるクエリアルゴリズムの原理的構築と実証的品質評価を可能にする。

We establish empirical risk minimization principles for active learning by deriving a family of upper bounds on the generalization error. Aligning with empirical observations, the bounds suggest that superior query algorithms can be obtained by combining both informativeness and representativeness query strategies, where the latter is assessed using integral probability metrics. To facilitate the use of these bounds in application, we systematically link diverse active learning scenarios, characterized by their loss functions and hypothesis classes to their corresponding upper bounds. Our results show that regularization techniques used to constraint the complexity of various hypothesis classes are sufficient conditions to ensure the validity of the bounds. The present work enables principled construction and empirical quality-evaluation of query algorithms in active learning.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-10
# D3-GNN: グラフニューラルネットワークのストリーミングのための動的分散データフロー

D3-GNN: Dynamic Distributed Dataflow for Streaming Graph Neural Networks ( http://arxiv.org/abs/2409.09079v1 )

ライセンス: Link先を確認
Rustam Guliyev, Aparajita Haldar, Hakan Ferhatosmanoglu, (参考訳) ストリーミンググラフ上のグラフニューラルネットワーク(GNN)モデルには、動的状態を継続的にキャプチャするアルゴリズム上の課題と、推論とトレーニングの両方でレイテンシ、メモリ、スループットを最適化するシステムの課題が含まれている。 D3-GNNは、オンラインクエリ設定下でリアルタイムグラフ更新を処理するように設計された、最初の分散並列型ストリーミングGNNシステムである。 我々のシステムは,データ管理,アルゴリズム,システムの課題に対処し,グラフの動的状態を連続的にキャプチャし,フォールトトレランスと最適なレイテンシ,ロードバランス,スループットでノード表現を更新する。 D3-GNNは、ストリーミングGNNアグリゲータと、カスケーディンググラフ更新を処理するために、アンロールされた分散計算グラフアーキテクチャを利用する。 データスキューや近所の爆発問題に対処するため, 層間および層間フォワードパスソリューションを導入する。 大規模グラフストリームの実験により、D3-GNNは高い効率とスケーラビリティを実現することが示された。 DGLと比較して、D3-GNNはストリーミングワークロードで約76倍のスループット向上を実現している。 ウィンドウ拡張により、ランニング時間が約10倍、メッセージボリュームが最大15倍、高い並列性が向上する。

Graph Neural Network (GNN) models on streaming graphs entail algorithmic challenges to continuously capture its dynamic state, as well as systems challenges to optimize latency, memory, and throughput during both inference and training. We present D3-GNN, the first distributed, hybrid-parallel, streaming GNN system designed to handle real-time graph updates under online query setting. Our system addresses data management, algorithmic, and systems challenges, enabling continuous capturing of the dynamic state of the graph and updating node representations with fault-tolerance and optimal latency, load-balance, and throughput. D3-GNN utilizes streaming GNN aggregators and an unrolled, distributed computation graph architecture to handle cascading graph updates. To counteract data skew and neighborhood explosion issues, we introduce inter-layer and intra-layer windowed forward pass solutions. Experiments on large-scale graph streams demonstrate that D3-GNN achieves high efficiency and scalability. Compared to DGL, D3-GNN achieves a significant throughput improvement of about 76x for streaming workloads. The windowed enhancement further reduces running times by around 10x and message volumes by up to 15x at higher parallelism.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-10
# 多基準サプライヤー選択のためのシャドーAHP

Shadowed AHP for multi-criteria supplier selection ( http://arxiv.org/abs/2409.09082v1 )

ライセンス: Link先を確認
Mohamed Abdel Hameed El-Hawy, (参考訳) 様々なビジネス領域において, MCDM (Multi-criteria decision-making) の多くの技術が提案されている。 良く知られた方法の1つは分析階層プロセス (AHP) である。 様々な不確実な数値は、AHP問題における選好値を表すために一般的に用いられる。 多粒度言語情報の場合、この種のAHP問題に対処するためにいくつかの方法が提案されている。 本稿では, シャドードファジィ数(SFN)を用いた新しい解法を提案する。 これらの数は、異なる種類のファジィ数を近似し、それらの不確実性を保存することで特徴づけられる。 新しいShadowed AHP法は、不確実数の多型で表される選好値を扱うために提案される。 新たなアプローチでは、多粒度選好値をシャドードファジィ数の統一モデルに変換し、それらの特性を利用する。 集約選好の結果を順序付けするための新しいランキング手法が導入された。 本手法は,多粒質情報を用いたサプライヤー選択問題の解法である。 この新しいアプローチの特徴は、意思決定アプリケーションにとって重要である。

Numerous techniques of multi-criteria decision-making (MCDM) have been proposed in a variety of business domains. One of the well-known methods is the Analytical Hierarchical Process (AHP). Various uncertain numbers are commonly used to represent preference values in AHP problems. In the case of multi-granularity linguistic information, several methods have been proposed to address this type of AHP problem. This paper introduces a novel method to solve this problem using shadowed fuzzy numbers (SFNs). These numbers are characterized by approximating different types of fuzzy numbers and preserving their uncertainty properties. The new Shadowed AHP method is proposed to handle preference values which are represented by multi-types of uncertain numbers. The new approach converts multi-granular preference values into unified model of shadowed fuzzy numbers and utilizes their properties. A new ranking approach is introduced to order the results of aggregation preferences. The new approach is applied to solve a supplier selection problem in which multi-granular information are used. The features of the new approach are significant for decision-making applications.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-10
# 顔の放射曲線を表現したガウス人の顔

Gaussian Differentially Private Human Faces Under a Face Radial Curve Representation ( http://arxiv.org/abs/2409.08301v1 )

ライセンス: Link先を確認
Carlos Soto, Matthew Reimherr, Aleksandra Slavkovic, Mark Shriver, (参考訳) 本稿では,Gaussian Differentially Private (GDP) 3D Human Faceをリリースする際の問題点について考察する。 人間の顔は多くの特徴を持つ複雑な構造であり、本質的には自身のアイデンティティと結びついている。 このデータを公式にプライベートな方法で保護することは、問題の次元性を考えると重要であるが、難しい。 機能データに対する近似DP手法をGDPフレームワークに拡張する。 さらに、3次元顔の新たな表現である顔放射曲線を関数の集合として提案し、その上で、提案したGDP関数データ機構を利用する。 ノイズを注入しながら顔の形状を保存するためには、新しい顔表現のための形状解析からツールに頼る。 提案手法は, 平均面形状を保存し, 従来のプライバシ予算よりも少ないノイズを注入する。 我々のメカニズムは2つの主成分から構成されており、第1は関数値の要約(非パラメトリック統計学や関数データ解析によく見られる)に、第2はディスクのような面に、第2は人間の顔にのみ適用可能である。

In this paper we consider the problem of releasing a Gaussian Differentially Private (GDP) 3D human face. The human face is a complex structure with many features and inherently tied to one's identity. Protecting this data, in a formally private way, is important yet challenging given the dimensionality of the problem. We extend approximate DP techniques for functional data to the GDP framework. We further propose a novel representation, face radial curves, of a 3D face as a set of functions and then utilize our proposed GDP functional data mechanism. To preserve the shape of the face while injecting noise we rely on tools from shape analysis for our novel representation of the face. We show that our method preserves the shape of the average face and injects less noise than traditional methods for the same privacy budget. Our mechanism consists of two primary components, the first is generally applicable to function value summaries (as are commonly found in nonparametric statistics or functional data analysis) while the second is general to disk-like surfaces and hence more applicable than just to human faces.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-10
# 分子が細胞にどのように影響するか:対照的な分子の検索を解き放つ

How Molecules Impact Cells: Unlocking Contrastive PhenoMolecular Retrieval ( http://arxiv.org/abs/2409.08302v1 )

ライセンス: Link先を確認
Philip Fradkin, Puria Azadi, Karush Suri, Frederik Wenkel, Ali Bashashati, Maciej Sypetkowski, Dominique Beaini, (参考訳) 細胞機能に対する分子的影響を予測することは、治療設計における中核的な課題である。 細胞形態を捉えるために設計されたフェノミクス実験は、顕微鏡に基づく手法を用いて、細胞への分子的影響を明らかにするための高いスループットのソリューションを実証する。 本研究では,分子構造と微視的現象実験の結合潜時空間を学習し,対と対のサンプルを対比学習で整列する。 具体的には, 表現実験で条件付きゼロショット分子構造同定法であるContrastive PhenoMolecular Retrievalの問題について検討する。 実験バッチ効果,不活性な分子摂動,摂動濃度の符号化など,表現学と分子モードのマルチモーダル学習における課題を評価する。 我々は,(1)単モード事前学習表現モデル,(2)新しいサンプル間類似性認識損失モデル,(3)分子濃度の表現を条件としたモデルを用いて,改良されたマルチモーダル学習者検索を実証した。 本法に続いて分子フェノミクスモデルである MolPhenix を提案する。 MolPhenixは、トレーニング済みのフェノミクスモデルを利用して、摂動濃度、分子足場、活動しきい値間で大きなパフォーマンス向上を示す。 特に、これまでの最先端技術と比較して、ゼロショット分子による活性分子の検索が8.1倍向上し、トップ1%の精度で77.33%に達した。 これらの結果は、仮想フェノミクススクリーニングに機械学習を適用するための扉を開く。

Predicting molecular impact on cellular function is a core challenge in therapeutic design. Phenomic experiments, designed to capture cellular morphology, utilize microscopy based techniques and demonstrate a high throughput solution for uncovering molecular impact on the cell. In this work, we learn a joint latent space between molecular structures and microscopy phenomic experiments, aligning paired samples with contrastive learning. Specifically, we study the problem ofContrastive PhenoMolecular Retrieval, which consists of zero-shot molecular structure identification conditioned on phenomic experiments. We assess challenges in multi-modal learning of phenomics and molecular modalities such as experimental batch effect, inactive molecule perturbations, and encoding perturbation concentration. We demonstrate improved multi-modal learner retrieval through (1) a uni-modal pre-trained phenomics model, (2) a novel inter sample similarity aware loss, and (3) models conditioned on a representation of molecular concentration. Following this recipe, we propose MolPhenix, a molecular phenomics model. MolPhenix leverages a pre-trained phenomics model to demonstrate significant performance gains across perturbation concentrations, molecular scaffolds, and activity thresholds. In particular, we demonstrate an 8.1x improvement in zero shot molecular retrieval of active molecules over the previous state-of-the-art, reaching 77.33% in top-1% accuracy. These results open the door for machine learning to be applied in virtual phenomics screening, which can significantly benefit drug discovery applications.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-10
# 手書き解析による神経変性疾患評価のための説明可能な指標

Explainable Metrics for the Assessment of Neurodegenerative Diseases through Handwriting Analysis ( http://arxiv.org/abs/2409.08303v1 )

ライセンス: Link先を確認
Thomas Thebaud, Anna Favaro, Casey Chen, Gabrielle Chavez, Laureano Moro-Velazquez, Ankur Butala, Najim Dehak, (参考訳) 運動の変化は、パーキンソン病(PD)やアルツハイマー病(AD)のような神経変性疾患(ND)の初期の兆候であるが、特に初期の段階では検出が困難であることが多い。 本研究では,デジタルタブレット上で複数のタスクを行う113人の被験者の筆跡信号から抽出した,幅広い説明可能なメトリクスの挙動について検討する。 目的はADやPDを含む複数のNDの特徴付けと評価における有効性を評価することである。 この目的のために、タスクに依存しないメトリクスとタスク固有のメトリクスを14の異なるタスクから抽出する。 その後、統計分析と一連の分類実験を通じて、NDと健康管理、および異なるND間の識別力を高める指標について検討する。 予備的な結果から, 各種タスクを効果的に活用して, 検討されたNDの集合を識別できることが示唆された。特に, 安定度, 書込み速度, 書込みに要しない時間, および手作業による説明可能な指標からの群間の圧力変動を測定することで, 複数のタスクに対するp値が0.0001未満であることが示唆された。 各種分類アルゴリズムを用いて,ADと健康制御(CTL)の識別精度を最大87%,PD対CTLでは最大69%とした。

Motor changes are early signs of neurodegenerative diseases (NDs) such as Parkinson's disease (PD) and Alzheimer's disease (AD), but are often difficult to detect, especially in the early stages. In this work, we examine the behavior of a wide array of explainable metrics extracted from the handwriting signals of 113 subjects performing multiple tasks on a digital tablet. The aim is to measure their effectiveness in characterizing and assessing multiple NDs, including AD and PD. To this end, task-agnostic and task-specific metrics are extracted from 14 distinct tasks. Subsequently, through statistical analysis and a series of classification experiments, we investigate which metrics provide greater discriminative power between NDs and healthy controls and among different NDs. Preliminary results indicate that the various tasks at hand can all be effectively leveraged to distinguish between the considered set of NDs, specifically by measuring the stability, the speed of writing, the time spent not writing, and the pressure variations between groups from our handcrafted explainable metrics, which shows p-values lower than 0.0001 for multiple tasks. Using various classification algorithms on the computed metrics, we obtain up to 87% accuracy to discriminate AD and healthy controls (CTL), and up to 69% for PD vs CTL.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-10
# スペクトル不変量の下での形状不変量と二重井戸ポテンシャル

Shape Invariant Single and Double well Potentials under Spectral Invariance ( http://arxiv.org/abs/1907.05235v7 )

ライセンス: Link先を確認
Biswanath Rath, (参考訳) 我々は、微分不変量を用いて、形状不変量におけるスペクトル不変量の構造を定式化する。

We formulate the structure of spectral invariance in shape invariance single and double well potentials using derivative invariance.
翻訳日:2024-09-13 22:57:37 公開日:2024-09-10
# コンパクトマックスウェル-シェン-サイモンズ理論のハミルトン格子定式化

Hamiltonian Lattice Formulation of Compact Maxwell-Chern-Simons Theory ( http://arxiv.org/abs/2407.20225v2 )

ライセンス: Link先を確認
Changnan Peng, Maria Cristina Diamantini, Lena Funcke, Syed Muhammad Ali Hassan, Karl Jansen, Stefan Kühn, Di Luo, Pranay Naredi, (参考訳) 本稿では、2+1Dコンパクトマクスウェル-シェン-シモンズ理論に対するハミルトン格子の定式化を導出する。 この理論を解析的に解き、連続極限の質量ギャップがよく知られた連続式と一致することを示す。 我々の定式化は、チャーン・サイモンズレベルの量子化、エネルギー固有状態の縮退、ウィルソンループの非自明な性質、および任意のオンの相互統計や自己統計などの位相的特徴を保存する。 この研究は、古典的および量子コンピュータにおけるマクスウェル・シェン・サイモンズ理論の将来のハミルトンに基づくシミュレーションの基礎となる。

In this paper, a Hamiltonian lattice formulation for 2+1D compact Maxwell-Chern-Simons theory is derived. We analytically solve this theory and demonstrate that the mass gap in the continuum limit matches the well-known continuum formula. Our formulation preserves topological features such as the quantization of the Chern-Simons level, the degeneracy of energy eigenstates, the non-trivial properties of Wilson loops, and the mutual and self statistics of anyons. This work lays the groundwork for future Hamiltonian-based simulations of Maxwell-Chern-Simons theory on classical and quantum computers.
翻訳日:2024-09-13 21:10:23 公開日:2024-09-10
# DV-FSR:Federated Sequential Recommendationのためのデュアルビューターゲットアタックフレームワーク

DV-FSR: A Dual-View Target Attack Framework for Federated Sequential Recommendation ( http://arxiv.org/abs/2409.07500v1 )

ライセンス: Link先を確認
Qitao Qin, Yucong Luo, Mingyue Cheng, Qingyang Mao, Chenyi Lei, (参考訳) フェデレートされたレコメンデーション(FedRec)は、パーソナライズされたモデルの分散トレーニングを可能にすることによって、ユーザのプライバシを保護します。 商業的・社会的影響を考慮したFedRecシステムにおける標的攻撃に関する重要な研究が進められている。 しかしながら、この研究の多くは、レコメンデーションモデルの微分ロバスト性を見落としている。 さらに,本研究では,既存の攻撃手法がFSR(Federated Sequential Recommendation)タスクにおいて限られた効果しか得られないことが実証された。 これらの観測により、我々はFSRの標的攻撃を調査することに集中し、DV-FSRと呼ばれる新しいデュアルビュー攻撃フレームワークを提案する。 この攻撃方法は、サンプリングに基づく明示的戦略と対照的な学習に基づく暗黙的勾配戦略を一意に組み合わせて、協調攻撃を編成する。 さらに,FSRにおける標的攻撃に適した特定の防御機構を導入し,攻撃方法の緩和効果を評価することを目的とした。 大規模実験により,提案手法が代表的逐次モデルに対して有効であることを示す。

Federated recommendation (FedRec) preserves user privacy by enabling decentralized training of personalized models, but this architecture is inherently vulnerable to adversarial attacks. Significant research has been conducted on targeted attacks in FedRec systems, motivated by commercial and social influence considerations. However, much of this work has largely overlooked the differential robustness of recommendation models. Moreover, our empirical findings indicate that existing targeted attack methods achieve only limited effectiveness in Federated Sequential Recommendation (FSR) tasks. Driven by these observations, we focus on investigating targeted attacks in FSR and propose a novel dualview attack framework, named DV-FSR. This attack method uniquely combines a sampling-based explicit strategy with a contrastive learning-based implicit gradient strategy to orchestrate a coordinated attack. Additionally, we introduce a specific defense mechanism tailored for targeted attacks in FSR, aiming to evaluate the mitigation effects of the attack method we proposed. Extensive experiments validate the effectiveness of our proposed approach on representative sequential models.
翻訳日:2024-09-13 20:40:16 公開日:2024-09-10
# 暗号構造上で実証された計算論理公式のコンパクトQUBO符号化

A compact QUBO encoding of computational logic formulae demonstrated on cryptography constructions ( http://arxiv.org/abs/2409.07501v1 )

ライセンス: Link先を確認
Gregory Morse, Tamás Kozsik, Oskar Mencer, Peter Rakyta, (参考訳) 我々は,暗号アルゴリズムに焦点をあてて,準拘束的二項最適化の最先端を推し進めることを目指している。 最適化問題の線形制約の最小限のQUBOエンコーディングは、整数線形プログラミング(ILP)問題の解として現れるので、その整数係数に対する特別なブール論理式(ANFやDNF)を解くことで、正規形式やQUBO形式のマルチインプット AND、OR、XOR演算の置換を簡単に扱うことができる。 提案手法の効率性を示すため,AES-128/192/256,MD5,SHA1,SHA256などの暗号アルゴリズムについて検討した。 これらの結果から,QUBO 行列のスパースと係数の大きさを低く保ちながら,これまでに公表した結果と比較して,QUBO のインスタンスを数千の論理変数で減らした。 AES-256暗号関数の特定の場合、従来の結果と比較して変数数を8倍以上に削減した。 実証されたQUBOサイズの削減は、将来の量子アンニールに対する暗号アルゴリズムの脆弱性を顕著に増加させ、約30ドルの論理変数を埋め込むことができる。

We aim to advance the state-of-the-art in Quadratic Unconstrained Binary Optimization formulation with a focus on cryptography algorithms. As the minimal QUBO encoding of the linear constraints of optimization problems emerges as the solution of integer linear programming (ILP) problems, by solving special boolean logic formulas (like ANF and DNF) for their integer coefficients it is straightforward to handle any normal form, or any substitution for multi-input AND, OR or XOR operations in a QUBO form. To showcase the efficiency of the proposed approach we considered the most widespread cryptography algorithms including AES-128/192/256, MD5, SHA1 and SHA256. For each of these, we achieved QUBO instances reduced by thousands of logical variables compared to previously published results, while keeping the QUBO matrix sparse and the magnitude of the coefficients low. In the particular case of AES-256 cryptography function we obtained more than 8x reduction in variable count compared to previous results. The demonstrated reduction in QUBO sizes notably increases the vulnerability of cryptography algorithms against future quantum annealers, capable of embedding around $30$ thousands of logical variables.
翻訳日:2024-09-13 20:40:16 公開日:2024-09-10
# 秩序格子におけるディック超放射性:次元的問題

Dicke superradiance in ordered lattices: dimensionality matters ( http://arxiv.org/abs/2110.08380v5 )

ライセンス: Link先を確認
Eric Sierra, Stuart J. Masson, Ana Asenjo-Garcia, (参考訳) 秩序原子配列におけるディック超放射能は、原子同期が光子放出のバーストを引き起こす現象である。 この超ラジカルバーストは、わずか数個の支配的な崩壊チャネルが存在する場合にのみ起こる。 固定原子数の場合、これは臨界原子間距離以下でしか発生しない。 ここでは、配列次元が超輝度を駆動する決定因子であることを示す。 2Dおよび3Dアレイにおいて、超放射は構造的干渉によって発生し、原子番号によって強く成長する。 これは、原子番号を2Dで、また3Dでパワー則として、サブ対数的にスケールする臨界距離に繋がる。 1Dアレイでは、破壊的な干渉によって特定の崩壊チャネルを効果的に切り離し、原子番号で飽和する臨界距離が生じる。 以上の結果から, 最先端実験装置における多体崩壊を探索するためのガイドが得られた。

Dicke superradiance in ordered atomic arrays is a phenomenon where atomic synchronization gives rise to a burst in photon emission. This superradiant burst only occurs if there is one -- or just a few -- dominant decay channels. For a fixed atom number, this happens only below a critical interatomic distance. Here we show that array dimensionality is the determinant factor that drives superradiance. In 2D and 3D arrays, superradiance occurs due to constructive interference, which grows stronger with atom number. This leads to a critical distance that scales sublogarithmically with atom number in 2D, and as a power law in 3D. In 1D arrays, superradiance occurs due to destructive interference that effectively switches off certain decay channels, yielding a critical distance that saturates with atom number. Our results provide a guide to explore many-body decay in state-of-the art experimental setups.
翻訳日:2024-09-12 22:35:44 公開日:2024-09-10
# 資金調達における暗号リワードの効果:準実験からディクタゲームへ

The Effect of Crypto Rewards in Fundraising: From a Quasi-Experiment to a Dictator Game ( http://arxiv.org/abs/2207.07490v3 )

ライセンス: Link先を確認
Jane, Tan, Yong Tan, (参考訳) 条件付き感謝の贈り物は、慈善的な寄付のための最も広く使われるインセンティブの1つです。 過去の研究では、非金銭的な感謝ギフト(eg、マグ、シャツ)と金銭的な感謝ギフト(eg、rebates、寄付のいくつかを寄付者に返却する)を調査していた。 ブロックチェーン技術の急速な成長に続いて、新しい形式の感謝の贈り物が登場した。 2つの研究を通して、デジタル世界での資金調達デザインに光を当てるために、暗号通貨の感謝の贈り物を分析します。 Study Iでは、EthereumとBitcoinの両方に寄付を受け付けているウクライナ政府の暗号通貨資金調達訴訟について検討する。 イーサリアムの寄付額はビットコインよりも706.07%多いため、ビットコインよりもイーサリアムの方がかなり効果的であることがわかった。 これは、暗号通貨の報酬がBitcoinよりもEthereumで発行される可能性が高いためだろう。 しかし、コントリビューションサイズの減少は、暗号通貨の報酬に対する反応として、BitcoinよりもEthereumにおいて顕著である。 In Study II, we performed a lab experiment after a dictator game design to research the impact of Crypto rewards in a general scenario, with the Crypto rewards specified as non-fungible tokens (NFTs)。 スタディIIの暗号報酬は金銭的価値は持たないが、寄付者を象徴的に認識するのに役立つ。 そのため、NFTの感謝ギフトは、寄付を効果的に誘導するものではなく、従来の1:1の寄付マッチングは、感謝ギフトなしでの条件と、NFTの感謝ギフトによる条件の両方を厳密に上回っている。 それでも、NFTの感謝の贈り物は寄付の規模を効果的に増やし、NFTのグラフィックデザイン・プライムがドナーIDを寄付し、チャリティーの受給者を包含するときに、寄付の選択を条件づけた。

Conditional thank-you gifts are one of the most widely used incentives for charitable giving. Past studies explored non-monetary thank-you gifts (e.g., mugs and shirts) and monetary thank-you gifts (e.g., rebates that return some of the donations to the giver). Following the rapid growth of blockchain technology, a novel form of thank-you gifts emerged: the crypto rewards. Through two studies, we analyze crypto thank-you gifts to shed light on fundraising designs in the digital world. In Study I, we examine the Ukrainian government's crypto fundraising plea that accepts donations in both Ethereum and Bitcoin. We find that Ethereum is substantially more effective in enticing giving than Bitcoin, as the hourly donation count increased 706.07% more for Ethereum than for Bitcoin when crypto rewards are present. This is likely because the crypto rewards are more likely to be issued on Ethereum than Bitcoin. However, the decrease in contribution sizes is also more substantial in Ethereum than in Bitcoin in response to the crypto rewards. In Study II, we conducted a laboratory experiment following a dictator game design to investigate the impact of crypto rewards in a more general scenario, with the crypto rewards specified as non-fungible tokens (NFTs). The crypto rewards in Study II carry no monetary value but only serve to recognize donors symbolically. As such, the NFT thank-you gifts did not effectively induce people to donate; a traditional 1:1 donation matching strictly outperforms both the condition without thank-you gifts and the condition with NFT thank-you gifts. Nevertheless, the NFT thank-you gifts effectively increased the contribution sizes, conditional on the choice to give, when the NFT's graphic design primes donor identity and encompasses the charity recipient.
翻訳日:2024-09-12 22:35:44 公開日:2024-09-10
# 責任あるAIシステムのためのマクロ倫理原則:分類学と今後の方向性

Macro Ethics Principles for Responsible AI Systems: Taxonomy and Future Directions ( http://arxiv.org/abs/2208.12616v4 )

ライセンス: Link先を確認
Jessica Woodgate, Nirav Ajmeri, (参考訳) 責任あるAIは、人間の価値を考慮し、人間の道徳によって正当化される決定を下すか、または支持できなければならない。 責任ある意思決定における価値とモラルの調整は、社会的文脈を取り入れた全体論的レンズを通して倫理を考察するマクロ倫理の観点を採用することで支持される。 哲学から推測される規範的倫理原則は、倫理について体系的に推論し、特定の文脈で倫理的判断を行うために用いられる。 規範的倫理原則の運用は、マクロ倫理の観点から責任ある推論を促進する。 我々は、AIとコンピュータサイエンスの文献を調査し、AIで運用可能な21の規範的倫理原則の分類学を開発する。 それぞれの原則がこれまでどのように運用されてきたかを説明し、倫理的原則を実装しようとするAI実践者が認識すべき重要なテーマを強調します。 我々は、この分類が、責任あるAIシステムの能力の推論に規範的倫理原則を取り入れるための方法論の開発を促進することを想定している。

Responsible AI must be able to make or support decisions that consider human values and can be justified by human morals. Accommodating values and morals in responsible decision making is supported by adopting a perspective of macro ethics, which views ethics through a holistic lens incorporating social context. Normative ethical principles inferred from philosophy can be used to methodically reason about ethics and make ethical judgements in specific contexts. Operationalising normative ethical principles thus promotes responsible reasoning under the perspective of macro ethics. We survey AI and computer science literature and develop a taxonomy of 21 normative ethical principles which can be operationalised in AI. We describe how each principle has previously been operationalised, highlighting key themes that AI practitioners seeking to implement ethical principles should be aware of. We envision that this taxonomy will facilitate the development of methodologies to incorporate normative ethical principles in reasoning capacities of responsible AI systems.
翻訳日:2024-09-12 22:28:06 公開日:2024-09-10
# ニューラル積分方程式

Neural Integral Equations ( http://arxiv.org/abs/2209.15190v5 )

ライセンス: Link先を確認
Emanuele Zappala, Antonio Henrique de Oliveira Fonseca, Josue Ortega Caro, Andrew Henry Moberly, Michael James Higley, Jessica Cardin, David van Dijk, (参考訳) 長距離時空間依存を持つ非線形作用素は、科学全体にわたる複雑なシステムをモデル化する上で基本的なものであるが、これらの非局所作用素を学習することは、機械学習において依然として困難である。 そのような非局所的なシステムをモデル化する積分方程式(IE)は、物理学、化学、生物学、工学に幅広い応用がある。 IEソルバを用いたデータから未知の積分演算子を学習する方法であるNeural Integral Equations (NIE)を導入する。 スケーラビリティとモデルキャパシティを向上させるために、積分を自己注意に置き換える意図的ニューラルネットワーク積分方程式(ANIE)も提示する。 どちらのモデルも第二種積分方程式の理論に基礎を置いており、不定詞は積分作用素の内部と外部の両方に現れる。 本稿では, 半正規性仮定の下で自己注意が積分作用素をどのように近似するかを理論的解析し, 先に報告した変換器と積分との接続をより深くし, 積分作用素に対する対応する近似結果を導出する。 Lotka-Volterra、Navier-Stokes、Burgersの方程式など、合成および実世界のデータに関する数値的なベンチマークを通じて、モデルの能力と解釈可能な動的埋め込みを導出する能力を示す。 実験の結果,AnIEは従来の手法,特に時間間隔と高次元問題において優れていた。 我々の研究は、非局所演算子の機械学習における重要なギャップに対処し、長い範囲依存を持つ未知の複雑なシステムを研究するための強力なツールを提供する。

Nonlinear operators with long distance spatiotemporal dependencies are fundamental in modeling complex systems across sciences, yet learning these nonlocal operators remains challenging in machine learning. Integral equations (IEs), which model such nonlocal systems, have wide ranging applications in physics, chemistry, biology, and engineering. We introduce Neural Integral Equations (NIE), a method for learning unknown integral operators from data using an IE solver. To improve scalability and model capacity, we also present Attentional Neural Integral Equations (ANIE), which replaces the integral with self-attention. Both models are grounded in the theory of second kind integral equations, where the indeterminate appears both inside and outside the integral operator. We provide theoretical analysis showing how self-attention can approximate integral operators under mild regularity assumptions, further deepening previously reported connections between transformers and integration, and deriving corresponding approximation results for integral operators. Through numerical benchmarks on synthetic and real world data, including Lotka-Volterra, Navier-Stokes, and Burgers' equations, as well as brain dynamics and integral equations, we showcase the models' capabilities and their ability to derive interpretable dynamics embeddings. Our experiments demonstrate that ANIE outperforms existing methods, especially for longer time intervals and higher dimensional problems. Our work addresses a critical gap in machine learning for nonlocal operators and offers a powerful tool for studying unknown complex systems with long range dependencies.
翻訳日:2024-09-12 22:28:06 公開日:2024-09-10
# 大規模言語モデルを用いた情報抽出に関する実証的研究

An Empirical Study on Information Extraction using Large Language Models ( http://arxiv.org/abs/2305.14450v2 )

ライセンス: Link先を確認
Ridong Han, Chaohao Yang, Tao Peng, Prayag Tiwari, Xiang Wan, Lu Liu, Benyou Wang, (参考訳) ヒューマンライクな大規模言語モデル(LLM)、特にOpenAIのGPTファミリーで最も強力で人気のあるモデルは、多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。 そのため、構造化されていない平文から情報を抽出する基本的NLPタスクである情報抽出(IE)にLLMを適用する様々な試みがなされている。 LLMの情報抽出能力の最新の進歩を示すために,評価基準,ロバスト性,エラータイプという4つの視点から,GPT-4(この記事執筆時のGPTの最新版)の情報抽出能力を評価する。 この結果から, GPT-4 と State-of-the-art (SOTA) IE メソッドの間には, 可視的な性能差があることが示唆された。 この問題を軽減するために、LLMの人間的な特徴を考慮し、他のLLMやNLPタスクに一般化可能な一連の単純なプロンプトベースの手法の効果を提案、分析する。 GPT-4の情報抽出能力の向上に向け,本手法の有効性と今後の課題について検討した。

Human-like large language models (LLMs), especially the most powerful and popular ones in OpenAI's GPT family, have proven to be very helpful for many natural language processing (NLP) related tasks. Therefore, various attempts have been made to apply LLMs to information extraction (IE), which is a fundamental NLP task that involves extracting information from unstructured plain text. To demonstrate the latest representative progress in LLMs' information extraction ability, we assess the information extraction ability of GPT-4 (the latest version of GPT at the time of writing this paper) from four perspectives: Performance, Evaluation Criteria, Robustness, and Error Types. Our results suggest a visible performance gap between GPT-4 and state-of-the-art (SOTA) IE methods. To alleviate this problem, considering the LLMs' human-like characteristics, we propose and analyze the effects of a series of simple prompt-based methods, which can be generalized to other LLMs and NLP tasks. Rich experiments show our methods' effectiveness and some of their remaining issues in improving GPT-4's information extraction ability.
翻訳日:2024-09-12 22:28:06 公開日:2024-09-10
# 11言語における予備理論の予測の検証

Testing the Predictions of Surprisal Theory in 11 Languages ( http://arxiv.org/abs/2307.03667v3 )

ライセンス: Link先を確認
Ethan Gotlieb Wilcox, Tiago Pimentel, Clara Meister, Ryan Cotterell, Roger P. Levy, (参考訳) 精神言語学の基本的な結果は、予測可能な単語の少ない処理に時間がかかることである。 この発見の理論的説明の1つは、ある単語の予測可能性、すなわちその文脈に与えられた負の対数確率を定量化する素因論(Hale, 2001; Levy, 2008)である。 素性理論の予測を支持する証拠は広く複製されているが、その多くは非常に狭いデータ、すなわち英語のテキストを読むネイティブ・イングリッシュ・スピーカーに焦点を当てている。 実際、包括的な多言語解析は存在しない。 本研究は,5つの言語族にまたがる11言語における副次的時間と読解時間の関係を調査することによって,現在の文献におけるこのギャップに対処するものである。 単言語コーパスと多言語コーパスで訓練された言語モデルから推定を導出し、予備理論に関連する3つの予測を検証した。 一 日時を予知するか否か (二 予想外、すなわち文脈エントロピーが読解時間の予測であるか否か。) (iii) 副次的時間と読解時間の連接関数が線形であるか否か。 これら3つの予測はすべて言語横断的に展開されていることがわかった。 より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。

A fundamental result in psycholinguistics is that less predictable words take a longer time to process. One theoretical explanation for this finding is Surprisal Theory (Hale, 2001; Levy, 2008), which quantifies a word's predictability as its surprisal, i.e. its negative log-probability given a context. While evidence supporting the predictions of Surprisal Theory have been replicated widely, most have focused on a very narrow slice of data: native English speakers reading English texts. Indeed, no comprehensive multilingual analysis exists. We address this gap in the current literature by investigating the relationship between surprisal and reading times in eleven different languages, distributed across five language families. Deriving estimates from language models trained on monolingual and multilingual corpora, we test three predictions associated with surprisal theory: (i) whether surprisal is predictive of reading times; (ii) whether expected surprisal, i.e. contextual entropy, is predictive of reading times; (iii) and whether the linking function between surprisal and reading times is linear. We find that all three predictions are borne out crosslinguistically. By focusing on a more diverse set of languages, we argue that these results offer the most robust link to-date between information theory and incremental language processing across languages.
翻訳日:2024-09-12 22:17:57 公開日:2024-09-10
# GenSelfDiff-HIS: 組織像分割のための拡散を用いた自己スーパービジョン

GenSelfDiff-HIS: Generative Self-Supervision Using Diffusion for Histopathological Image Segmentation ( http://arxiv.org/abs/2309.01487v2 )

ライセンス: Link先を確認
Vishnuvardhan Purma, Suhas Srinath, Seshan Srirangarajan, Aanchal Kakkar, Prathosh A. P, (参考訳) 病理組織像分割は、しばしば正確な検査のために経験豊富な病理医からの分析を必要とする、退屈で時間を要する課題である。 この負担を軽減するため,大規模な注釈付きデータセットを用いて組織像解析を行う機械学習手法が採用されている。 しかし、いくつかのシナリオでは、そのようなモデルをトレーニングしている間に、大規模アノテートされたデータの可用性がボトルネックとなる。 自己教師付き学習(SSL)は、しばしば豊富な注釈のないデータのみを利用するモデルを構築することで、いくつかの欠点を提供する代替パラダイムである。 SSLの基本的な考え方は、不明なデータに対して1つまたは複数の擬似またはプリテキストタスクを実行するようにネットワークを訓練し、その後、さまざまなダウンストリームタスクの基盤として使用することである。 SSLの成功は、考慮されたプレテキストタスクに大きく依存していると考えられる。 分類問題に対するプレテキストタスクの設計には多くの取り組みがあったが、組織学的セグメンテーションのためのSSLに対する試みはそれほど多くはない。 そこで本論文では,遺伝子拡散モデルを用いて病理組織像をセグメント化するためのSSLアプローチを提案する。 本手法は,拡散モデルがセグメント化タスクに似た画像から画像への変換タスクを効果的に解くことに基づく。 そこで我々は, 組織像分割の前提課題として, 生成拡散を提案する。 また、下流タスクに対するマルチロス関数に基づく微調整を提案する。 ヘマトキシリンとエオシン(H\&E)染色画像とアノテーションを併用した頭頸部癌データセットを新たに提案した。 コードはhttps://github.com/suhas-srinath/GenSelfDiff-HIS.comで公開される。

Histopathological image segmentation is a laborious and time-intensive task, often requiring analysis from experienced pathologists for accurate examinations. To reduce this burden, supervised machine-learning approaches have been adopted using large-scale annotated datasets for histopathological image analysis. However, in several scenarios, the availability of large-scale annotated data is a bottleneck while training such models. Self-supervised learning (SSL) is an alternative paradigm that provides some respite by constructing models utilizing only the unannotated data which is often abundant. The basic idea of SSL is to train a network to perform one or many pseudo or pretext tasks on unannotated data and use it subsequently as the basis for a variety of downstream tasks. It is seen that the success of SSL depends critically on the considered pretext task. While there have been many efforts in designing pretext tasks for classification problems, there haven't been many attempts on SSL for histopathological segmentation. Motivated by this, we propose an SSL approach for segmenting histopathological images via generative diffusion models in this paper. Our method is based on the observation that diffusion models effectively solve an image-to-image translation task akin to a segmentation task. Hence, we propose generative diffusion as the pretext task for histopathological image segmentation. We also propose a multi-loss function-based fine-tuning for the downstream task. We validate our method using several metrics on two publically available datasets along with a newly proposed head and neck (HN) cancer dataset containing hematoxylin and eosin (H\&E) stained images along with annotations. Codes will be made public at https://github.com/suhas-srinath/GenSelfDiff-HIS.
翻訳日:2024-09-12 22:17:57 公開日:2024-09-10
# HandNeRF: 単一のRGB画像から手動インタラクションシーンを再構築する学習

HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image ( http://arxiv.org/abs/2309.07891v5 )

ライセンス: Link先を確認
Hongsuk Choi, Nikhil Chavan-Dafle, Jiacheng Yuan, Volkan Isler, Hyunsoo Park, (参考訳) 本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。 単一画像の深度あいまいさと手と物体の介在性により,3次元手動画像再構成のための推論とトレーニングデータ生成は困難である。 我々はこの課題を、手の形を利用して、手と物体形状の相対的な構成を制限し、機会に変える。 我々は3次元手形特徴と2次元オブジェクト特徴との相関を明示的にエンコードし,手と物体のシーン形状を予測する一般化可能な暗黙関数HandNeRFを設計する。 実世界のデータセットを用いた実験により、HandNeRFは、新しいグリップ構成のハンドオブジェクトシーンを、同等の手法よりも正確に再構築できることが示されている。 さらに,HandNeRFからのオブジェクト再構成により,ロボットハンドオーバや操作のための把握や動作計画などの下流タスクをより正確に実行できることが実証された。 ホームページ:https://samsunglabs.github.io/HandNeRF-project-page/

This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of downstream tasks, such as grasping and motion planning for robotic hand-over and manipulation. Homepage: https://samsunglabs.github.io/HandNeRF-project-page/
翻訳日:2024-09-12 22:17:57 公開日:2024-09-10
# ファインマン図形の組合せ和: 2次元SU(N)ハバードモデルの状態方程式

Combinatorial summation of Feynman diagrams: Equation of state of the 2D SU(N) Hubbard model ( http://arxiv.org/abs/2309.13774v4 )

ライセンス: Link先を確認
Evgeny Kozik, (参考訳) ファインマンの図式級数(英: Feynman's diagrammatic series)は、無限に多くの相互作用する量子粒子の系の公式な理論記述のための共通言語であり、精度計算の基礎である。 ここでは、一般量子多体系に対する連結あるいはスケルトン・ファインマン図の効率的な和を求める普遍的な枠組みを紹介する。 これは、古典的コンピュータ上のダイアグラム順序と量子コンピュータ上の潜在的多項式でのみ指数関数化できる計算コストで、動的プログラミングによるインテグレードの和を明示的に組み合わせた構成に基づいている。 実験系における2D$$SU(N)$ Hubbardモデルの状態方程式の非バイアス図式モンテカルロ計算による手法について述べる。

Feynman's diagrammatic series is a common language for a formally exact theoretical description of systems of infinitely-many interacting quantum particles, as well as a foundation for precision computational techniques. Here we introduce a universal framework for efficient summation of connected or skeleton Feynman diagrams for generic quantum many-body systems. It is based on an explicit combinatorial construction of the sum of the integrands by dynamic programming, at a computational cost that can be made only exponential in the diagram order on a classical computer and potentially polynomial on a quantum computer. We illustrate the technique by an unbiased diagrammatic Monte Carlo calculation of the equation of state of the $2D$ $SU(N)$ Hubbard model in an experimentally relevant regime, which has remained challenging for state-of-the-art numerical methods.
翻訳日:2024-09-12 22:17:57 公開日:2024-09-10
# 大規模言語モデルにおける相互関連認知能力の証拠:人工知能や達成の指標?

Evidence of interrelated cognitive-like capabilities in large language models: Indications of artificial general intelligence or achievement? ( http://arxiv.org/abs/2310.11616v3 )

ライセンス: Link先を確認
David Ilić, Gilles E. Gignac, (参考訳) LLM(Large Language Model)は、単語の定義、計算の実行、言語推論など、人間の知能テストで一般的に見られる様々なタスクを実行できる高度な人工知能(AI)システムである。 LLMの容量にも大きな違いがある。 人体試料中の正の多様体と一般知能因子と,グループレベル因子(例えば,結晶化知能)とを一貫した観察から,LLM試験スコアは正の相関を示す可能性があり,人工的な汎用能力(AGA)因子と1つ以上のグループレベル因子が生じる可能性があると仮定した。 流体推論(Gf)、ドメイン固有知識(Gkn)、読み書き知識(Grw)、量的知識(Gq)と整合した12の試験結果から,正の多様体と能力の一般因子の強い実証的証拠が得られた。 さらに,Gkn/Grw群レベル因子の組合せを同定した。 最後に、LLMパラメータの数は、能力の一般因子とGkn/Grw因子のスコアに正の相関を示したが、効果は低下した。 人間の認知能力と同様に、LLMは情報処理や問題解決において共通の基礎的効率を共有できるが、LLMが知性よりも主に達成・熟練を表わすかどうかは定かではない。 最後に、多数のパラメータを持つモデルは、より大きな神経密度と人間の一般知能の関連に類似した、より一般的な認知的な能力を示すが、他の特徴も関与する必要がある。

Large language models (LLMs) are advanced artificial intelligence (AI) systems that can perform a variety of tasks commonly found in human intelligence tests, such as defining words, performing calculations, and engaging in verbal reasoning. There are also substantial individual differences in LLM capacities. Given the consistent observation of a positive manifold and general intelligence factor in human samples, along with group-level factors (e.g., crystallized intelligence), we hypothesized that LLM test scores may also exhibit positive intercorrelations, which could potentially give rise to an artificial general ability (AGA) factor and one or more group-level factors. Based on a sample of 591 LLMs and scores from 12 tests aligned with fluid reasoning (Gf), domain-specific knowledge (Gkn), reading/writing (Grw), and quantitative knowledge (Gq), we found strong empirical evidence for a positive manifold and a general factor of ability. Additionally, we identified a combined Gkn/Grw group-level factor. Finally, the number of LLM parameters correlated positively with both general factor of ability and Gkn/Grw factor scores, although the effects showed diminishing returns. We interpreted our results to suggest that LLMs, like human cognitive abilities, may share a common underlying efficiency in processing information and solving problems, though whether LLMs manifest primarily achievement/expertise rather than intelligence remains to be determined. Finally, while models with greater numbers of parameters exhibit greater general cognitive-like abilities, akin to the connection between greater neuronal density and human general intelligence, other characteristics must also be involved.
翻訳日:2024-09-12 22:17:57 公開日:2024-09-10
# ビジョン・ランゲージ・チューニングの効率化に向けて - 情報密度の向上, 一般化可能性向上に向けて-

Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability ( http://arxiv.org/abs/2312.10813v3 )

ライセンス: Link先を確認
Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Xiaohan Ding, Jungong Han, Guiguang Ding, (参考訳) 大規模な事前学習型視覚言語モデルの進歩により、基礎モデルに埋め込まれた知識を下流タスクに効果的に移行することが、特にデータ共有環境において重要なトピックとなっている。 近年,パラメータ効率のよい微調整手法,特にプロンプトチューニングが注目されている。 そこで我々は,プロンプトチューニングの性質をよりよく理解するために,行列が様々な特徴空間に均等に分散されるのではなく,特定の特徴空間に強く属するかどうかを示すために,'情報密度' (ID) の概念を提案する。 いくつかの特徴空間に強いバイアスを持つ高いIDは、自然に優れた堅牢性と安定性をもたらすと仮定する。 我々の研究は、一般化可能性がプロンプト行列の情報密度と密接に関連しているという観察から着想を得て、Dense Information Prompt (DIP)を導入している。 DIPは、情報密度を高め、一般化を改善することを目的としている。 さらに、DIPは調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。 総合的な実験は、DIPの優越性を裏付けるものである。 特に、DIPは最新の最先端の手法を、例外的に小さなパラメータ数でかなりのマージンで上回っている。 11のデータセットにまたがるタスクの範囲で、DIPは0.5Kパラメータを使用して古典的なプロンプトチューニングの平均下流精度を最大5.76%改善する。

With the advancement of large pre-trained vision-language models, effectively transferring the knowledge embedded within these foundational models to downstream tasks has become a pivotal topic, particularly in data-scarce environments. Recently, parameter-efficient fine-tuning approaches, especially prompt tuning, have garnered considerable attention. To better understand the nature of prompt tuning, we propose the concept of ``Information Density'' (ID) to indicate whether a matrix strongly belongs to certain feature spaces rather than being evenly distributed across various feature spaces. We suppose a higher ID with strong bias across some feature spaces naturally leads to excellent robustness and stability. Our research, inspired by the observation that generalizability is closely linked to the information density of the prompt matrix, introduces the Dense Information Prompt (DIP). DIP aims to enhance information density to improve generalization. Furthermore, DIP significantly reduces the number of tunable parameters and the requisite storage space, making it particularly advantageous in resource-constrained settings. Comprehensive experiments substantiate the superiority of DIP. Notably, DIP surpasses the latest state-of-the-art methods by a substantial margin with an exceptionally small parameter count. Across a range of tasks spanning 11 datasets, DIP improves the average downstream accuracy of classic prompt tuning by up to 5.76% using merely 0.5K parameters.
翻訳日:2024-09-12 22:03:32 公開日:2024-09-10
# ポジションペーパー: 機械学習と感性分析のギャップを埋める

Position Paper: Bridging the Gap Between Machine Learning and Sensitivity Analysis ( http://arxiv.org/abs/2312.13234v2 )

ライセンス: Link先を確認
Christian A. Scholbeck, Julia Moosbauer, Giuseppe Casalicchio, Hoshin Gupta, Bernd Bischl, Christian Heumann, (参考訳) 我々は、機械学習(ML)モデルやモデル構築プロセスの解釈を、環境モデリング、工学、経済学など多くの分野において複雑なシステムを説明するのに使用される一般的な手法である感度分析(SA)の一形態と見なすことができると論じる。 我々は、研究者と実践者の両方に対処し、MLにおける説明の統一的なSAベースビューの利点と、関連する作業の完全信用の必要性に注意を払っている。 両フィールド間のギャップを形式的に記述することで橋渡しする (a)MLプロセスはSAに適したシステムである (b)既存のML解釈手法がこの観点とどのように関連しているか、そして (c)他のSA技術がMLにどのように適用できるか。

We argue that interpretations of machine learning (ML) models or the model-building process can be seen as a form of sensitivity analysis (SA), a general methodology used to explain complex systems in many fields such as environmental modeling, engineering, or economics. We address both researchers and practitioners, calling attention to the benefits of a unified SA-based view of explanations in ML and the necessity to fully credit related work. We bridge the gap between both fields by formally describing how (a) the ML process is a system suitable for SA, (b) how existing ML interpretation methods relate to this perspective, and (c) how other SA techniques could be applied to ML.
翻訳日:2024-09-12 22:03:32 公開日:2024-09-10
# 人間の意思決定を評価する実験のための決定理論の基礎

Decision Theoretic Foundations for Experiments Evaluating Human Decisions ( http://arxiv.org/abs/2401.15106v4 )

ライセンス: Link先を確認
Jessica Hullman, Alex Kale, Jason Hartline, (参考訳) 意思決定に情報ディスプレイをどのように使うかは、人間中心のAI、モデル説明可能性、データの可視化、関連する領域に主に関心がある。 しかし、決定問題を構成するものや、人間の決定が改善できることを示す研究に必要なものについては、憶測の余地が残されている。 本稿では,HCIにおいて人的意思決定を改善するための基準として,統計的決定理論と情報経済学から合成された意思決定問題の広く適用可能な定義を提案する。 我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。 実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。 偏見のある行動の特定を主張する39の研究のうち10(26\%)は、その行動が少なくとも1つの治療条件において良い意思決定から逸脱していると特徴付けるのに十分な情報を持っている。 我々は、よく定義された意思決定問題を研究することの価値を、彼らが認識できるパフォーマンス損失の特徴を説明することによって動機づける。 対照的に、コミュニケーションの不十分な決定問題の曖昧さは規範的解釈を妨げる。 私たちは練習の勧告で締めくくります。

How well people use information displays to make decisions is of primary interest in human-centered AI, model explainability, data visualization, and related areas. However, what constitutes a decision problem, and what is required for a study to establish that human decisions could be improved remain open to speculation. We propose a widely applicable definition of a decision problem synthesized from statistical decision theory and information economics as a standard for establishing when human decisions can be improved in HCI. We argue that to attribute loss in human performance to forms of bias, an experiment must provide participants with the information that a rational agent would need to identify the utility-maximizing decision. As a demonstration, we evaluate the extent to which recent evaluations of decision-making from the literature on AI-assisted decisions achieve these criteria. We find that only 10 (26\%) of 39 studies that claim to identify biased behavior present participants with sufficient information to characterize their behavior as deviating from good decision-making in at least one treatment condition. We motivate the value of studying well-defined decision problems by describing a characterization of performance losses they allow us to conceive. In contrast, the ambiguities of a poorly communicated decision problem preclude normative interpretation. We conclude with recommendations for practice.
翻訳日:2024-09-12 22:03:32 公開日:2024-09-10
# WebLINX: マルチターン対話による実世界のWebサイトナビゲーション

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue ( http://arxiv.org/abs/2402.05930v2 )

ライセンス: Link先を確認
Xing Han Lù, Zdeněk Kasner, Siva Reddy, (参考訳) 本稿では,対話型Webナビゲーションの課題として,Webブラウザを制御し,ユーザの指示に従って実世界のタスクをマルチターン対話方式で解決する手法を提案する。 WEBLINXは,対話型Webナビゲーションの2300件のエキスパートによる実演において,100Kインタラクションの大規模ベンチマークである。 私たちのベンチマークでは、150以上の現実世界のウェブサイトで幅広いパターンをカバーし、さまざまなシナリオにおけるエージェントのトレーニングと評価に使用しています。 情報量が大きいため、LLM(Large Language Models)はWebページ全体をリアルタイムで処理することはできない。 このボトルネックを解決するために、我々は関連要素をランク付けしてHTMLページを効率的に作成する検索インスパイアされたモデルを設計する。 選択した要素とスクリーンショットとアクション履歴を使用して、Webをナビゲートする際の人間の振る舞いを再現するさまざまなモデルを評価します。 我々の実験は、小さなテキストのみからプロプライエタリなマルチモーダル LLM まで多岐にわたる。 より小型の微調整デコーダは、最高のゼロショットLCM(GPT-4Vを含む)を超えるが、スクリーンショット上で明示的に事前訓練された大型の細調整マルチモーダルモデルも見出した。 しかし、すべての微調整されたモデルは、目に見えないウェブサイトに一般化するのに苦労している。 この結果から,新しい設定に一般化可能な大規模マルチモーダルモデルの必要性が浮き彫りになった。 私たちのコード、データ、モデルは、研究のために利用可能です。

We propose the problem of conversational web navigation, where a digital agent controls a web browser and follows user instructions to solve real-world tasks in a multi-turn dialogue fashion. To support this problem, we introduce WEBLINX - a large-scale benchmark of 100K interactions across 2300 expert demonstrations of conversational web navigation. Our benchmark covers a broad range of patterns on over 150 real-world websites and can be used to train and evaluate agents in diverse scenarios. Due to the magnitude of information present, Large Language Models (LLMs) cannot process entire web pages in real-time. To solve this bottleneck, we design a retrieval-inspired model that efficiently prunes HTML pages by ranking relevant elements. We use the selected elements, along with screenshots and action history, to assess a variety of models for their ability to replicate human behavior when navigating the web. Our experiments span from small text-only to proprietary multimodal LLMs. We find that smaller finetuned decoders surpass the best zero-shot LLMs (including GPT-4V), but also larger finetuned multimodal models which were explicitly pretrained on screenshots. However, all finetuned models struggle to generalize to unseen websites. Our findings highlight the need for large multimodal models that can generalize to novel settings. Our code, data and models are available for research: https://mcgill-nlp.github.io/weblinx
翻訳日:2024-09-12 21:47:34 公開日:2024-09-10
# 多体量子カオスの一般モデルの投影状態アンサンブル

Projected state ensemble of a generic model of many-body quantum chaos ( http://arxiv.org/abs/2402.16939v2 )

ライセンス: Link先を確認
Amos Chan, Andrea De Luca, (参考訳) 射影アンサンブルは部分系$A$の量子状態の研究に基づいている。 最近の研究では、カオス量子系の熱化に関するより洗練された尺度が、投射されたアンサンブルの量子状態設計への収束、すなわち、一様に分散された純粋状態のハールアンサンブルから最大$k$-秒までの区別不能になったときに熱化するに基づいて定義されることが観察されている。 ここでは,ブロック壁形状のランダムなユニタリ回路を考察し,フレームポテンシャルと統計的機械的問題へのマッピングを通して,Haarアンサンブルへの収束を解析する。 このアプローチは, エンタングルメントエントロピーの研究に現れるような, 変動する膜の存在に基づいて, フレームポテンシャルの幾何学的解釈を強調できる。 大きな局所ヒルベルト空間次元$q$では、すべてのモーメントは、以前に双対ユニタリモデルで観測された特徴である領域$A$のサイズで線形にスケーリングする時間と同時に収束する。 しかし、幾何学的解釈に基づき、稀な膜ゆらぎに基づいて有限$q$でスケーリングし、設計時間$t_k = O(\log k)$の対数スケーリングを求める。 その結果,$q=2$の数値計算が得られた。

The projected ensemble is based on the study of the quantum state of a subsystem $A$ conditioned on projective measurements in its complement. Recent studies have observed that a more refined measure of the thermalization of a chaotic quantum system can be defined on the basis of convergence of the projected ensemble to a quantum state design, i.e. a system thermalizes when it becomes indistinguishable, up to the $k$-th moment, from a Haar ensemble of uniformly distributed pure states. Here we consider a random unitary circuit with the brick-wall geometry and analyze its convergence to the Haar ensemble through the frame potential and its mapping to a statistical mechanical problem. This approach allows us to highlight a geometric interpretation of the frame potential based on the existence of a fluctuating membrane, similar to those appearing in the study of entanglement entropies. At large local Hilbert space dimension $q$, we find that all moments converge simultaneously with a time scaling linearly in the size of region $A$, a feature previously observed in dual unitary models. However, based on the geometric interpretation, we argue that the scaling at finite $q$ on the basis of rare membrane fluctuations, finding the logarithmic scaling of design times $t_k = O(\log k)$. Our results are supported with numerical simulations performed at $q=2$.
翻訳日:2024-09-12 21:32:34 公開日:2024-09-10
# グローバルDNA合成を検証・プライベートにスクリーニングするシステム

A system capable of verifiably and privately screening global DNA synthesis ( http://arxiv.org/abs/2403.14023v2 )

ライセンス: Link先を確認
Carsten Baum, Jens Berlips, Walther Chen, Hongrui Cui, Ivan Damgard, Jiangbin Dong, Kevin M. Esvelt, Leonard Foner, Mingyu Gao, Dana Gretton, Martin Kysel, Juanru Li, Xiang Li, Omer Paneth, Ronald L. Rivest, Francesca Sage-Ling, Adi Shamir, Yue Shen, Meicen Sun, Vinod Vaikuntanathan, Lynn Van Hauwe, Theia Vogel, Benjamin Weinstein-Raun, Yun Wang, Daniel Wichs, Stephen Wooster, Andrew C. Yao, Yu Yu, Haoling Zhang, Kaiyi Zhang, (参考訳) 科学や生物医学の研究にはカスタムDNA配列の印刷が不可欠であるが、この技術は疫病や治療薬の製造にも利用できる。 インクプリンターがお金を偽造しようとする試みを承認し拒否するのと同じように、DNA合成者やアセンブラは、パンデミックの発火に使えるウイルスDNAを作るための無許可の要求を否定しなければならない。 合併症は3つあります。 まず、新たに発見された通貨を扱うためにプリンタを素早く更新する必要はありませんが、新しいウイルスやその他の生物学的脅威について定期的に学習しています。 第二に、生物学的脅威に関する情報とは異なり、ローカルプリンタの偽造防止仕様は悪意あるアクターによって抽出され、誤用されない。 最後に、検査されたDNAシークエンスを秘密にしておく必要がある。 ここでは、SecureDNAについて説明する。SecureDNAは、30以上の塩基対の全DNA合成順序を、最新のハザードデータベースに対して検証し、米国、ヨーロッパ、中国のプロバイダによって合成された6700万塩基対のDNAに適用した場合の、その運用性能と特異性について説明する。

Printing custom DNA sequences is essential to scientific and biomedical research, but the technology can be used to manufacture plagues as well as cures. Just as ink printers recognize and reject attempts to counterfeit money, DNA synthesizers and assemblers should deny unauthorized requests to make viral DNA that could be used to ignite a pandemic. There are three complications. First, we don't need to quickly update printers to deal with newly discovered currencies, whereas we regularly learn of new viruses and other biological threats. Second, anti-counterfeiting specifications on a local printer can't be extracted and misused by malicious actors, unlike information on biological threats. Finally, any screening must keep the inspected DNA sequences private, as they may constitute valuable trade secrets. Here we describe SecureDNA, a free, privacy-preserving, and fully automated system capable of verifiably screening all DNA synthesis orders of 30+ base pairs against an up-to-date database of hazards, and its operational performance and specificity when applied to 67 million base pairs of DNA synthesized by providers in the United States, Europe, and China.
翻訳日:2024-09-12 21:32:34 公開日:2024-09-10
# 単語から数字へ:インコンテキストの例が与えられたとき、あなたの大きな言語モデルは秘密裏にレグレッタになる

From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples ( http://arxiv.org/abs/2404.07544v3 )

ライセンス: Link先を確認
Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu, (参考訳) 我々は,事前学習した大規模言語モデル(例えば,Llama2,GPT-4,Claude 3など)が,追加のトレーニングや勾配更新を伴わずに,文脈内例を与えられた場合の線形回帰や非線形回帰をいかにうまく行うかを分析する。 以上の結果から,複数の大規模言語モデル(GPT-4,Claude 3)は,ランダムフォレストやバッギング,グラディエントブースティングなど,従来の監視手法に匹敵する性能(あるいは優れた性能)で回帰処理を行うことができることがわかった。 例えば、挑戦的なFriedman #2回帰データセットでは、Claude 3がAdaBoost、SVM、Random Forest、KNN、Gradient Boostingといった多くの教師付きメソッドを上回っている。 次に、大規模言語モデルの性能が、文脈内例の個数でどの程度向上するかを考察する。 我々は、オンライン学習から後悔の概念を借用し、LLMがサブ線形後悔を得ることができることを実証的に示す。

We analyze how well pre-trained large language models (e.g., Llama2, GPT-4, Claude 3, etc) can do linear and non-linear regression when given in-context examples, without any additional training or gradient updates. Our findings reveal that several large language models (e.g., GPT-4, Claude 3) are able to perform regression tasks with a performance rivaling (or even outperforming) that of traditional supervised methods such as Random Forest, Bagging, or Gradient Boosting. For example, on the challenging Friedman #2 regression dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM, Random Forest, KNN, or Gradient Boosting. We then investigate how well the performance of large language models scales with the number of in-context exemplars. We borrow from the notion of regret from online learning and empirically show that LLMs are capable of obtaining a sub-linear regret.
翻訳日:2024-09-12 21:32:34 公開日:2024-09-10
# ProFLingo:大規模言語モデルのための指紋ベースの知的財産保護スキーム

ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models ( http://arxiv.org/abs/2405.02466v3 )

ライセンス: Link先を確認
Heng Jin, Chaoyu Zhang, Shanghao Shi, Wenjing Lou, Y. Thomas Hou, (参考訳) 近年,大規模言語モデル (LLM) が注目されている。 その「大きな」性質のため、スクラッチからLLMを訓練することは膨大な計算資源を消費する。 人工知能(AI)分野のいくつかの主要なプレイヤーが独自のLLMをオープンソースにしているため、多くの個人や小規模企業が、これらのオープンソースモデルに基づいて、はるかに低コストでデリバティブなLLMを構築できるようになっている。 しかし、この慣行は、ライセンス契約に従わない無許可の使用や再生の可能性を広げ、微調整はモデルの振る舞いを変え、モデルの所有権の決定を複雑にする。 LLMの現在の知的財産権(IP)保護スキームは、ホワイトボックスの設定のために設計されたか、または実際の設定での使用を制限するオリジナルのモデルに追加の修正を必要とする。 本稿では,LLMのためのブラックボックス指紋認証によるIP保護方式であるProFLingoを提案する。 ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。 提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。 ProFLingoは非侵襲的なアプローチを提供しており、疑似モデルに関する知識もベースモデルやトレーニングプロセスの変更も必要としない。 我々の知る限り、本手法はLSMのIP保護のための最初のブラックボックスフィンガープリント技術である。 ソースコードと生成されたクエリは、https://github.com/hengvt/ProFLingo.comで公開されています。

Large language models (LLMs) have attracted significant attention in recent years. Due to their "Large" nature, training LLMs from scratch consumes immense computational resources. Since several major players in the artificial intelligence (AI) field have open-sourced their original LLMs, an increasing number of individuals and smaller companies are able to build derivative LLMs based on these open-sourced models at much lower costs. However, this practice opens up possibilities for unauthorized use or reproduction that may not comply with licensing agreements, and fine-tuning can change the model's behavior, thus complicating the determination of model ownership. Current intellectual property (IP) protection schemes for LLMs are either designed for white-box settings or require additional modifications to the original model, which restricts their use in real-world settings. In this paper, we propose ProFLingo, a black-box fingerprinting-based IP protection scheme for LLMs. ProFLingo generates queries that elicit specific responses from an original model, thereby establishing unique fingerprints. Our scheme assesses the effectiveness of these queries on a suspect model to determine whether it has been derived from the original model. ProFLingo offers a non-invasive approach, which neither requires knowledge of the suspect model nor modifications to the base model or its training process. To the best of our knowledge, our method represents the first black-box fingerprinting technique for IP protection for LLMs. Our source code and generated queries are available at: https://github.com/hengvt/ProFLingo.
翻訳日:2024-09-12 21:17:34 公開日:2024-09-10
# 周波数適応音場予測を用いた音場ナビゲーションのためのSim2Real Transfer

Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction ( http://arxiv.org/abs/2405.02821v2 )

ライセンス: Link先を確認
Changan Chen, Jordi Ramos, Anshul Tomar, Kristen Grauman, (参考訳) Sim2realトランスファーは最近、シミュレーションのエンドツーエンドにおけるロボットタスクの学習の成功により注目を集めている。 視覚ベースのナビゲーションポリシーの転送には多くの進歩があったが、既存の音声視覚ナビゲーションのsim2real戦略は、音響的ギャップを計測することなく、経験的にデータ拡張を行う。 音は、より広い周波数にまたがる光とは異なるため、sim2realには別の解を必要とする。 本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。 SoundSpacesシミュレータの設計選択を最初に検証し、Continuous AudioGoalナビゲーションベンチマークの改善を示す。 次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。 さらに、測定されたスペクトル差と受信した音声のエネルギー分布の両方に基づいて、予測のための最良の周波数帯域をインテリジェントに選択し、実データの性能を向上させる周波数適応戦略を提案する。 最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。 この研究は、シミュレーションから完全に見たり、聴いたり、行動したりできるインテリジェントなエージェントを構築する可能性を示し、それらを現実世界に転送する。

Sim2real transfer has received increasing attention lately due to the success of learning robotic tasks in simulation end-to-end. While there has been a lot of progress in transferring vision-based navigation policies, the existing sim2real strategy for audio-visual navigation performs data augmentation empirically without measuring the acoustic gap. The sound differs from light in that it spans across much wider frequencies and thus requires a different solution for sim2real. We propose the first treatment of sim2real for audio-visual navigation by disentangling it into acoustic field prediction (AFP) and waypoint navigation. We first validate our design choice in the SoundSpaces simulator and show improvement on the Continuous AudioGoal navigation benchmark. We then collect real-world data to measure the spectral difference between the simulation and the real world by training AFP models that only take a specific frequency subband as input. We further propose a frequency-adaptive strategy that intelligently selects the best frequency band for prediction based on both the measured spectral difference and the energy distribution of the received audio, which improves the performance on the real data. Lastly, we build a real robot platform and show that the transferred policy can successfully navigate to sounding objects. This work demonstrates the potential of building intelligent agents that can see, hear, and act entirely from simulation, and transferring them to the real world.
翻訳日:2024-09-12 21:17:34 公開日:2024-09-10
# CNN, k-nearest Nebors, Support Vector Machines による5G狭帯域ジャマーの検出

Detecting 5G Narrowband Jammers with CNN, k-nearest Neighbors, and Support Vector Machines ( http://arxiv.org/abs/2405.09564v2 )

ライセンス: Link先を確認
Matteo Varotto, Florian Heinrichs, Timo Schuerg, Stefano Tomasin, Stefan Valentin, (参考訳) 5Gセルネットワークは、特に無線信号の特定の制御サブチャネルをターゲットにした狭帯域妨害に対して脆弱である。 1つの緩和アプローチは、機械学習に基づいて、オンライン観察システムでこのような妨害攻撃を検出することである。 本稿では,二項分類を行う機械学習モデルを用いて,物理層におけるジャミングを検出することを提案する。 実験的な5Gネットワークのデータに基づいて,異なる分類モデルの性能について検討する。 畳み込みニューラルネットワークは、ベクトルマシンとk-アネレスト隣人をサポートし、最後の2つの手法と主成分分析を組み合わせる。 その結果,分類精度と計算時間に有意差が認められた。

5G cellular networks are particularly vulnerable against narrowband jammers that target specific control sub-channels in the radio signal. One mitigation approach is to detect such jamming attacks with an online observation system, based on machine learning. We propose to detect jamming at the physical layer with a pre-trained machine learning model that performs binary classification. Based on data from an experimental 5G network, we study the performance of different classification models. A convolutional neural network will be compared to support vector machines and k-nearest neighbors, where the last two methods are combined with principal component analysis. The obtained results show substantial differences in terms of classification accuracy and computation time.
翻訳日:2024-09-12 20:57:55 公開日:2024-09-10
# 単一参照結合クラスター理論と代数幾何学による地中励起状態の探索

Exploring Ground and Excited States via Single Reference Coupled-Cluster Theory and Algebraic Geometry ( http://arxiv.org/abs/2405.12238v2 )

ライセンス: Link先を確認
Svala Sverrisdóttir, Fabian M. Faulstich, (参考訳) 連成クラスター方程式の根の構造の探索は、計算量子化学の基盤的および実践的重要性を持つ。 この研究は、これらの非線形方程式の複雑な根構造について、CCDとCCSDの両方の理論レベルで洞察を与える。 我々は、代数幾何学、特にモノドロミーおよびパラメトリックホモトピー継続法からの計算技術を利用して、完全な解集合を計算する。 計算されたCCの根を、様々な確立された理論上界と比較し、これらの境界の精度と効率について光を遮蔽する。 ここでは、(H$_2$)$_2$のD$_{2{\rm h}}$とD$_{\infty {\rm h}}$の設定、H$_4$の円上に対称に歪んだ水素化リチウムといった四電子系の解離過程に焦点を当てる。 さらに, 単一参照結合クラスタ解の近似励起状態エネルギーへの応用について検討した。 複数のCC根は励起状態のエネルギーを高精度に表現している。 我々の研究によると、水素化リチウムのような系では、CCはいくつかの励起状態エネルギーに対して高精度な近似を提供するだけでなく、州自体にも与えている。

The exploration of the root structure of coupled cluster equations holds both foundational and practical significance for computational quantum chemistry. This study provides insight into the intricate root structures of these non-linear equations at both the CCD and CCSD level of theory. We utilize computational techniques from algebraic geometry, specifically the monodromy and parametric homotopy continuation methods, to calculate the full solution set. We compare the computed CC roots against various established theoretical upper bounds, shedding light on the accuracy and efficiency of these bounds. We hereby focus on the dissociation processes of four-electron systems such as (H$_2$)$_2$ in both D$_{2{\rm h}}$ and D$_{\infty {\rm h}}$ configurations, H$_4$ symmetrically distorted on a circle, and lithium hydride. We moreover investigate the ability of single-reference coupled cluster solutions to approximate excited state energies. We find that multiple CC roots describe energies of excited states with high accuracy. Our investigations reveal that for systems like lithium hydride, CC not only provides high-accuracy approximations to several excited state energies but also to the states themselves.
翻訳日:2024-09-12 20:57:55 公開日:2024-09-10
# 新しいバイアス測定の原理的アプローチ

A Principled Approach for a New Bias Measure ( http://arxiv.org/abs/2405.12312v2 )

ライセンス: Link先を確認
Bruno Scarone, Alfredo Viola, Renée J. Miller, Ricardo Baeza-Yates, (参考訳) 意思決定に機械学習とデータ駆動アルゴリズムが広く使われていることは、長年にわたり着実に増加している。 医療、雇用、金融、教育、法制度など、様々な分野でこの現象が起きている。 負のデータであるemph{bias}は、特定の集団に有害な結果をもたらす傾向がある。 バイアスの負の結果に対処する緩和戦略や効果的な政策は、バイアスが存在するという認識から始まり、その理解と定量化の方法である。 しかし、データのバイアスを測定する方法にはコンセンサスがないため、しばしば意図された意味は文脈に依存し、研究コミュニティには一様ではない。 1)一様バイアス(UB)の定義は、バイアス値の全範囲において明確で単純な解釈を持つ最初のバイアス尺度である。 2)連邦契約コンプライアンスプログラム局が使用した反雇用差別規則の文脈において、既存の措置の欠陥を特徴付けるための体系的研究は、この領域におけるオープンな問題をUBがどのように解決するかを示すものである。 (3) 偏差加算のアルゴリズム仕様に基づく偏差測度の数学的式を導出する効率的な方法を提供する枠組み。 この結果は,9つの公開データセットを用いて実験的に検証され,理論的に解析され,新たな知見が得られた。 当社のアプローチに基づいて、政策立案者にとって有用なバイアス緩和モデルも設計しています。

The widespread use of machine learning and data-driven algorithms for decision making has been steadily increasing over many years. The areas in which this is happening are diverse: healthcare, employment, finance, education, the legal system to name a few; and the associated negative side effects are being increasingly harmful for society. Negative data \emph{bias} is one of those, which tends to result in harmful consequences for specific groups of people. Any mitigation strategy or effective policy that addresses the negative consequences of bias must start with awareness that bias exists, together with a way to understand and quantify it. However, there is a lack of consensus on how to measure data bias and oftentimes the intended meaning is context dependent and not uniform within the research community. The main contributions of our work are: (1) The definition of Uniform Bias (UB), the first bias measure with a clear and simple interpretation in the full range of bias values. (2) A systematic study to characterize the flaws of existing measures in the context of anti employment discrimination rules used by the Office of Federal Contract Compliance Programs, additionally showing how UB solves open problems in this domain. (3) A framework that provides an efficient way to derive a mathematical formula for a bias measure based on an algorithmic specification of bias addition. Our results are experimentally validated using nine publicly available datasets and theoretically analyzed, which provide novel insights about the problem. Based on our approach, we also design a bias mitigation model that might be useful to policymakers.
翻訳日:2024-09-12 20:57:55 公開日:2024-09-10
# 逆転生産プログラムとしてのゴール

Goals as Reward-Producing Programs ( http://arxiv.org/abs/2405.13242v3 )

ライセンス: Link先を確認
Guy Davidson, Graham Todd, Julian Togelius, Todd M. Gureckis, Brenden M. Lake, (参考訳) 人々は、子供の遊びから始まり、成人し続けながら、驚くほど独自の目標を生み出すことができる。 目標と目標指向の行動に関する経験的および計算的な研究にもかかわらず、モデルは日々の人間の目標の豊かさを捉えるには程遠い。 ここではこのギャップを埋めるために、人間が生成した遊び心のあるゴールのデータセット(scorable, Single-playerゲームという形で)を収集し、それらを報酬生成プログラムとしてモデル化し、プログラム合成によって新しい人間のようなゴールを生成する。 リワード生成プログラムは、構成、時間的制約の追加、行動トレース上でプログラムの実行による進捗の評価を可能にする象徴的な操作を通じて、ゴールのリッチなセマンティクスをキャプチャする。 目標生成モデルを構築するために、可能なゴールプログラムの無限集合上の適合関数を学習し、品質多様性アルゴリズムを用いて新しいゴールをサンプリングする。 人間の評価者は、人間の例によって占有されるプログラム空間の分割からサンプルされたモデル生成目標が、人間が作成したゲームと区別できないことを発見した。 また、我々のモデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測することもわかりました。

People are remarkably capable of generating their own goals, beginning with child's play and continuing into adulthood. Despite considerable empirical and computational work on goals and goal-oriented behavior, models are still far from capturing the richness of everyday human goals. Here, we bridge this gap by collecting a dataset of human-generated playful goals (in the form of scorable, single-player games), modeling them as reward-producing programs, and generating novel human-like goals through program synthesis. Reward-producing programs capture the rich semantics of goals through symbolic operations that compose, add temporal constraints, and allow for program execution on behavioral traces to evaluate progress. To build a generative model of goals, we learn a fitness function over the infinite set of possible goal programs and sample novel goals with a quality-diversity algorithm. Human evaluators found that model-generated goals, when sampled from partitions of program space occupied by human examples, were indistinguishable from human-created games. We also discovered that our model's internal fitness scores predict games that are evaluated as more fun to play and more human-like.
翻訳日:2024-09-12 20:57:55 公開日:2024-09-10
# ランダムよりも悪いか? 医療用VQAにおける大規模マルチモーダルモデルの恥ずかしいほど単純な検証

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA ( http://arxiv.org/abs/2405.20421v3 )

ライセンス: Link先を確認
Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang, (参考訳) 大規模マルチモーダルモデル(LMM)は医用視覚質問応答(Med-VQA)において顕著な進歩を示し、既存のベンチマークで高い精度を達成している。 しかし、頑健な評価下での信頼性は疑わしい。 本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。 この批判的評価問題に対処するため,医用画像のLMM性能を探索的評価と手続き的診断により厳格に評価するProbMed(ProbMed)データセットを導入した。 特に、プロシージャ診断には、モダリティ認識、臓器の同定、臨床所見、異常、位置的接地など、各画像の様々な診断次元の推論が必要である。 評価の結果, GPT-4o, GPT-4V, Gemini Pro などのトップパフォーマンスモデルでは, 特定診断質問に対するランダムな推測よりも性能が悪く, きめ細かい医療問合せの処理に限界があることが示唆された。 さらに、LLaVA-Medのようなモデルは、より一般的な疑問に苦しむとともに、CheXagentの結果は、同じ臓器の異なるモダリティをまたいだ専門知識の伝達可能性を示している。 本研究は, 医療診断などの重要な分野におけるLMMの信頼性を確保するために, より堅牢な評価の必要性を浮き彫りにするものである。

Large Multimodal Models (LMMs) have shown remarkable progress in medical Visual Question Answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust evaluation is questionable. This study reveals that when subjected to simple probing evaluation, state-of-the-art models perform worse than random guessing on medical diagnosis questions. To address this critical evaluation problem, we introduce the Probing Evaluation for Medical Diagnosis (ProbMed) dataset to rigorously assess LMM performance in medical imaging through probing evaluation and procedural diagnosis. Particularly, probing evaluation features pairing original questions with negation questions with hallucinated attributes, while procedural diagnosis requires reasoning across various diagnostic dimensions for each image, including modality recognition, organ identification, clinical findings, abnormalities, and positional grounding. Our evaluation reveals that top-performing models like GPT-4o, GPT-4V, and Gemini Pro perform worse than random guessing on specialized diagnostic questions, indicating significant limitations in handling fine-grained medical inquiries. Besides, models like LLaVA-Med struggle even with more general questions, and results from CheXagent demonstrate the transferability of expertise across different modalities of the same organ, showing that specialized domain knowledge is still crucial for improving performance. This study underscores the urgent need for more robust evaluation to ensure the reliability of LMMs in critical fields like medical diagnosis, and current LMMs are still far from applicable to those fields.
翻訳日:2024-09-12 20:57:55 公開日:2024-09-10
# ExTRACT:オフラインデータから伝達可能なロボットスキルを抽出した効率的な政策学習

EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data ( http://arxiv.org/abs/2406.17768v2 )

ライセンス: Link先を確認
Jesse Zhang, Minho Heo, Zuxin Liu, Erdem Biyik, Joseph J Lim, Yao Liu, Rasool Fakoor, (参考訳) ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。 これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。 代わりに、低レベルのアクションよりも、実用的で時間的に拡張されたスキルで行動できるRLエージェントは、新しいタスクをより簡単に学習することができる。 スキルベースのRLの以前の作業は、スケールが難しい有用なスキルを定義するために専門家の監督を必要とするか、あるいは、スキルの適応性を制限したヒューリスティックで、オフラインデータからスキルスペースを学ぶことで、下流RLの移行が困難になる。 提案手法であるEXTRACTは、事前学習された視覚言語モデルを用いて、オフラインデータから意味論的に意味のある個別のスキルを抽出する。 このスキルパラメタライゼーションにより、ロボットは特定のスキルを選択するタイミングと、特定のタスクに対する引数の修正方法を学習するだけで、新しいタスクを学習することができる。 我々は,EXTRACTが従来の作業よりも早く新しいタスクを学習できる,スパースリワード,イメージベース,ロボット操作環境の実験を通じて,従来のスキルベースRLよりもサンプル効率と性能が大きく向上したことを示す。 https://www.jessezhang.net/projects/extract/.com

Most reinforcement learning (RL) methods focus on learning optimal policies over low-level action spaces. While these methods can perform well in their training environments, they lack the flexibility to transfer to new tasks. Instead, RL agents that can act over useful, temporally extended skills rather than low-level actions can learn new tasks more easily. Prior work in skill-based RL either requires expert supervision to define useful skills, which is hard to scale, or learns a skill-space from offline data with heuristics that limit the adaptability of the skills, making them difficult to transfer during downstream RL. Our approach, EXTRACT, instead utilizes pre-trained vision language models to extract a discrete set of semantically meaningful skills from offline data, each of which is parameterized by continuous arguments, without human supervision. This skill parameterization allows robots to learn new tasks by only needing to learn when to select a specific skill and how to modify its arguments for the specific task. We demonstrate through experiments in sparse-reward, image-based, robot manipulation environments that EXTRACT can more quickly learn new tasks than prior works, with major gains in sample efficiency and performance over prior skill-based RL. Website at https://www.jessezhang.net/projects/extract/.
翻訳日:2024-09-12 20:48:06 公開日:2024-09-10
# Casual Monocular Videoの新しいビュー合成のための動的ガウス大理石

Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos ( http://arxiv.org/abs/2406.18717v2 )

ライセンス: Link先を確認
Colton Stearns, Adam Harley, Mikaela Uy, Florian Dubost, Federico Tombari, Gordon Wetzstein, Leonidas Guibas, (参考訳) ガウスのスプラッティングは、効率性、光度品質、組成順応性の明確な強みを示すノベルビュー合成の一般的な表現となっている。 成功の後、多くの作品がガウスを4Dに拡張し、ダイナミックガウスがこれらの利点を維持しつつ、シーン幾何学を代替表現よりもはるかに良く追跡していることを示した。 しかし、これらの手法は、密集した多視点映像を監督するものであると仮定する。 本研究では,ガウス的シーン表現の能力を,カジュアルに捉えたモノクロビデオに拡張することに関心がある。 既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。 そこで本研究では,モノクラーセッティングの難易度を目標とした3つのコア修正からなる動的ガウス大理石 (Dynamic Gaussian Marbles) と呼ばれる手法を提案する。 まず、等方的ガウスの「大理石」を使い、各ガウスの自由度を下げる。 第2に,グローバルなコヒーレントな動きを持つ解への最適化を効率的に導くために,階層的な分割学習とコンカレント学習の戦略を採用する。 最後に、最近のポイントトラッキングの進歩を生かしたトラッキング損失を含む、画像レベルと幾何学レベルの優先順位を最適化に追加する。 最適化の制約により、Dynamic Gaussian Marbles氏は、新しいビューレンダリングを可能にするガウス軌道を学び、シーン要素の3Dモーションを正確にキャプチャする。 我々はNvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し、ガウスのマーブルが他のガウスのベースラインを著しく上回り、ガウスの表現と同等であることを示す。 私たちのプロジェクトページは、https://geometry.stanford.edu/projects/dynamic-gaussian-marbles.github.io/にある。

Gaussian splatting has become a popular representation for novel-view synthesis, exhibiting clear strengths in efficiency, photometric quality, and compositional edibility. Following its success, many works have extended Gaussians to 4D, showing that dynamic Gaussians maintain these benefits while also tracking scene geometry far better than alternative representations. Yet, these methods assume dense multi-view videos as supervision. In this work, we are interested in extending the capability of Gaussian scene representations to casually captured monocular videos. We show that existing 4D Gaussian methods dramatically fail in this setup because the monocular setting is underconstrained. Building off this finding, we propose a method we call Dynamic Gaussian Marbles, which consist of three core modifications that target the difficulties of the monocular setting. First, we use isotropic Gaussian "marbles'', reducing the degrees of freedom of each Gaussian. Second, we employ a hierarchical divide and-conquer learning strategy to efficiently guide the optimization towards solutions with globally coherent motion. Finally, we add image-level and geometry-level priors into the optimization, including a tracking loss that takes advantage of recent progress in point tracking. By constraining the optimization, Dynamic Gaussian Marbles learns Gaussian trajectories that enable novel-view rendering and accurately capture the 3D motion of the scene elements. We evaluate on the Nvidia Dynamic Scenes dataset and the DyCheck iPhone dataset, and show that Gaussian Marbles significantly outperforms other Gaussian baselines in quality, and is on-par with non-Gaussian representations, all while maintaining the efficiency, compositionality, editability, and tracking benefits of Gaussians. Our project page can be found here https://geometry.stanford.edu/projects/dynamic-gaussian-marbles.github.io/.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# 専門知識を用いた完全因果説明に向けて

Towards Complete Causal Explanation with Expert Knowledge ( http://arxiv.org/abs/2407.07338v2 )

ライセンス: Link先を確認
Aparajithan Venkateswaran, Emilija Perković, (参考訳) 我々は,最大祖先グラフ(MAG)のマルコフ同値類を,特定のエッジマークを含むMAGのみに限定する問題を専門知識と呼ぶ。 このようなマルコフ同値類の制限は、制限された本質的な祖先グラフによって一意に表される。 私たちの貢献は数倍です。 まず、Ali et al (2009) からの予想を含むマルコフ同値類全体のある性質を証明する。 第二に、本質的な祖先グラフに専門家の知識を追加するための、いくつかの新しい音声グラフィカルな配向ルールを提案する。 また、Zhang (2008b) の配向規則は、専門家知識を持つマルコフ同値類を制限するために必要ではないことも示している。 第三に、この知識を包含するアルゴリズムを提供し、特定の設定において、アルゴリズムの出力が制限された本質的な祖先グラフであることを示す。 最後に、指定された設定以外では、グラフが制限された必須グラフであるかどうかを確認し、その実行時について議論するアルゴリズムを提供する。 この研究は、Meek (1995) の潜在共役を許容する設定への一般化と見なすことができる。

We study the problem of restricting a Markov equivalence class of maximal ancestral graphs (MAGs) to only those MAGs that contain certain edge marks, which we refer to as expert knowledge. Such a restriction of the Markov equivalence class can be uniquely represented by a restricted essential ancestral graph. Our contributions are several-fold. First, we prove certain properties for the entire Markov equivalence class including a conjecture from Ali et al. (2009). Second, we present several new sound graphical orientation rules for adding expert knowledge to an essential ancestral graph. We also show that some orientation rules of Zhang (2008b) are not needed for restricting the Markov equivalence class with expert knowledge. Third, we provide an algorithm for including this expert knowledge and show that in certain settings the output of our algorithm is a restricted essential ancestral graph. Finally, outside of the specified settings, we provide an algorithm for checking whether a graph is a restricted essential graph and discuss its runtime. This work can be seen as a generalization of Meek (1995) to settings which allow for latent confounding.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# SoftCVI:自己生成型ソフトラベルとの対比変動推論

SoftCVI: Contrastive variational inference with self-generated soft labels ( http://arxiv.org/abs/2407.15687v2 )

ライセンス: Link先を確認
Daniel Ward, Mark Beaumont, Matteo Fasiolo, (参考訳) 正規化されていない密度に与えられた分布を推定することはベイズ推論において重要であり、後者は一般に未知の正規化定数までしか知られていない。 変分推論とマルコフ連鎖モンテカルロ法(英語版)(Markov chain Monte Carlo method)は、このタスクの主要なツールであるが、後部が複素幾何を持つ場合、どちらも確実に適用することはしばしば困難である。 本稿では,ソフトコントラスト変分推論(SoftCVI)を紹介した。 提案手法は, 変分分布の観点から分類器をパラメータ化し, 推論タスクを, サンプル集合中の単一の真の後続サンプルを特定することを目的としたコントラスト推定問題とみなす。 このようなフレーミングにもかかわらず、正あるいは負のサンプルは必要とせず、変分分布をサンプリングし、非正規化後部自身から基底真実のソフト分類ラベルを抽出することで学習する。 目的は、偏差近似が正確であるとき、特殊勾配推定器を必要とせず、偏差勾配をゼロとする。 単純(例:正規)と表現的(正規化フロー)の変動分布を用いて,様々なベイズ推論タスクの性能を実験的に検討した。 我々は、SoftCVIを用いて、訓練や大量発見に安定な目標を定式化することができ、他の変分アプローチよりも頻繁に優れた推論が可能であることを発見した。

Estimating a distribution given access to its unnormalized density is pivotal in Bayesian inference, where the posterior is generally known only up to an unknown normalizing constant. Variational inference and Markov chain Monte Carlo methods are the predominant tools for this task; however, both are often challenging to apply reliably, particularly when the posterior has complex geometry. Here, we introduce Soft Contrastive Variational Inference (SoftCVI), which allows a family of variational objectives to be derived through a contrastive estimation framework. The approach parameterizes a classifier in terms of a variational distribution, reframing the inference task as a contrastive estimation problem aiming to identify a single true posterior sample among a set of samples. Despite this framing, we do not require positive or negative samples, but rather learn by sampling the variational distribution and computing ground truth soft classification labels from the unnormalized posterior itself. The objectives have zero variance gradient when the variational approximation is exact, without the need for specialized gradient estimators. We empirically investigate the performance on a variety of Bayesian inference tasks, using both simple (e.g. normal) and expressive (normalizing flow) variational distributions. We find that SoftCVI can be used to form objectives which are stable to train and mass-covering, frequently outperforming inference with other variational approaches.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# フラックス量子ビットを用いたcQEDの純粋動的インダクタンス結合

Pure kinetic inductance coupling for cQED with flux qubits ( http://arxiv.org/abs/2407.16342v2 )

ライセンス: Link先を確認
Simon Geisert, Soeren Ihssen, Patrick Winkel, Martin Spiecker, Mathieu Fechant, Patrick Paluch, Nicolas Gosling, Nicolas Zapata, Simon Günzler, Dennis Rieger, Denis Bénâtre, Thomas Reisinger, Wolfgang Wernsdorfer, Ioan M. Pop, (参考訳) 分散結合は, 運動的インダクタンスによって完全に媒介される, qubit-readoutアーキテクチャを実証する。 これにより、キュービットと共振器のキャパシタンスに依存しない読み出し共振器の分散シフトを設計できる。 純粋運動的カップリングの概念を検証し、プラズモンからフラックスロンまでの様々な一般化されたフラックス量子ビット状態を示し、半流動量子甘味点における60kHzから2MHzの分散シフトを示す。 量子状態形成率99.7%、励起状態92.7%、非計算状態へのリーク率0.1%以下である従来のアーキテクチャに匹敵する読み出し性能を実現する。

We demonstrate a qubit-readout architecture where the dispersive coupling is entirely mediated by a kinetic inductance. This allows us to engineer the dispersive shift of the readout resonator independent of the qubit and resonator capacitances. We validate the pure kinetic coupling concept and demonstrate various generalized flux qubit regimes from plasmon to fluxon, with dispersive shifts ranging from 60 kHz to 2 MHz at the half-flux quantum sweet spot. We achieve readout performances comparable to conventional architectures with quantum state preparation fidelities of 99.7 % and 92.7 % for the ground and excited states, respectively, and below 0.1 % leakage to non-computational states.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# 非パラメトリック関数に対する補正型アクティブラーニング

Amortized Active Learning for Nonparametric Functions ( http://arxiv.org/abs/2407.17992v2 )

ライセンス: Link先を確認
Cen-You Li, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer, (参考訳) アクティブラーニング(英: Active Learning, AL)は、最も情報性の高いデータを選択するためのシーケンシャルラーニングスキームである。 ALはデータ消費を減らし、大量のデータをラベル付けするコストを回避する。 しかし、ALはモデルをトレーニングし、各選択に対する取得最適化を解決する。 モデルのトレーニングや取得の最適化が難しい場合には、コストがかかります。 本稿では,金標準ガウス過程 (GP) のアプローチが3次時間複雑性に悩まされるような,アクティブな非パラメトリック関数学習に焦点を当てる。 本稿では,実データなしで事前トレーニングを行うニューラルネットワークを用いて,新たなデータを提案するアモータイズAL法を提案する(第1報)。 提案手法は繰り返しモデルトレーニングを回避し,ALデプロイメント中に取得最適化を必要としない。 我が家 i) 関数先行としてGPを使用し、ALシミュレータを構築する。 二 シミュレーションから非パラメトリック関数の実学習問題へのゼロショット一般化が可能なALポリシーを訓練し、 三 リアルタイムデータ選択と学習性能を時間消費ベースライン法に匹敵するものにすること。

Active learning (AL) is a sequential learning scheme aiming to select the most informative data. AL reduces data consumption and avoids the cost of labeling large amounts of data. However, AL trains the model and solves an acquisition optimization for each selection. It becomes expensive when the model training or acquisition optimization is challenging. In this paper, we focus on active nonparametric function learning, where the gold standard Gaussian process (GP) approaches suffer from cubic time complexity. We propose an amortized AL method, where new data are suggested by a neural network which is trained up-front without any real data (Figure 1). Our method avoids repeated model training and requires no acquisition optimization during the AL deployment. We (i) utilize GPs as function priors to construct an AL simulator, (ii) train an AL policy that can zero-shot generalize from simulation to real learning problems of nonparametric functions and (iii) achieve real-time data selection and comparable learning performances to time-consuming baseline methods.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# 知識蒸留とランダムデータ消去によるロバストなマルチモーダルシーケンス診断予測の不完全性の克服

Overcoming Uncertain Incompleteness for Robust Multimodal Sequential Diagnosis Prediction via Knowledge Distillation and Random Data Erasing ( http://arxiv.org/abs/2407.19540v2 )

ライセンス: Link先を確認
Heejoon Koo, (参考訳) そこで,本論文では,欠席頻度の不明な患者診断の予測精度を高めるための新しいフレームワークであるNECHO v2について述べる。 まず、不完全なデータの下で、不完全なモダリティ表現の優位性を扱うために、コード中心の診断で設計されたNECHOを修正する。 第2に,修正NECHOを教師と学生の両方に活用して,体系的な知識蒸留を開発する。 モダリティ的に対照的で階層的な蒸留、トランスフォーマー表現ランダム蒸留、および教師と学生の表現を緊密かつ効果的に整列させる他の蒸留を含む。 また,教師の訓練と蒸留の双方でシーケンス内の個々のデータ点のランダムな消去を利用して,来訪情報不足によるシナリオの軽快なシミュレートを行い,効果的な知識伝達の促進を図る。 その結果、NECHO v2は、マルチモーダル医療データ上で、バランスの取れた状態と不均衡な状態の両方において、マルチモーダルシーケンシャルな診断予測において、堅牢な優位性を示すことにより、自己検証を行う。

In this paper, we present NECHO v2, a novel framework designed to enhance the predictive accuracy of multimodal sequential patient diagnoses under uncertain missing visit sequences, a common challenge in real clinical settings. Firstly, we modify NECHO, designed in a diagnosis code-centric fashion, to handle uncertain modality representation dominance under the imperfect data. Secondly, we develop a systematic knowledge distillation by employing the modified NECHO as both teacher and student. It encompasses a modality-wise contrastive and hierarchical distillation, transformer representation random distillation, along with other distillations to align representations between teacher and student tightly and effectively. We also utilise random erasing on individual data points within sequences during both training and distillation of the teacher to lightly simulate scenario with missing visit information, thereby fostering effective knowledge transfer. As a result, NECHO v2 verifies itself by showing robust superiority in multimodal sequential diagnosis prediction under both balanced and imbalanced incomplete settings on multimodal healthcare data.
翻訳日:2024-09-12 20:32:18 公開日:2024-09-10
# ScaleLLM: エンド・ツー・エンド効率を最適化したリソースフルーガーLLMサービングフレームワーク

ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency ( http://arxiv.org/abs/2408.00008v2 )

ライセンス: Link先を確認
Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Yide Ran, Dimitris Stripelis, Zhaozhuo Xu, Salman Avestimehr, Chaoyang He, (参考訳) 大規模言語モデル (LLM) は、ユーザエクスペリエンスにおいてモデル提供の効率が不可欠である商用アプリケーションで広く利用されている。 最近の研究は、ローカル推論や通信など、個々のサブプロデューサの最適化に重点を置いているが、エンドツーエンドでLLMを最適化するための総合的なシステムビューを提供する包括的フレームワークは存在しない。 本研究では,LLMサービスシステムにおいて,エンドツーエンドのレイテンシに影響を及ぼす主要なボトルネックを特定するための詳細な解析を行う。 解析の結果,LLMサービスエンドポイントはLLM推論を超えて拡張される一連の効率ボトルネックに対処する必要があることがわかった。 次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。 我々の広範な実験によると、64の同時リクエストにより、ScaleLLMはvLLMよりも4.3倍のスピードアップを実現し、1.5倍高いスループットで最先端の処理性能を実現している。

Large language models (LLMs) have surged in popularity and are extensively used in commercial applications, where the efficiency of model serving is crucial for the user experience. Most current research focuses on optimizing individual sub-procedures, e.g. local inference and communication, however, there is no comprehensive framework that provides a holistic system view for optimizing LLM serving in an end-to-end manner. In this work, we conduct a detailed analysis to identify major bottlenecks that impact end-to-end latency in LLM serving systems. Our analysis reveals that a comprehensive LLM serving endpoint must address a series of efficiency bottlenecks that extend beyond LLM inference. We then propose ScaleLLM, an optimized system for resource-efficient LLM serving. Our extensive experiments reveal that with 64 concurrent requests, ScaleLLM achieves a 4.3x speed up over vLLM and outperforms state-of-the-arts with 1.5x higher throughput.
翻訳日:2024-09-12 20:22:30 公開日:2024-09-10
# 3Qubitシステムを用いた量子エネルギーテレポーテーション

Enhanced Quantum Energy Teleportation using a 3-Qubit System ( http://arxiv.org/abs/2408.07997v4 )

ライセンス: Link先を確認
Md Shoyib Hassan, Syed Emad Uddin Shubha, M. R. C Mahdy, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、量子絡み合いを利用して、エネルギーを物理的に動かさずに2つの離れた場所間でエネルギーを伝達する新しい方法である。 超伝導ハードウェア上での最初のQETの実現は、2キュービットのシステムを用いて、受信機ボブによる平均エネルギー回収効率は35.4%(Vのみ)であった。 本稿では,QETのエネルギー効率を高めるために,3量子システムを用いた新しい手法を提案する。 我々は、これを達成するために、3量子基底状態ハミルトニアンHを新たに組み込んだ。これは、送信者および受信者の観測可能な操作のゼロ平均エネルギーと反可換特性の制約に適合する。 実験の結果, エネルギー回収効率は65.5%(Vのみ)で, 実用性に関しては2キュービットシステムよりも有意に向上した。 この進歩は、実用的な量子エネルギー応用の一歩であるだけでなく、将来の量子エネルギーテレポーテーションおよび関連する量子技術研究のための新しいフレームワークも提供する。

Quantum Energy Teleportation (QET) is a novel method that leverages quantum entanglement to transfer energy between two distant locations without any physical movement of the energy. The first realization of QET on superconducting hardware, utilizing a 2-qubit system, demonstrated an average energy retrieval efficiency of 35.4% (observing only V ) by the receiver, Bob. In this paper, we present a new approach using a 3-qubit system to enhance the energy efficiency of QET. We have incorporated a novel 3-qubit ground state hamiltonian H to achieve this, that conforms the constraints of Zero mean energy and anti-commutative properties of the operations on the observable of the senders and receiver. Our experimental results show a significant improvement in energy retrieval, achieving an average efficiency of 65.5% (observing only V ), which is significantly higher than that of the 2-qubit system regarding practical usage. This advancement not only marks a step forward in practical quantum energy applications but also provides a new framework for future research in quantum energy teleportation and related quantum technologies.
翻訳日:2024-09-12 20:22:30 公開日:2024-09-10
# 欠陥のある周期的自由フェルミオン鎖に対するハミルトニアンの絡み合い

Entanglement Hamiltonians for Periodic Free Fermion Chains with Defects ( http://arxiv.org/abs/2408.08281v2 )

ライセンス: Link先を確認
Gavin Rockwood, (参考訳) 欠陥の存在下での周期的境界条件を持つ自由フェルミオン臨界逆場イジングモデルの基底状態の半系絡みハミルトニアンについて検討する。 一般に、これらの欠陥は非局所項をハミルトニアンの絡み合いに導入し、最も大きいものは距離で崩壊する欠陥にまたがるカップリングである。 また、ハミルトニアンの絡み合いは、欠陥が部分系の外にあるとしても、欠陥を知っていることが示されている。 また、サブシステムの境界に欠陥が存在する場合、特に、サブシステムに導かれる結合が切断されるときの挙動について検討する。 最後に, 反周期的欠陥と双対性欠陥の非局所的挙動について検討し, どちらもゼロモードを導入した。

We study the half system entanglement Hamiltonians of the ground state of free fermion critical transverse field Ising model with periodic boundary conditions in the presence of defects. In general, we see that these defects introduce non-local terms into the entanglement Hamiltonian with the largest being couplings across the defect that decay with distance. It is also shown that the entanglement Hamiltonian does know of the defect even if the defect is outside of the subsystem. We also discuss what happens when defects are on the boundaries of the subsystem, and in particular, we investigate the behavior as the bond leading into the subsystem is cut. Finally, we examine the non-local behavior of the antiperiodic defect and duality defect, both of which introduce zero modes.
翻訳日:2024-09-12 20:22:30 公開日:2024-09-10
# 因果パラメータのダブル/デバイアス型機械学習のための任意のValid推論

Anytime-Valid Inference for Double/Debiased Machine Learning of Causal Parameters ( http://arxiv.org/abs/2408.09598v2 )

ライセンス: Link先を確認
Abhinandan Dalal, Patrick Blöbaum, Shiva Kasiviswanathan, Aaditya Ramdas, (参考訳) DML(Double (debiased) Machine Learning)は近年、因果的/構造的パラメータの学習に広く利用されている。 しかし、従来の二重バイアスフレームワークは、所定のサンプルサイズに対して漸近的にのみ有効であり、よりシャープな推論が必要な場合、より多くのデータを収集する柔軟性に欠ける。 これは、巨額の財政コストや人命を伴う大規模な実験研究や、構造パラメータの部分的識別可能性によるサンプルサイズの増加にもかかわらず、間隔の信頼性が0に低下しない観察研究において特に懸念される。 本稿では、漸近的DML結果に対する時間均一性を示し、任意の(おそらくはデータに依存した)停止時間で構造パラメータの推論と信頼区間を構築することができる。 我々は、標準のDML条件よりもわずかに強い条件を提供するが、任意の時効推論に対してより強い保証を提供する。 これにより、既存のDMLメソッドの変換が容易になり、最小限の変更で有効な保証が得られ、高度に適応可能で使いやすくなります。 2つの例を使って手順を説明します。 a) オンライン実験における非遵守による局所的平均治療効果、及び b) 潜在的に未測定なコンバウンディングを伴う観察研究における平均治療効果の部分的同定

Double (debiased) machine learning (DML) has seen widespread use in recent years for learning causal/structural parameters, in part due to its flexibility and adaptability to high-dimensional nuisance functions as well as its ability to avoid bias from regularization or overfitting. However, the classic double-debiased framework is only valid asymptotically for a predetermined sample size, thus lacking the flexibility of collecting more data if sharper inference is needed, or stopping data collection early if useful inferences can be made earlier than expected. This can be of particular concern in large scale experimental studies with huge financial costs or human lives at stake, as well as in observational studies where the length of confidence of intervals do not shrink to zero even with increasing sample size due to partial identifiability of a structural parameter. In this paper, we present time-uniform counterparts to the asymptotic DML results, enabling valid inference and confidence intervals for structural parameters to be constructed at any arbitrary (possibly data-dependent) stopping time. We provide conditions which are only slightly stronger than the standard DML conditions, but offer the stronger guarantee for anytime-valid inference. This facilitates the transformation of any existing DML method to provide anytime-valid guarantees with minimal modifications, making it highly adaptable and easy to use. We illustrate our procedure using two instances: a) local average treatment effect in online experiments with non-compliance, and b) partial identification of average treatment effect in observational studies with potential unmeasured confounding.
翻訳日:2024-09-12 20:12:08 公開日:2024-09-10
# 非凸マトリクスセンシング:サンプル複雑度における2次階乗障壁を破る

Non-convex matrix sensing: Breaking the quadratic rank barrier in the sample complexity ( http://arxiv.org/abs/2408.13276v2 )

ライセンス: Link先を確認
Dominik Stöger, Yizhe Zhu, (参考訳) 少数の線形測定から低ランク行列を再構成する問題に対して、核ノルム最小化に基づく凸法と分解勾配勾配を用いた非凸法という2種類のアルゴリズムが文献で広く研究されている。 特定の統計モデルでは、核ノルムの最小化は、サンプルの数が基底真実の自由度数とともに線形にスケールするとすぐに基底真実を回復することが知られている。 対照的に、非凸アプローチは計算コストが低いが、既存のリカバリ保証では、サンプルの数は少なくとも2次スケールで、基底トラス行列の階数$r$と仮定している。 本稿では,非凸法が試料の複雑さの観点から核ノルム最小化に匹敵する効率を示すことにより,このギャップを埋める。 すなわち、いくつかのガウス測度から正の半定値行列を再構成する問題を考察する。 スペクトル初期化による分解勾配勾配は、サンプルの数が$Omega (rd\kappa^2)$でスケールするとすぐに基底真理に収束し、$d$は次元、$\kappa$は基底真理行列の条件数であることを示す。 これにより、2次から線形への非凸行列分解のサンプル複雑性における以前の階数依存性が向上する。 我々の証明は確率的疎結合論に依拠し、勾配降下反復が測定行列の個々のエントリに弱依存していることを示す。 我々は、我々の証明手法が他の非凸問題に対して独立した関心を持つことを期待している。

For the problem of reconstructing a low-rank matrix from a few linear measurements, two classes of algorithms have been widely studied in the literature: convex approaches based on nuclear norm minimization, and non-convex approaches that use factorized gradient descent. Under certain statistical model assumptions, it is known that nuclear norm minimization recovers the ground truth as soon as the number of samples scales linearly with the number of degrees of freedom of the ground-truth. In contrast, while non-convex approaches are computationally less expensive, existing recovery guarantees assume that the number of samples scales at least quadratically with the rank $r$ of the ground-truth matrix. In this paper, we close this gap by showing that the non-convex approaches can be as efficient as nuclear norm minimization in terms of sample complexity. Namely, we consider the problem of reconstructing a positive semidefinite matrix from a few Gaussian measurements. We show that factorized gradient descent with spectral initialization converges to the ground truth with a linear rate as soon as the number of samples scales with $ \Omega (rd\kappa^2)$, where $d$ is the dimension, and $\kappa$ is the condition number of the ground truth matrix. This improves the previous rank-dependence in the sample complexity of non-convex matrix factorization from quadratic to linear. Our proof relies on a probabilistic decoupling argument, where we show that the gradient descent iterates are only weakly dependent on the individual entries of the measurement matrices. We expect that our proof technique is of independent interest for other non-convex problems.
翻訳日:2024-09-12 20:12:08 公開日:2024-09-10
# Geo-Llama:時空間制約による人体移動軌道生成のためのLLMの活用

Geo-Llama: Leveraging LLMs for Human Mobility Trajectory Generation with Spatiotemporal Constraints ( http://arxiv.org/abs/2408.13918v3 )

ライセンス: Link先を確認
Siyu Li, Toan Tran, Haowen Lin, John Krumm, Cyrus Shahabi, Li Xiong, (参考訳) 人間のモビリティデータのシミュレーションは、交通、都市計画、疫病対策など、さまざまなアプリケーション領域において不可欠である。 いくつかの既存の深層生成ソリューションは、実際の軌道から学習して合成するものを生成することを提案している。 進捗にもかかわらず、そのほとんどはトレーニングの安定性の問題に悩まされ、データサイズが大きくなるとスケーラビリティが低下します。 さらに重要なのは、それらは一般的に、特定の訪問の修正のような時空間的制約に基づいて生成された軌跡を操縦する制御機構が欠如していることだ。 このような制約に対処するため、時空間制約による制御軌道生成問題を正式に定義し、Geo-Llamaを提案する。 LLMにインスパイアされたこの新しいフレームワークは、コンテキスト的に一貫性のある方法で明示的な訪問制約を強制する。 事前に訓練されたLPMを軌道上で微調整し、各訪問が時間と場所に対応するような訪問度順順順に戦略を定めている。 これにより、モデルが訪問順序に関係なく時空間パターンをキャプチャし、生成中のプロンプトを通じてフレキシブルでコンテキスト内制約の統合を可能にする。 実世界のデータセットと合成データセットに関する大規模な実験は、Geo-Llamaの有効性を検証し、既存の手法と比較してより現実的な軌道を生成するために、幅広い制約を扱うための汎用性と堅牢性を実証した。

Simulating human mobility data is essential for various application domains, including transportation, urban planning, and epidemic control, since real data are often inaccessible to researchers due to expensive costs and privacy issues. Several existing deep generative solutions propose learning from real trajectories to generate synthetic ones. Despite the progress, most of them suffer from training stability issues and scale poorly with growing data size. More importantly, they generally lack control mechanisms to steer the generated trajectories based on spatiotemporal constraints such as fixing specific visits. To address such limitations, we formally define the controlled trajectory generation problem with spatiotemporal constraints and propose Geo-Llama. This novel LLM-inspired framework enforces explicit visit constraints in a contextually coherent way. It fine-tunes pre-trained LLMs on trajectories with a visit-wise permutation strategy where each visit corresponds to a time and location. This enables the model to capture the spatiotemporal patterns regardless of visit orders and allows flexible and in-context constraint integration through prompts during generation. Extensive experiments on real-world and synthetic datasets validate the effectiveness of Geo-Llama, demonstrating its versatility and robustness in handling a broad range of constraints to generate more realistic trajectories compared to existing methods.
翻訳日:2024-09-12 20:12:08 公開日:2024-09-10
# Vec2Face: 制約の少ないベクトルによる顔データセット生成のスケーリング

Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors ( http://arxiv.org/abs/2409.02979v2 )

ライセンス: Link先を確認
Haiyu Wu, Jaskirat Singh, Sicong Tian, Liang Zheng, Kevin W. Bowyer, (参考訳) 本稿では,既存の人物の顔画像を合成し,顔認識モデル(FR)を効果的に訓練するデータセットを作成する方法について検討する。 2つの重要なゴールは、(1) 多数の異なるアイデンティティ(クラス間分離)を生成し、(2) 個々のアイデンティティ(クラス内変異)の外観が広範囲に変化する能力である。 しかし、現存する作品 1)は通常、よく区切られたアイデンティティをいくつ生成できるかに制限される。 2) 属性拡張のために別個の編集モデルを無視するか、使用します。 本稿では,サンプルベクトルのみを入力とし,顔画像とその属性を柔軟に生成・制御できる総合モデルであるVec2Faceを提案する。 機能マスク付きオートエンコーダとデコーダで構成されたVec2Faceは、顔画像再構成によって監視され、推論に便利に使用できる。 Vec2Faceは、それらの間の類似性が低いベクトルを入力として使用し、よく分離されたIDを生成する。 入力IDベクトルを小さな範囲内でランダムに摂動することで、Vec2Faceは顔属性の頑健な変化で同一のIDの顔を生成することができる。 また、勾配降下法を用いてベクトル値を調整することにより、指定された属性を持つ画像を生成することもできる。 Vec2Faceは、1500万枚の画像を持つ300万枚のIDを効率よく合成している。 10kから300kまでのHSFaceデータセットでトレーニングされたFRモデルは、5つの実世界のテストセットで、最先端の精度を92%から93.52%に向上させる。 合成トレーニングセットを用いて作成したモデルは,実顔画像の同スケールトレーニングセット(CALFWテストセット)を用いて作成したモデルよりも高い精度を実現した。

This paper studies how to synthesize face images of non-existent persons, to create a dataset that allows effective training of face recognition (FR) models. Two important goals are (1) the ability to generate a large number of distinct identities (inter-class separation) with (2) a wide variation in appearance of each identity (intra-class variation). However, existing works 1) are typically limited in how many well-separated identities can be generated and 2) either neglect or use a separate editing model for attribute augmentation. We propose Vec2Face, a holistic model that uses only a sampled vector as input and can flexibly generate and control face images and their attributes. Composed of a feature masked autoencoder and a decoder, Vec2Face is supervised by face image reconstruction and can be conveniently used in inference. Using vectors with low similarity among themselves as inputs, Vec2Face generates well-separated identities. Randomly perturbing an input identity vector within a small range allows Vec2Face to generate faces of the same identity with robust variation in face attributes. It is also possible to generate images with designated attributes by adjusting vector values with a gradient descent method. Vec2Face has efficiently synthesized as many as 300K identities with 15 million total images, whereas 60K is the largest number of identities created in the previous works. FR models trained with the generated HSFace datasets, from 10k to 300k identities, achieve state-of-the-art accuracy, from 92% to 93.52%, on five real-world test sets. For the first time, our model created using a synthetic training set achieves higher accuracy than the model created using a same-scale training set of real face images (on the CALFW test set).
翻訳日:2024-09-12 20:02:24 公開日:2024-09-10
# VBIT:IoTデバイスに対するプライバシコントロールの強化を目指す

VBIT: Towards Enhancing Privacy Control Over IoT Devices ( http://arxiv.org/abs/2409.06233v1 )

ライセンス: Link先を確認
Jad Al Aaraj, Olivia Figueira, Tu Le, Isabela Figueira, Rahmadi Trimananda, Athina Markopoulou, (参考訳) IoT(Internet-of-Things)デバイスは、ますます家庭、職場、および他の共有および公開スペースにデプロイされている。 IoTデバイスは、サービスプロバイダやサードパーティとデータを収集し、共有する。 プライバシ向上ツールは、他のアプリケーションドメイン(ブラウザ用の広告とトラッカーブロッカー)ではかなり進歩していますが、現時点では、IoTデバイスで何が収集され、どのようにデータが共有されているかを知る、管理するための便利な手段はありません。 本稿では,Mixed Reality(MR)とWebベースのアプリケーションを組み合わせた対話型システムであるVBITを提案する。 ネットワークトラフィックレベルで動作するためのVBITを設計,実装し,性能上のオーバーヘッドが無視できることを示す。 オンライン調査と対人インタビューによる混合手法のユーザスタディを実施。 VBITユーザは、VBITの透明性、コントロール、カスタマイズの機能を高く評価しており、VBITを使用した後、IoT広告とトラッキングブロッカーをインストールする意欲が著しく高まっている。 このプロセスでは、IoTの透明性と制御のために、VBITや他のシステムの設計をさらに反復し、改善するために使用できる設計上の洞察を得る。

Internet-of-Things (IoT) devices are increasingly deployed at home, at work, and in other shared and public spaces. IoT devices collect and share data with service providers and third parties, which poses privacy concerns. Although privacy enhancing tools are quite advanced in other applications domains (\eg~ advertising and tracker blockers for browsers), users have currently no convenient way to know or manage what and how data is collected and shared by IoT devices. In this paper, we present VBIT, an interactive system combining Mixed Reality (MR) and web-based applications that allows users to: (1) uncover and visualize tracking services by IoT devices in an instrumented space and (2) take action to stop or limit that tracking. We design and implement VBIT to operate at the network traffic level, and we show that it has negligible performance overhead, and offers flexibility and good usability. We perform a mixed-method user study consisting of an online survey and an in-person interview study. We show that VBIT users appreciate VBIT's transparency, control, and customization features, and they become significantly more willing to install an IoT advertising and tracking blocker, after using VBIT. In the process, we obtain design insights that can be used to further iterate and improve the design of VBIT and other systems for IoT transparency and control.
翻訳日:2024-09-12 20:02:24 公開日:2024-09-10
# LLMによるソフトウェアパッチのローカライゼーション

LLM-Enhanced Software Patch Localization ( http://arxiv.org/abs/2409.06816v1 )

ライセンス: Link先を確認
Jinhong Yu, Yi Chen, Di Tang, Xiaozhong Liu, XiaoFeng Wang, Chen Wu, Haixu Tang, (参考訳) オープンソースソフトウェア(OSS)は、現代の製品開発に不可欠なものであり、その中の脆弱性は、多くの製品に侵入する可能性がある。 開発者はセキュリティパッチを適用しようと努力するが、これらのパッチをOSSの大規模なアップデートで特定することは依然として難しい。 セキュリティパッチローカライゼーション(SPL)レコメンデーションメソッドは、この問題に対処するための主要なアプローチである。 しかしながら、既存のSPLモデルは、コミットが対応するCVEと明確な関連性が欠如している場合にしばしば混乱し、脆弱性が完全に解決される前に複数のパッチが提案されるシナリオを考慮しない。 これらの課題に対処するため、LLM-SPLというレコメンデーションベースのSPLアプローチを導入し、LLM(Large Language Model)の機能を活用して、所定のCVEのセキュリティパッチコミットを特定する。 より具体的には、LLMの出力がセキュリティパッチの優先順位付けにおける推奨モデルに役立つ追加機能として機能する共同学習フレームワークを提案する。 2,461個のパッチに関連付けられた1,915個のCVEのデータセットを評価したところ、LLM-SPLはパッチコミットのランク付けに優れており、リコールでは最先端のメソッドを上回り、手作業を大幅に削減していることがわかった。 特に、複数のパッチを必要とする脆弱性に対して、LLM-SPLはリコールを22.83\%改善し、NDCGを19.41\%改善し、トップ10までチェックすると手作業が25\%以上削減される。 データセットとソースコードは \url{https://anonymous.4open.science/r/LLM-SPL-91F8} で公開されている。

Open source software (OSS) is integral to modern product development, and any vulnerability within it potentially compromises numerous products. While developers strive to apply security patches, pinpointing these patches among extensive OSS updates remains a challenge. Security patch localization (SPL) recommendation methods are leading approaches to address this. However, existing SPL models often falter when a commit lacks a clear association with its corresponding CVE, and do not consider a scenario that a vulnerability has multiple patches proposed over time before it has been fully resolved. To address these challenges, we introduce LLM-SPL, a recommendation-based SPL approach that leverages the capabilities of the Large Language Model (LLM) to locate the security patch commit for a given CVE. More specifically, we propose a joint learning framework, in which the outputs of LLM serves as additional features to aid our recommendation model in prioritizing security patches. Our evaluation on a dataset of 1,915 CVEs associated with 2,461 patches demonstrates that LLM-SPL excels in ranking patch commits, surpassing the state-of-the-art method in terms of Recall, while significantly reducing manual effort. Notably, for vulnerabilities requiring multiple patches, LLM-SPL significantly improves Recall by 22.83\%, NDCG by 19.41\%, and reduces manual effort by over 25\% when checking up to the top 10 rankings. The dataset and source code are available at \url{https://anonymous.4open.science/r/LLM-SPL-91F8}.
翻訳日:2024-09-12 20:02:24 公開日:2024-09-10
# 線グラフのグラフ

Graphons of Line Graphs ( http://arxiv.org/abs/2409.01656v2 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Cheng Soon Ong, (参考訳) スパース有限グラフの列の観測からグラフ限界を推定する問題を考察する。 本稿ではスパースグラフのサブセットに光を放つ簡単な方法を示す。 この手法では、元のグラフを行グラフにマッピングする。 グラフが特定の性質を満たすことを示し、この2次性質はスパースであるが、密度の高い線グラフをもたらす。 これにより、密度グラフのグラフ極限における結果を使用することで収束を導出することができる。 特に、星グラフは、密度の高い直線グラフと直線グラフのゼロでないグラフを生じる2次特性を満たす。 我々は、対応する線グラフのグラフによって異なる数の恒星(スパース)を区別できることを実証的に証明する。 元のグラフとは異なり、異なる数の恒星はスパーシティのためにゼログラフンに収束する。 同様に、超線型優越アタッチメントグラフは、ほぼ確実に高密度な直線グラフをもたらす。 対照的に、エルドス=レーニグラフを含む密度グラフは線グラフをスパースにし、結果としてゼログラフとなる。

We consider the problem of estimating graph limits, known as graphons, from observations of sequences of sparse finite graphs. In this paper we show a simple method that can shed light on a subset of sparse graphs. The method involves mapping the original graphs to their line graphs. We show that graphs satisfying a particular property, which we call the square-degree property are sparse, but give rise to dense line graphs. This enables the use of results on graph limits of dense graphs to derive convergence. In particular, star graphs satisfy the square-degree property resulting in dense line graphs and non-zero graphons of line graphs. We demonstrate empirically that we can distinguish different numbers of stars (which are sparse) by the graphons of their corresponding line graphs. Whereas in the original graphs, the different number of stars all converge to the zero graphon due to sparsity. Similarly, superlinear preferential attachment graphs give rise to dense line graphs almost surely. In contrast, dense graphs, including Erdos-Renyi graphs make the line graphs sparse, resulting in the zero graphon.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-10
# 制御可能な画像編集のための拡散モデルにおける低次元部分空間の探索

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing ( http://arxiv.org/abs/2409.02374v2 )

ライセンス: Link先を確認
Siyi Chen, Huijie Zhang, Minzhe Guo, Yifu Lu, Peng Wang, Qing Qu, (参考訳) 近年、拡散モデルは生成モデルの強力なクラスとして現れている。 彼らの成功にもかかわらず、セマンティック空間についてはまだ理解が限られている。 これにより、特に教師なしの方法で、追加のトレーニングをすることなく、正確で不整合の画像生成を実現することが困難になる。 本研究では,(1)拡散モデルにおける学習後平均予測器 (PMP) は局所線型であり,(2) ヤコビアンの特異ベクトルは低次元のセマンティック部分空間にある。 我々は、PMPの線形性と低ランク性を正当化する確固たる理論的基礎を提供する。 これらの知見により、拡散モデルにおける正確な局所的編集のための、教師なし、トレーニング不要なLOCO-rank Conntrollable Image Editor (LOCO Edit) 法を提案することができる。 LOCO Editは、均一性、転送可能性、構成可能性、線形性といった優れた特性を持つ編集方向を特定した。 これらのLOCO Editの特性は、低次元の意味部分空間から大いに恩恵を受ける。 本手法は,テキスト間拡散モデル(T-LOCO Edit)において,教師なしあるいはテキストによる編集に拡張することができる。 最後に、大規模な実験によりLOCO編集の有効性と効率が示された。 コードはhttps://github.com/ChicyChen/LOCO-Editで公開される。

Recently, diffusion models have emerged as a powerful class of generative models. Despite their success, there is still limited understanding of their semantic spaces. This makes it challenging to achieve precise and disentangled image generation without additional training, especially in an unsupervised way. In this work, we improve the understanding of their semantic spaces from intriguing observations: among a certain range of noise levels, (1) the learned posterior mean predictor (PMP) in the diffusion model is locally linear, and (2) the singular vectors of its Jacobian lie in low-dimensional semantic subspaces. We provide a solid theoretical basis to justify the linearity and low-rankness in the PMP. These insights allow us to propose an unsupervised, single-step, training-free LOw-rank COntrollable image editing (LOCO Edit) method for precise local editing in diffusion models. LOCO Edit identified editing directions with nice properties: homogeneity, transferability, composability, and linearity. These properties of LOCO Edit benefit greatly from the low-dimensional semantic subspace. Our method can further be extended to unsupervised or text-supervised editing in various text-to-image diffusion models (T-LOCO Edit). Finally, extensive empirical experiments demonstrate the effectiveness and efficiency of LOCO Edit. The codes will be released at https://github.com/ChicyChen/LOCO-Edit.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-10
# それは急速にエスカレートした:Single-Turn Crescendo Attack (STCA)

Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA) ( http://arxiv.org/abs/2409.03131v2 )

ライセンス: Link先を確認
Alan Aqrawi, Arian Abbasi, (参考訳) 本稿では,大規模言語モデル (LLM) に対して,STCA (Single-Turn Crescendo Attack) と呼ばれる新たな攻撃手法を提案する。 ルシノビッチ、セイラム、エルダン(2024年)が導入したマルチターン・クレシデンド攻撃法(英語版)に基づき、STCAは文脈を徐々にエスカレートして有害な応答を誘発し、単一の相互作用において同様の結果を得る。 エスカレーションを1つの巧妙なプロンプトに凝縮することで、STCAはLLMが不適切な出力を防ぐために使用する典型的なモデレーションフィルタをバイパスする。 このテクニックは、現在のLLMの脆弱性を明らかにし、責任あるAI(RAI)におけるより強力なセーフガードの重要性を強調している。 STCAは、これまで検討されていない新しい方法を提供している。

This paper introduces a new method for adversarial attacks on large language models (LLMs) called the Single-Turn Crescendo Attack (STCA). Building on the multi-turn crescendo attack method introduced by Russinovich, Salem, and Eldan (2024), which gradually escalates the context to provoke harmful responses, the STCA achieves similar outcomes in a single interaction. By condensing the escalation into a single, well-crafted prompt, the STCA bypasses typical moderation filters that LLMs use to prevent inappropriate outputs. This technique reveals vulnerabilities in current LLMs and emphasizes the importance of stronger safeguards in responsible AI (RAI). The STCA offers a novel method that has not been previously explored.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-10
# 物体中心学習のための集団離散表現の組織化

Organized Grouped Discrete Representation for Object-Centric Learning ( http://arxiv.org/abs/2409.03553v2 )

ライセンス: Link先を確認
Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen, (参考訳) OCL(Object-Centric Learning)は、画像やビデオのピクセルをスパースオブジェクトの特徴として表現する。 代表的手法は、可変オートエンコーダ(VAE)テンプレート特徴からなる離散表現を利用して、画素レベルの情報冗長性とガイドオブジェクトレベルの特徴集約を抑える。 最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。 しかし、分解としてグループ化する単純チャネルは、異なる属性に属するチャネルを誤ってグループ化し、それらを準最適テンプレート属性として識別し、情報を失い、表現性を損なう。 我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。 教師なしセグメンテーション実験では、OGDRは古典的なトランスフォーマーベースのOCL法の拡張においてGDRよりも優れている。 コードブックPCAと表現類似性分析により、GDRと比較して、OGDRは冗長性を排除し、オブジェクト表現学習の指針となる情報を保存する。 ソースコードは補足資料で入手できる。

Object-Centric Learning (OCL) represents dense image or video pixels as sparse object features. Representative methods utilize discrete representation composed of Variational Autoencoder (VAE) template features to suppress pixel-level information redundancy and guide object-level feature aggregation. The most recent advancement, Grouped Discrete Representation (GDR), further decomposes these template features into attributes. However, its naive channel grouping as decomposition may erroneously group channels belonging to different attributes together and discretize them as sub-optimal template attributes, which losses information and harms expressivity. We propose Organized GDR (OGDR) to organize channels belonging to the same attributes together for correct decomposition from features into attributes. In unsupervised segmentation experiments, OGDR is fully superior to GDR in augmentating classical transformer-based OCL methods; it even improves state-of-the-art diffusion-based ones. Codebook PCA and representation similarity analyses show that compared with GDR, our OGDR eliminates redundancy and preserves information better for guiding object representation learning. The source code is available in the supplementary material.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-10
# 分散変分オートエンコーダを用いたデータ効率・解釈可能な逆材料設計

Data-efficient and Interpretable Inverse Materials Design using a Disentangled Variational Autoencoder ( http://arxiv.org/abs/2409.06740v1 )

ライセンス: Link先を確認
Cheng Zeng, Zulqarnain Khan, Nathan L. Post, (参考訳) 逆材料設計は、新しい物質発見の加速に成功している。 多くの逆材料設計法では、教材表現のコンパクトな記述を提供するために潜在空間を学習する教師なし学習を用いる。 この方法で学習された潜在空間は、対象の物性と他の材料の性質の観点から、絡み合っている可能性が高い。 これにより、逆設計プロセスが曖昧になる。 本稿では,不整合変分オートエンコーダをベースとした半教師付き学習手法を提案し,特徴,潜伏変数,対象特性の確率的関係を学習する。 このアプローチは、ラベル付きデータと非ラベル付きデータとをコヒーレントに組み合わせ、専門家による事前分布を用いて、ラベル付きデータに制限のあるモデルロバスト性を改善するため、データ効率がよい。 学習対象プロパティが材料の他の特性から切り離されているため、本質的に解釈可能であり、モデルの分類ヘッドのポストホック解析により、余分な解釈性を提供することができる。 本研究では, 化学組成を入力とし, 単相生成を単一ターゲット特性とする実験用高エントロピー合金データセットに対する新しいアプローチを示す。 本研究では, 単一特性を用いた場合, 複数の対象特性を持つ材料の逆設計をカスタマイズするために, アンタングルモデルを拡張することができる。

Inverse materials design has proven successful in accelerating novel material discovery. Many inverse materials design methods use unsupervised learning where a latent space is learned to offer a compact description of materials representations. A latent space learned this way is likely to be entangled, in terms of the target property and other properties of the materials. This makes the inverse design process ambiguous. Here, we present a semi-supervised learning approach based on a disentangled variational autoencoder to learn a probabilistic relationship between features, latent variables and target properties. This approach is data efficient because it combines all labelled and unlabelled data in a coherent manner, and it uses expert-informed prior distributions to improve model robustness even with limited labelled data. It is in essence interpretable, as the learnable target property is disentangled out of the other properties of the materials, and an extra layer of interpretability can be provided by a post-hoc analysis of the classification head of the model. We demonstrate this new approach on an experimental high-entropy alloy dataset with chemical compositions as input and single-phase formation as the single target property. While single property is used in this work, the disentangled model can be extended to customize for inverse design of materials with multiple target properties.
翻訳日:2024-09-12 17:44:43 公開日:2024-09-10
# 要求工学のための生成AI: 体系的文献レビュー

Generative AI for Requirements Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2409.06741v1 )

ライセンス: Link先を確認
Haowei Cheng, Jati H. Husen, Sien Reeve Peralta, Bowen Jiang, Nobukazu Yoshioka, Naoyasu Ubayashi, Hironori Washizaki, (参考訳) コンテキスト: 生成AI(GenAI)はソフトウェアエンジニアリングの変革的ツールとして登場し、要件エンジニアリング(RE)はプロセスや成果に革命をもたらす可能性を積極的に探求している。 GenAIのREへの統合は、体系的な分析と評価を必要とする有望な機会と重要な課題の両方を提示します。 目的:本論文では,REにおけるGenAIを活用した最先端のアプリケーションと革新的な提案を総合的な体系的文献レビュー(SLR)で分析する。 急速に発展する分野における重要な課題と機会を特定しながら、REプロセスを強化するためにGenAIの利用に焦点を当てた研究を調査する。 方法: 厳密なSLR法を用いて, 慎重に選抜された27の初等研究を詳細に分析した。 本稿では,さまざまなREフェーズにおけるGenAIの適用,使用するモデルと技術,実装と採用における課題について検討した。 結果:最も顕著な発見は,以下のとおりである。 一 後段への拡大の可能性を示すREの初期段階、特に要件の実施及び分析に主眼を置いていること。 二 多様なAIアプローチの必要性を強調した大規模言語モデル、特にGPTシリーズの優位性 三 ドメイン固有の応用における永続的な課題及びAI生成出力の解釈可能性であって、さらなる研究・開発を必要とする分野を強調すること。 結論: 結果は、総合的な評価フレームワークの必要性、人間とAIのコラボレーションモデルの改善、およびGenAI支援REにおける倫理的意味の徹底的な考察を浮き彫りにした。 将来の研究は、REライフサイクル全体にわたってGenAIアプリケーションを拡張し、ドメイン固有の機能を強化し、REプラクティスにおける責任あるAI統合のための戦略を開発することを優先すべきである。

Context: Generative AI (GenAI) has emerged as a transformative tool in software engineering, with requirements engineering (RE) actively exploring its potential to revolutionize processes and outcomes. The integration of GenAI into RE presents both promising opportunities and significant challenges that necessitate systematic analysis and evaluation. Objective: This paper presents a comprehensive systematic literature review (SLR) analyzing state-of-the-art applications and innovative proposals leveraging GenAI in RE. It surveys studies focusing on the utilization of GenAI to enhance RE processes while identifying key challenges and opportunities in this rapidly evolving field. Method: A rigorous SLR methodology was used to analyze 27 carefully selected primary studies in-depth. The review examined research questions pertaining to the application of GenAI across various RE phases, the models and techniques used, and the challenges encountered in implementation and adoption. Results: The most salient findings include i) a predominant focus on the early stages of RE, particularly the elicitation and analysis of requirements, indicating potential for expansion into later phases; ii) the dominance of large language models, especially the GPT series, highlighting the need for diverse AI approaches; and iii) persistent challenges in domain-specific applications and the interpretability of AI-generated outputs, underscoring areas requiring further research and development. Conclusions: The results highlight the critical need for comprehensive evaluation frameworks, improved human-AI collaboration models, and thorough consideration of ethical implications in GenAI-assisted RE. Future research should prioritize extending GenAI applications across the entire RE lifecycle, enhancing domain-specific capabilities, and developing strategies for responsible AI integration in RE practices.
翻訳日:2024-09-12 17:44:43 公開日:2024-09-10
# ProteinBench: タンパク質基盤モデルの全体的評価

ProteinBench: A Holistic Evaluation of Protein Foundation Models ( http://arxiv.org/abs/2409.06744v1 )

ライセンス: Link先を確認
Fei Ye, Zaixiang Zheng, Dongyu Xue, Yuning Shen, Lihao Wang, Yiming Ma, Yan Wang, Xinyou Wang, Xiangxin Zhou, Quanquan Gu, (参考訳) 近年、タンパク質基盤モデルの開発が急増し、タンパク質の予測性能が大幅に向上し、3次元構造予測やタンパク質設計からコンフォメーションダイナミクスまで、生成タスクが大幅に改善されている。 しかしながら、これらのモデルに関連する機能や制限は、統一された評価フレームワークが存在しないため、よく理解されていない。 このギャップを埋めるために,タンパク質基盤モデルの透明性を高めるために設計された総合評価フレームワークであるProteinBenchを紹介する。 私たちのアプローチは3つの重要なコンポーネントで構成されています。 一 異なるタンパク質モダリティ間の関係に基づいて、タンパク質ドメインの主要な課題を幅広く包含するタスクの分類分類 (二)品質、ノベルティ、多様性、堅牢性の四つの重要な側面におけるパフォーマンスを評価する多段階評価アプローチ 三 様々なユーザ目標から詳細な分析を行い、モデル性能の全体像を提供する。 タンパク質基盤モデルの包括的評価は、その機能と限界に光を当てたいくつかの重要な発見を示す。 透明性を促進し,さらなる研究を促進するために,評価データセット,コード,公開リーダボードを公開して,さらなる分析と汎用的なモジュラーツールキットを提案する。 我々は、タンパク質基盤モデルのための標準化された詳細な評価フレームワークを確立し、その開発と応用を推進し、分野内のコラボレーションを育むための生きたベンチマークとして、ProteinBenchを目標としています。

Recent years have witnessed a surge in the development of protein foundation models, significantly improving performance in protein prediction and generative tasks ranging from 3D structure prediction and protein design to conformational dynamics. However, the capabilities and limitations associated with these models remain poorly understood due to the absence of a unified evaluation framework. To fill this gap, we introduce ProteinBench, a holistic evaluation framework designed to enhance the transparency of protein foundation models. Our approach consists of three key components: (i) A taxonomic classification of tasks that broadly encompass the main challenges in the protein domain, based on the relationships between different protein modalities; (ii) A multi-metric evaluation approach that assesses performance across four key dimensions: quality, novelty, diversity, and robustness; and (iii) In-depth analyses from various user objectives, providing a holistic view of model performance. Our comprehensive evaluation of protein foundation models reveals several key findings that shed light on their current capabilities and limitations. To promote transparency and facilitate further research, we release the evaluation dataset, code, and a public leaderboard publicly for further analysis and a general modular toolkit. We intend for ProteinBench to be a living benchmark for establishing a standardized, in-depth evaluation framework for protein foundation models, driving their development and application while fostering collaboration within the field.
翻訳日:2024-09-12 17:44:43 公開日:2024-09-10
# 学生表現再構成とクラス不均衡緩和による個人的知識追跡

Personalized Knowledge Tracing through Student Representation Reconstruction and Class Imbalance Mitigation ( http://arxiv.org/abs/2409.06745v1 )

ライセンス: Link先を確認
Zhiyu Chen, Wei Ji, Jing Xiao, Zitao Liu, (参考訳) 知識追跡とは、知的教育プラットフォームとの歴史的相互作用を通じて学習プロセスを分析し、知識習得の正確な評価を可能にすることによって、学生の将来のパフォーマンスを予測する技術である。 近年の研究は、強力なディープニューラルネットワークを活用することで大きな進歩を遂げている。 これらのモデルは、質問、スキル、その他の補助情報を用いて複雑な入力表現を構成するが、個別の学生特性を見落とし、パーソナライズされた評価能力を制限する。 さらに、フィールドで利用可能なデータセットは、クラス不均衡の問題を示す。 すべての応答をある程度の努力なしに正確に予測するモデルは、驚くべき精度を得ることができる。 本稿では,パーソナライズされた知識追跡のための新しいアプローチであるPKTを提案する。 PKTは、教師プラットフォームとのインタラクションのシーケンスから表現を再構築し、学生の潜伏した情報をキャプチャする。 さらに、PKTは焦点損失を取り入れ、マイノリティクラスを優先的に改善し、よりバランスの取れた予測を達成する。 4つの公開教育データセットの大規模な実験結果は、16の最先端モデルと比較してPKTの高度な予測性能を示している。 我々の研究の再現性を確保するため、コードはhttps://anonymous.4open.science/r/PKT.comで公開されている。

Knowledge tracing is a technique that predicts students' future performance by analyzing their learning process through historical interactions with intelligent educational platforms, enabling a precise evaluation of their knowledge mastery. Recent studies have achieved significant progress by leveraging powerful deep neural networks. These models construct complex input representations using questions, skills, and other auxiliary information but overlook individual student characteristics, which limits the capability for personalized assessment. Additionally, the available datasets in the field exhibit class imbalance issues. The models that simply predict all responses as correct without substantial effort can yield impressive accuracy. In this paper, we propose PKT, a novel approach for personalized knowledge tracing. PKT reconstructs representations from sequences of interactions with a tutoring platform to capture latent information about the students. Moreover, PKT incorporates focal loss to improve prioritize minority classes, thereby achieving more balanced predictions. Extensive experimental results on four publicly available educational datasets demonstrate the advanced predictive performance of PKT in comparison with 16 state-of-the-art models. To ensure the reproducibility of our research, the code is publicly available at https://anonymous.4open.science/r/PKT.
翻訳日:2024-09-12 17:19:06 公開日:2024-09-10
# ニューラルネットワークを用いた大規模固有値計算のための分散協調AI

Distributed Cooperative AI for Large-Scale Eigenvalue Computations Using Neural Networks ( http://arxiv.org/abs/2409.06746v1 )

ライセンス: Link先を確認
Ronald Katende, (参考訳) 本稿では,分散協調型ニューラルネットワークを用いた固有値計算手法を提案する。 大規模システムのスケーラビリティに苦しむ従来の手法とは異なり、分散化されたアルゴリズムでは、複数の自律エージェントが協調して大きな行列の最小固有値を推定できる。 各エージェントは、ローカライズされたニューラルネットワークモデルを使用して、エージェント間通信を通じて見積を精算する。 我々のアプローチは、通信障害やネットワーク破壊であっても、真の固有値への収束を保証する。 理論解析は手法の頑健さと精度を裏付けるが、実験結果は従来の集中型アルゴリズムよりも優れた性能を示す。

This paper presents a novel method for eigenvalue computation using a distributed cooperative neural network framework. Unlike traditional techniques that struggle with scalability in large systems, our decentralized algorithm enables multiple autonomous agents to collaboratively estimate the smallest eigenvalue of large matrices. Each agent uses a localized neural network model, refining its estimates through inter-agent communication. Our approach guarantees convergence to the true eigenvalue, even with communication failures or network disruptions. Theoretical analysis confirms the robustness and accuracy of the method, while empirical results demonstrate its better performance compared to some traditional centralized algorithms
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# EasyST: 時空間予測のためのシンプルなフレームワーク

EasyST: A Simple Framework for Spatio-Temporal Prediction ( http://arxiv.org/abs/2409.06748v1 )

ライセンス: Link先を確認
Jiabin Tang, Wei Wei, Lianghao Xia, Chao Huang, (参考訳) 時空間予測はデータ駆動型都市コンピューティングにおいて重要な研究領域であり、交通、公共安全、環境モニタリングに影響を及ぼす。 しかし、スケーラビリティと一般化の課題は依然として大きな障害である。 高度なモデルは、しばしば空間的および時間的相関を符号化するためにグラフニューラルネットワークに依存するが、大規模データセットの複雑さの増加に苦慮している。 これらのモデルで使用される再帰的なGNNベースのメッセージパッシングスキームは、実際の都市センシングシナリオにおけるトレーニングと展開を妨げる。 さらに、長期にわたる大規模な時空間データには、分散シフトを導入し、一般化性能を向上させる必要がある。 これらの課題に対処するため,時空間予測のための簡単なフレームワーク EasyST パラダイムを提案する。 複雑な時空間GNNからの知識を効果的に蒸留することにより、軽量で堅牢なマルチ層パーセプトロン(MLP)を学習する。 時空間情報ボトルネックを教師が拘束した回帰損失と統合し,タスク関連ノイズを除去し,誤った誘導を避けることで,堅牢な知識蒸留を実現する。 我々は、下流のタスクコンテキストを提供するために、空間的および時間的プロンプトを取り入れることで、学生モデルの一般化能力をさらに強化する。 都市コンピューティングタスクのための3つの時空間データセットの評価は、EasySTが効率と精度の点で最先端のアプローチを超越していることを示している。 実装コードは、https://github.com/HKUDS/EasyST.comで公開されている。

Spatio-temporal prediction is a crucial research area in data-driven urban computing, with implications for transportation, public safety, and environmental monitoring. However, scalability and generalization challenges remain significant obstacles. Advanced models often rely on Graph Neural Networks to encode spatial and temporal correlations, but struggle with the increased complexity of large-scale datasets. The recursive GNN-based message passing schemes used in these models hinder their training and deployment in real-life urban sensing scenarios. Moreover, long-spanning large-scale spatio-temporal data introduce distribution shifts, necessitating improved generalization performance. To address these challenges, we propose a simple framework for spatio-temporal prediction - EasyST paradigm. It learns lightweight and robust Multi-Layer Perceptrons (MLPs) by effectively distilling knowledge from complex spatio-temporal GNNs. We ensure robust knowledge distillation by integrating the spatio-temporal information bottleneck with teacher-bounded regression loss, filtering out task-irrelevant noise and avoiding erroneous guidance. We further enhance the generalization ability of the student model by incorporating spatial and temporal prompts to provide downstream task contexts. Evaluation on three spatio-temporal datasets for urban computing tasks demonstrates that EasyST surpasses state-of-the-art approaches in terms of efficiency and accuracy. The implementation code is available at: https://github.com/HKUDS/EasyST.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# エージェントは自発的に社会を形成することができるか? : 創発的マルチエージェントのための新しいアーキテクチャの導入

Can Agents Spontaneously Form a Society? Introducing a Novel Architecture for Generative Multi-Agents to Elicit Social Emergence ( http://arxiv.org/abs/2409.06750v1 )

ライセンス: Link先を確認
H. Zhang, J. Yin, M. Jiang, C. Su, (参考訳) 生成エージェントは特定のタスクにおいて印象的な能力を示してきたが、これらのフレームワークのほとんどは独立したタスクに焦点を当てており、社会的相互作用に注意を払わない。 我々は,ITCMA-Sと呼ばれる生成エージェントアーキテクチャを導入し,個々のエージェントの基本的なフレームワークと,マルチエージェント間の社会的相互作用をサポートするLTRHAというフレームワークを紹介する。 このアーキテクチャは、エージェントが社会的相互作用に有害な行動を識別し、フィルタリングし、より好ましい行動を選択するように誘導することを可能にする。 我々は、複数のアイデンティティレスエージェント間の社会関係の自然な進化をシミュレートするサンドボックス環境を設計し、実験的な評価を行った。 その結果、ITCMA-Sは複数の評価指標で良好に機能し、環境を積極的に探索し、新しいエージェントを認識し、継続的な行動や対話を通じて新しい情報を取得する能力を示した。 観察の結果、エージェント同士のつながりが確立されるにつれて、エージェントは選択されたリーダーの周囲の内的階層と自発的に閥を形成し、集団活動の組織化を図っている。

Generative agents have demonstrated impressive capabilities in specific tasks, but most of these frameworks focus on independent tasks and lack attention to social interactions. We introduce a generative agent architecture called ITCMA-S, which includes a basic framework for individual agents and a framework called LTRHA that supports social interactions among multi-agents. This architecture enables agents to identify and filter out behaviors that are detrimental to social interactions, guiding them to choose more favorable actions. We designed a sandbox environment to simulate the natural evolution of social relationships among multiple identity-less agents for experimental evaluation. The results showed that ITCMA-S performed well on multiple evaluation indicators, demonstrating its ability to actively explore the environment, recognize new agents, and acquire new information through continuous actions and dialogue. Observations show that as agents establish connections with each other, they spontaneously form cliques with internal hierarchies around a selected leader and organize collective activities.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# 弱い形は思ったより強い

The Weak Form Is Stronger Than You Think ( http://arxiv.org/abs/2409.06751v1 )

ライセンス: Link先を確認
Daniel A. Messenger, April Tran, Vanja Dukic, David M. Bortz, (参考訳) 弱い形式は、現代の計算および応用数学において、ユビキタスでよく研究され、広く利用されている数学的ツールである。 この研究では、弱形が重要な役割を果たすいくつかの分野における、歴史と最近の発展の両方について調査する。 特に, 方程式学習, パラメータ推定, 粗粒化の弱形式化における最近の進歩に注目し, 驚くべき雑音の頑健性, 精度, 計算効率を提供する。 この写本は、2024年10月のSIAM Newsの記事の同名の部分である。 ここでは、数学的発展に関するより詳細な説明と、より完全な参照リストを提供する。 最後に、この原稿で結果を再現するソフトウェアは、私たちのグループのGitHubウェブサイト https://github.com/MathBioCUでも利用可能である。

The weak form is a ubiquitous, well-studied, and widely-utilized mathematical tool in modern computational and applied mathematics. In this work we provide a survey of both the history and recent developments for several fields in which the weak form can play a critical role. In particular, we highlight several recent advances in weak form versions of equation learning, parameter estimation, and coarse graining, which offer surprising noise robustness, accuracy, and computational efficiency. We note that this manuscript is a companion piece to our October 2024 SIAM News article of the same name. Here we provide more detailed explanations of mathematical developments as well as a more complete list of references. Lastly, we note that the software with which to reproduce the results in this manuscript is also available on our group's GitHub website https://github.com/MathBioCU .
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# 複素数による自動微分に関するチュートリアル

A tutorial on automatic differentiation with complex numbers ( http://arxiv.org/abs/2409.06752v1 )

ライセンス: Link先を確認
Nicholas Krämer, (参考訳) 自動微分は至る所にあるが、複雑な算術においてどのように機能するかに関する最小限の文書は、「$\mathbb{C}^d$」$\cong$「$\mathbb{R}^{2d}$の微分」や、Wirtinger calculusへの浅い参照」以上のものしか存在しない。 残念なことに、値 $\mathbb{C}^d \cong \mathbb{R}^{2d}$ は、高額な線型代数関数や微分方程式シミュレータの微分を避けるために、カスタム勾配規則を導出する必要があるとすぐに不足する。 このような文書の欠如に対処するため、この記事では、複素数による前方および逆モードの自動微分を調査し、正則性やコーシー-リーマン方程式を明示的に避けながら、ウィッティンガー微分、修正鎖則、異なる勾配規則などのトピックをカバーした。 正確には、複素解析や微分幾何学に頼らずに、ほとんど完全に線型代数を持つヤコビ-ベクトル積とベクトル-ヤコビ積の複素バージョンを導出し、説明し、実装する。 このチュートリアルは、ユーザや開発者にとっても、カスタムのグラデーション伝搬ルールを実装する際に、複雑な値を真剣に取るためのアクションを呼びます。

Automatic differentiation is everywhere, but there exists only minimal documentation of how it works in complex arithmetic beyond stating "derivatives in $\mathbb{C}^d$" $\cong$ "derivatives in $\mathbb{R}^{2d}$" and, at best, shallow references to Wirtinger calculus. Unfortunately, the equivalence $\mathbb{C}^d \cong \mathbb{R}^{2d}$ becomes insufficient as soon as we need to derive custom gradient rules, e.g., to avoid differentiating "through" expensive linear algebra functions or differential equation simulators. To combat such a lack of documentation, this article surveys forward- and reverse-mode automatic differentiation with complex numbers, covering topics such as Wirtinger derivatives, a modified chain rule, and different gradient conventions while explicitly avoiding holomorphicity and the Cauchy--Riemann equations (which would be far too restrictive). To be precise, we will derive, explain, and implement a complex version of Jacobian-vector and vector-Jacobian products almost entirely with linear algebra without relying on complex analysis or differential geometry. This tutorial is a call to action, for users and developers alike, to take complex values seriously when implementing custom gradient propagation rules -- the manuscript explains how.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# マルチモーダルモデルのスケーリング法則仮説

Scaling Law Hypothesis for Multimodal Model ( http://arxiv.org/abs/2409.06754v1 )

ライセンス: Link先を確認
Qingyun Sun, Zhen Guo, (参考訳) 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。 本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。 複数のモードでより多くのトレーニングデータを活用することで、マルチモーダルモデルのサイズが小さくなり、リソース制約のあるデバイスへの効率的なデプロイが可能になるかどうかを検討する。

We propose a scaling law hypothesis for multimodal models processing text, audio, images, and video within a shared token and embedding space. Our framework predicts model performance based on modality-specific compression and tokenization efficiency, extending established scaling laws from text-based decoder models to mixed-modality systems. We explore whether leveraging more training data in multiple modalities can reduce the size of the multimodal model, enabling efficient deployment on resource-constrained devices.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# デザイナーの知識を超えて:大規模言語モデルによる材料設計仮説の生成

Beyond designer's knowledge: Generating materials design hypotheses via large language models ( http://arxiv.org/abs/2409.06756v1 )

ライセンス: Link先を確認
Quanliang Liu, Maciej P. Polak, So Yeon Kim, MD Al Amin Shuvo, Hrishikesh Shridhar Deodhar, Jeongsoo Han, Dane Morgan, Hyunseok Oh, (参考訳) 物質設計は、知識ギャップや知識含意を統合・抽出する限られた能力といった認知的制約によって本質的に制限されるプロセス、特に多分野の専門知識が必要な場合、人為的な仮説に依存していることが多い。 この研究は、大規模言語モデル(LLM)と素早いエンジニアリングが組み合わさって、人間の専門家による明確な設計指導なしに、多様な情報源から科学的原理を統合することによって、非自明な物質仮説を効果的に生成できることを実証している。 これらには、優れた低温特性を有する高エントロピー合金の設計アイデアや、イオン伝導率と成形性を高めたハロゲン化物固体電解質が含まれる。 これらのデザインのアイデアは、LLMのトレーニングデータでは利用できない2023年のハイインパクトな出版物で実験的に検証され、LLMが文献で確立されていない非常に価値が高く実現可能な革新的なアイデアを生成する能力を示している。 提案手法は,主に,処理-構造-プロパティ関係を符号化する材料システムチャートを活用し,多数の論文から重要な情報を凝縮することで,より効率的なデータ統合を可能にし,LLMを通じて,人間の認知に対する多くの仮説の評価と分類を行う。 このLCM駆動のアプローチは、設計を加速し、イノベーションを民主化し、デザイナーの直接的な知識を超えて能力を拡張することによって、人工知能駆動の材料発見の新しい道を開く。

Materials design often relies on human-generated hypotheses, a process inherently limited by cognitive constraints such as knowledge gaps and limited ability to integrate and extract knowledge implications, particularly when multidisciplinary expertise is required. This work demonstrates that large language models (LLMs), coupled with prompt engineering, can effectively generate non-trivial materials hypotheses by integrating scientific principles from diverse sources without explicit design guidance by human experts. These include design ideas for high-entropy alloys with superior cryogenic properties and halide solid electrolytes with enhanced ionic conductivity and formability. These design ideas have been experimentally validated in high-impact publications in 2023 not available in the LLM training data, demonstrating the LLM's ability to generate highly valuable and realizable innovative ideas not established in the literature. Our approach primarily leverages materials system charts encoding processing-structure-property relationships, enabling more effective data integration by condensing key information from numerous papers, and evaluation and categorization of numerous hypotheses for human cognition, both through the LLM. This LLM-driven approach opens the door to new avenues of artificial intelligence-driven materials discovery by accelerating design, democratizing innovation, and expanding capabilities beyond the designer's direct knowledge.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# 生成的階層的材料探索

Generative Hierarchical Materials Search ( http://arxiv.org/abs/2409.06762v1 )

ライセンス: Link先を確認
Sherry Yang, Simon Batzner, Ruiqi Gao, Muratahan Aykol, Alexander L. Gaunt, Brendan McMorrow, Danilo J. Rezende, Dale Schuurmans, Igor Mordatch, Ekin D. Cubuk, (参考訳) スケールで訓練された生成モデルは、テキスト、ビデオ、さらに最近では結晶構造のような科学データを生成することができる。 材料科学、特に結晶構造への生成的アプローチの適用においては、下流研究に有効な候補結晶を自動生成する上で、ドメインエキスパートからの高レベルの指示が不可欠である。 本研究では,多目的最適化問題としてエンドツーエンドの言語-構造生成を定式化し,結晶構造の制御可能な生成のための生成階層材料探索(GenMS)を提案する。 GenMSは,(1)高レベル自然言語を入力とし,結晶(例えば化学式)に関する中間テキスト情報を生成する言語モデルと,(2)中間情報を入力とし,低レベル連続値結晶構造を生成する拡散モデルから構成される。 GenMSはまた、生成された結晶構造から特性(例えば生成エネルギー)を予測するためにグラフニューラルネットワークを使用する。 推論中、GenMSは3つのコンポーネントすべてを活用して、可能な構造空間をフォワードツリーで探索する。 実験により、GenMSは、ユーザ要求を満たすことと低エネルギー構造を生成することの両方において、言語モデルを直接使用する他の選択肢よりも優れていることが示された。 我々は,GenMSが自然言語入力のみから,二重ペロブスカイトやスピネルなどの共通結晶構造を生成できることを確認した。

Generative models trained at scale can now produce text, video, and more recently, scientific data such as crystal structures. In applications of generative approaches to materials science, and in particular to crystal structures, the guidance from the domain expert in the form of high-level instructions can be essential for an automated system to output candidate crystals that are viable for downstream research. In this work, we formulate end-to-end language-to-structure generation as a multi-objective optimization problem, and propose Generative Hierarchical Materials Search (GenMS) for controllable generation of crystal structures. GenMS consists of (1) a language model that takes high-level natural language as input and generates intermediate textual information about a crystal (e.g., chemical formulae), and (2) a diffusion model that takes intermediate information as input and generates low-level continuous value crystal structures. GenMS additionally uses a graph neural network to predict properties (e.g., formation energy) from the generated crystal structures. During inference, GenMS leverages all three components to conduct a forward tree search over the space of possible structures. Experiments show that GenMS outperforms other alternatives of directly using language models to generate structures both in satisfying user request and in generating low-energy structures. We confirm that GenMS is able to generate common crystal structures such as double perovskites, or spinels, solely from natural language input, and hence can form the foundation for more complex structure generation in near future.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# パワー関数を用いた画像トーン分割のモデル化

Modeling Image Tone Dichotomy with the Power Function ( http://arxiv.org/abs/2409.06764v1 )

ライセンス: Link先を確認
Axel Martinez, Gustavo Olague, Emilio Hernandez, (参考訳) 本研究の目的は,パワー関数に基づく画像照明モデルにおける二分法の概念を提示することである。 特に,パワー関数の数学的特性を概説し,照明二分法を抽象化可能な新しい数学的モデルを提案する。 この方程式の単純さは、古典的および近代的な画像解析と処理のための新しい道を開く。 本稿は,新しいモデルが画像知覚における二分法をどのように管理するかを説明するために,実用的で図解的なイメージ例を提供する。 この論文は、トーン、明度、色知覚に結びついているコントラストが低いにもかかわらず、画像からリッチな情報を抽出する手段として、二分法画像空間が有効な方法であることを示している。 さらに、画像強調における最先端手法との比較により、この手法の価値の証拠が得られる。

The primary purpose of this paper is to present the concept of dichotomy in image illumination modeling based on the power function. In particular, we review several mathematical properties of the power function to identify the limitations and propose a new mathematical model capable of abstracting illumination dichotomy. The simplicity of the equation opens new avenues for classical and modern image analysis and processing. The article provides practical and illustrative image examples to explain how the new model manages dichotomy in image perception. The article shows dichotomy image space as a viable way to extract rich information from images despite poor contrast linked to tone, lightness, and color perception. Moreover, a comparison with state-of-the-art methods in image enhancement provides evidence of the method's value.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# gsplat: ガウススティングのためのオープンソースライブラリ

gsplat: An Open-Source Library for Gaussian Splatting ( http://arxiv.org/abs/2409.06765v1 )

ライセンス: Link先を確認
Vickie Ye, Ruilong Li, Justin Kerr, Matias Turkulainen, Brent Yi, Zhuoyang Pan, Otto Seiskari, Jianbo Ye, Jeffrey Hu, Matthew Tancik, Angjoo Kanazawa, (参考訳) gsplatはGaussian Splattingメソッドのトレーニングと開発用に設計されたオープンソースライブラリである。 PyTorchライブラリと互換性のあるPythonバインディングを備えたフロントエンドと、高度に最適化されたCUDAカーネルを備えたバックエンドを備える。 gsplatは、速度、メモリ、収束時間の最適化を含むガウススプラッティングモデルの最適化を強化する多くの機能を提供する。 実験の結果,gsplatはトレーニング時間を最大10%削減し,メモリを4倍削減できることがわかった。 いくつかの研究プロジェクトで使用されているgsplatは、GitHubでアクティブにメンテナンスされている。 ソースコードはApache License 2.0の下でhttps://github.com/nerfstudio-project/gsplatで入手できる。 オープンソースコミュニティからのコントリビューションを歓迎します。

gsplat is an open-source library designed for training and developing Gaussian Splatting methods. It features a front-end with Python bindings compatible with the PyTorch library and a back-end with highly optimized CUDA kernels. gsplat offers numerous features that enhance the optimization of Gaussian Splatting models, which include optimization improvements for speed, memory, and convergence times. Experimental results demonstrate that gsplat achieves up to 10% less training time and 4x less memory than the original implementation. Utilized in several research projects, gsplat is actively maintained on GitHub. Source code is available at https://github.com/nerfstudio-project/gsplat under Apache License 2.0. We welcome contributions from the open-source community.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# 集団計測による共役絡みと制御臨界度

Concomitant Entanglement and Control Criticality Driven by Collective Measurements ( http://arxiv.org/abs/2409.06780v1 )

ライセンス: Link先を確認
Thomas Iadecola, Justin H. Wilson, J. H. Pixley, (参考訳) 量子多体状態が測定と条件付きユニタリ演算によって制御される適応量子回路は、状態準備と量子エラー訂正タスクのための強力なパラダイムである。 これらは2つのタイプの非平衡量子相転移をサポートすることができる: 体積と面積-法則-絡み合った定常状態の間の測定誘起遷移と、システムが吸収状態に陥る制御誘起遷移、またはより一般的には、いくつかの吸収状態にアクセスする軌道である。 この文脈において、非局所条件演算は2つの遷移の臨界特性と位相図の位相を変更できる。 ここでは, 動的軌跡に対する効率的な制御を行うために, 計測が非局所的となるシナリオについて考察する。 Rydberg-atom arrays によって動機付けられた局所的制約付きモデルを考えると、系の力学を有限繰り返し時間で多体軌道に操る。 適切な古典的極限の助けを借りて、制御遷移は量子ゆらぎの再帰に持続する動的指数 $z<1$ を持つ非平衡普遍性クラスに属するように診断する。 量子極限において、エンタングルメント遷移は、制御遷移(英語版)と一致する。 どちらの遷移も、パワーロー相互作用回路における測定誘起相転移の最近の結果と一致する動的臨界性を示す。 我々は、この特徴と、制御と絡み合いの明らかな偶然が、制御のグローバルな性質に移行したとみなす。

Adaptive quantum circuits -- where a quantum many-body state is controlled using measurements and conditional unitary operations -- are a powerful paradigm for state preparation and quantum error correction tasks. They can support two types of nonequilibrium quantum phase transitions: measurement-induced transitions between volume- and area-law-entangled steady states and control-induced transitions where the system falls into an absorbing state or, more generally, an orbit visiting several absorbing states. Within this context, nonlocal conditional operations can alter the critical properties of the two transitions and the topology of the phase diagram. Here, we consider the scenario where the measurements are nonlocal, in order to engineer efficient control onto dynamical trajectories. Motivated by Rydberg-atom arrays, we consider a locally constrained model with global sublattice magnetization measurements to steer the system's dynamics onto a many-body orbit with finite recurrence time. With the aid of a suitable classical limit, we diagnose the control transition to be in a nonequilibrium universality class with dynamical exponent $z<1$ that persists upon reintroducing quantum fluctuations. In the quantum limit, an entanglement transition additionally emerges that coincides with the control transition -- to within our numerical resolution. Both transitions exhibit a dynamical criticality consistent with recent results on measurement-induced phase transitions in power-law interacting circuits. We attribute this feature and the apparent coincidence of the control and entanglement transitions to the global nature of the control.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# 量子極端学習マシンによる衝突時間を超える状態推定

State estimation with quantum extreme learning machines beyond the scrambling time ( http://arxiv.org/abs/2409.06782v1 )

ライセンス: Link先を確認
Marco Vetrano, Gabriele Lo Monaco, Luca Innocenti, Salvatore Lorenzo, G. Massimo Palma, (参考訳) 量子エクストリームラーニングマシン(QELM)は、訓練されていない量子力学を利用して入力量子状態に符号化された情報を効率的に処理する。 一方、量子情報スクランブル(QIS)は、量子情報の相関関係への拡散が、局所的な測定から不可能であることを示す。 本稿では,QISとQELMの予測力の密接な関係について考察する。 特に、多くの異なる種類のダイナミクスに対して、効率的な状態推定が可能であることを示し、実際、研究したすべてのケースにおいて、長時間の相互作用時間における再構成効率は、ランダムなグローバルユニタリダイナミクスによって提供される最適値と一致することを示す。 これらの結果から,堅牢なQELMに基づく状態推定プロトコルの実現と,状態推定の観点からのQISの性質に関する新たな洞察が期待できる。

Quantum extreme learning machines (QELMs) leverage untrained quantum dynamics to efficiently process information encoded in input quantum states, avoiding the high computational cost of training more complicated nonlinear models. On the other hand, quantum information scrambling (QIS) quantifies how the spread of quantum information into correlations makes it irretrievable from local measurements. Here, we explore the tight relation between QIS and the predictive power of QELMs. In particular, we show efficient state estimation is possible even beyond the scrambling time, for many different types of dynamics -- in fact, we show that in all the cases we studied, the reconstruction efficiency at long interaction times matches the optimal one offered by random global unitary dynamics. These results offer promising venues for robust experimental QELM-based state estimation protocols, as well as providing novel insights into the nature of QIS from a state estimation perspective.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# ブートストラップ非エルミタン量子システム

Bootstrapping non-Hermitian Quantum System ( http://arxiv.org/abs/2409.06784v1 )

ライセンス: Link先を確認
Sakil Khan, Harsh Rathod, (参考訳) 近年、エルミート・ハミルトニアンの固有スペクトルを解くために「Bootstrap」技法が量子力学で適用され、非エルミート PT-対称系に拡張された。 しかし、その応用は実際のスペクトルに限られている。 本研究では,非エルミート系に対するブートストラップ条件を確立し,PT対称ハミルトニアンを含む一般複素多項式ポテンシャルに対する固有スペクトルを生成する。 さらに, 固有関数に課される様々な境界条件下で固有スペクトルを得る能力を示す。

Recently, the ``Bootstrap" technique was applied in Quantum Mechanics to solve the eigenspectra of Hermitian Hamiltonians and extended to non-Hermitian PT-symmetric systems. However, its application has been limited to real spectra. In this work, we establish bootstrap conditions for the non-Hermitian system and generate eigenspectra for a generic complex polynomial potential, which includes PT-symmetric Hamiltonians as a special case. Additionally, we demonstrate the method's ability to obtain eigenspectra under various boundary conditions imposed on the eigenfunction, including the notable application of capturing the PT-symmetric phase transition.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# コンパクトフェルミオンエンコーディングのためのブレークエブンの実験的研究

Experimental Demonstration of Break-Even for the Compact Fermionic Encoding ( http://arxiv.org/abs/2409.06789v1 )

ライセンス: Link先を確認
Ramil Nigmatullin, Kevin Hemery, Khaldoon Ghanem, Steven Moses, Dan Gresh, Peter Siegfried, Michael Mills, Thomas Gatterman, Nathan Hewitt, Etienne Granet, Henrik Dreyer, (参考訳) Fermi-Hubbardモデルの実用性は数十億ドルと見積もられている。 デジタル量子コンピュータは原則としてこの問題に対処できるが、これまでは準1次元モデルに限られてきた。 これは、ノイズの相互作用による指数的オーバーヘッドと、フェルミオンと量子ビット間のマッピングの非局所性に起因する。 本稿では,最近開発されたローカルエンコーディングがこの問題を克服できることを示す。 我々は,フェルミオンホッピングのシミュレーションコストを42%削減する「コーナーホッピング」と呼ばれる新しいコンパイル手法を開発した。これにより,48量子ビットで符号化された6x6スピンのフェルミ・ハバードモデルの基底状態を,捕捉されたイオン量子コンピュータを用いて,フェルミオンモデルの最大デジタル量子シミュレーションを行うことができる。 また,保存量を持つシステムに対する2つの新しいエラー軽減手法を開発し,その1つは局所的なポストセレクションに基づくもので,もう1つは局所的な可観測物の外挿に基づくものである。 以上の結果から,Fermi-Hubbardモデルは,ゲート忠実度を大きく向上させることなく,デジタル量子コンピュータで処理可能であることが示唆された。

The utility of solving the Fermi-Hubbard model has been estimated in the billions of dollars. Digital quantum computers can in principle address this task, but have so far been limited to quasi one-dimensional models. This is because of exponential overheads caused by the interplay of noise and the non-locality of the mapping between fermions and qubits. Here, we show experimentally that a recently developed local encoding can overcome this problem. We develop a new compilation scheme, called "corner hopping", that reduces the cost of simulating fermionic hopping by 42% which allows us to conduct the largest digital quantum simulations of a fermionic model to date, using a trapped ion quantum computer to prepare adiabatically the ground state of a 6 x 6 spinless Fermi-Hubbard model encoded in 48 physical qubits. We also develop two new error mitigation schemes for systems with conserved quantities, one based on local postselection and one on extrapolation of local observables. Our results suggest that Fermi-Hubbard models beyond classical simulability can be addressed by digital quantum computers without large increases in gate fidelity.
翻訳日:2024-09-12 17:19:05 公開日:2024-09-10
# ステップバイステップの翻訳:長文の翻訳品質向上のための翻訳過程の分解

Translating Step-by-Step: Decomposing the Translation Process for Improved Translation Quality of Long-Form Texts ( http://arxiv.org/abs/2409.06790v1 )

ライセンス: Link先を確認
Eleftheria Briakou, Jiaming Luo, Colin Cherry, Markus Freitag, (参考訳) 本稿では,翻訳研究において確立されたプロセスに基づいて,長文翻訳の段階的アプローチを提案する。 機械翻訳を単一のモノリシックなタスクとして見るのではなく、翻訳前研究、起草、精錬、証明などを含む多元間相互作用において言語モデルに係わるフレームワークを提案する。 Gemini 1.5 Proを10言語対で広範囲に自動評価した結果,従来のゼロショットプロンプトアプローチや,それ以前のヒトライクなベースライン戦略よりも翻訳品質が向上し,WMT2024の最先端結果が得られた。

In this paper we present a step-by-step approach to long-form text translation, drawing on established processes in translation studies. Instead of viewing machine translation as a single, monolithic task, we propose a framework that engages language models in a multi-turn interaction, encompassing pre-translation research, drafting, refining, and proofreading, resulting in progressively improved translations. Extensive automatic evaluations using Gemini 1.5 Pro across ten language pairs show that translating step-by-step yields large translation quality improvements over conventional zero-shot prompting approaches and earlier human-like baseline strategies, resulting in state-of-the-art results on WMT2024.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# Human Motion Synthesis_A Diffusion Approach for Motion Stitching and In-betweening

Human Motion Synthesis_ A Diffusion Approach for Motion Stitching and In-Betweening ( http://arxiv.org/abs/2409.06791v1 )

ライセンス: Link先を確認
Michael Adewole, Oluwaseyi Giwa, Favour Nerrise, Martins Osifeko, Ajibola Oyedeji, (参考訳) 人間の運動生成は多くの分野において重要な研究領域である。 本研究は, 運動縫合とイン・バイ・トゥイーニングの課題に取り組むものである。 現在のメソッドは手作業を必要とするか、より長いシーケンスを扱うことができない。 これらの課題に対処するために,トランスフォーマーをベースとしたデノイザを用いた拡散モデルを提案し,現実的な人間の動きを生成する。 提案手法は,入力ポーズの変動数を15fpsで75フレームからなるスムーズでリアルな動作シーケンスに変換することにより,最大で5秒の持続時間を実現した。 本稿では,Frechet Inception Distance(FID),Diversity,Multimodalityなどの定量的指標を用いて,提案手法の性能評価を行った。

Human motion generation is an important area of research in many fields. In this work, we tackle the problem of motion stitching and in-betweening. Current methods either require manual efforts, or are incapable of handling longer sequences. To address these challenges, we propose a diffusion model with a transformer-based denoiser to generate realistic human motion. Our method demonstrated strong performance in generating in-betweening sequences, transforming a variable number of input poses into smooth and realistic motion sequences consisting of 75 frames at 15 fps, resulting in a total duration of 5 seconds. We present the performance evaluation of our method using quantitative metrics such as Frechet Inception Distance (FID), Diversity, and Multimodality, along with visual assessments of the generated outputs.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# マルチモーダルモデルに対する敵対的攻撃

Adversarial Attacks to Multi-Modal Models ( http://arxiv.org/abs/2409.06793v1 )

ライセンス: Link先を確認
Zhihao Dou, Xin Hu, Haibo Yang, Zhuqing Liu, Minghong Fang, (参考訳) マルチモーダルモデルは、その強力な能力のために大きな注目を集めている。 これらのモデルは、多種多様なデータモダリティにまたがる埋め込みを効果的に整合させ、下流タスクにおけるパフォーマンスを、その非モードのモデルと比較する。 最近の研究では、攻撃者が画像やオーディオファイルを、その埋め込みが攻撃対象の入力と一致するように変更することで操作できることが示され、それによって下流モデルが無視される。 しかし、この手法は、異なるモダリティのデータに固有の相違があるため、しばしば性能が劣る。 本稿では,マルチモーダルモデルに対する革新的なアプローチであるCrossFireを紹介する。 CrossFireは、攻撃者が選択したターゲット入力を、元のイメージやオーディオファイルのモダリティにマッチするフォーマットに変換することから始まる。 次に、変換された入力の埋め込みと修正された画像やオーディオファイルとの角偏差を最小限に抑えるため、最適化問題として攻撃を定式化する。 この問題の解決は、元のメディアに追加される摂動を決定する。 6つの実世界のベンチマークデータセットに関する大規模な実験では、CrossFireがダウンストリームタスクを著しく操作でき、既存の攻撃を上回ることが判明しました。 さらに、CrossFireに対する6つの防衛戦略を評価し、現在の防衛策が私たちのCrossFireに対抗するには不十分であることを確認した。

Multi-modal models have gained significant attention due to their powerful capabilities. These models effectively align embeddings across diverse data modalities, showcasing superior performance in downstream tasks compared to their unimodal counterparts. Recent study showed that the attacker can manipulate an image or audio file by altering it in such a way that its embedding matches that of an attacker-chosen targeted input, thereby deceiving downstream models. However, this method often underperforms due to inherent disparities in data from different modalities. In this paper, we introduce CrossFire, an innovative approach to attack multi-modal models. CrossFire begins by transforming the targeted input chosen by the attacker into a format that matches the modality of the original image or audio file. We then formulate our attack as an optimization problem, aiming to minimize the angular deviation between the embeddings of the transformed input and the modified image or audio file. Solving this problem determines the perturbations to be added to the original media. Our extensive experiments on six real-world benchmark datasets reveal that CrossFire can significantly manipulate downstream tasks, surpassing existing attacks. Additionally, we evaluate six defensive strategies against CrossFire, finding that current defenses are insufficient to counteract our CrossFire.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# Adaptive Meta-Domain Transfer Learning (AMDTL):AIにおける知識伝達の新しいアプローチ

Adaptive Meta-Domain Transfer Learning (AMDTL): A Novel Approach for Knowledge Transfer in AI ( http://arxiv.org/abs/2409.06800v1 )

ライセンス: Link先を確認
Michele Laurelli, (参考訳) 本稿では、メタ学習の原則とドメイン固有の適応を組み合わせ、多種多様な未知のドメインにわたる人工知能モデルの伝達可能性を高める新しい方法論である適応メタドメイン変換学習(AMDTL)を提案する。 AMDTLは、一般化と文脈特化の両方を強調するハイブリッドフレームワークを通じて、ドメインのミスアライメント、負の移動、破滅的な忘れなど、トランスファーラーニングの主な課題に対処することを目的としている。 このフレームワークは、タスクの多様な分布に基づいて訓練されたメタラーナー、ドメインの特徴分布を整合させる敵の訓練技術、コンテキストのドメイン埋め込みに基づく動的な特徴制御機構を統合する。 ベンチマークデータセットによる実験結果から,AMDTLは既存の移動学習手法よりも精度,適応効率,堅牢性に優れていた。 この研究は、AMDTLを様々な分野に適用するためのしっかりとした理論的で実践的な基盤を提供し、より適応的で包括的なAIシステムを開発するための新たな視点を開拓する。

This paper presents Adaptive Meta-Domain Transfer Learning (AMDTL), a novel methodology that combines principles of meta-learning with domain-specific adaptations to enhance the transferability of artificial intelligence models across diverse and unknown domains. AMDTL aims to address the main challenges of transfer learning, such as domain misalignment, negative transfer, and catastrophic forgetting, through a hybrid framework that emphasizes both generalization and contextual specialization. The framework integrates a meta-learner trained on a diverse distribution of tasks, adversarial training techniques for aligning domain feature distributions, and dynamic feature regulation mechanisms based on contextual domain embeddings. Experimental results on benchmark datasets demonstrate that AMDTL outperforms existing transfer learning methodologies in terms of accuracy, adaptation efficiency, and robustness. This research provides a solid theoretical and practical foundation for the application of AMDTL in various fields, opening new perspectives for the development of more adaptable and inclusive AI systems.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 個人別国勢調査データの国家レベルの再区分への影響の理解と緩和

Understanding and Mitigating the Impacts of Differentially Private Census Data on State Level Redistricting ( http://arxiv.org/abs/2409.06801v1 )

ライセンス: Link先を確認
Christian Cianfarani, Aloni Cohen, (参考訳) Decennial Censusのデータは、開示回避システム(DAS)を適用した後にのみ公開される。 データ利用者は、2020年のDASにおける差分プライバシーの導入によって揺らぎ、過去の方法から大きく離れている。 この変更は、開示回避の効果を考慮して、法律の再制限が許されるか、強制されるか、という疑問を提起する。 アラバマ州は、2020年のDASの展開を防ぐための訴訟で主張した。 データ利用者がプライバシー保護のノイズの影響を懸念する可能性のある2つの再制限設定について考察する。 利用者が開示回避のために何も説明していない場合、どのような不一致が発生するのか? その不一致を緩和するために、ユーザはどのように分析を適用するのか? 我々は、公式の2010年再分権データと、2020年DASを用いて作成された2010年実証データを比較して、アルゴリズムによって生成された数百万の州議会再分権計画を分析して、これらの質問を調査します。 どちらの設定でも、ノイズを考慮しなければアナリストが誤った結論を出す可能性があることを観察する。 選択基準を微調整することで、再分権者がバランスのとれた計画を引き出すことができ、図示的な計画は、地理的に可能な多数派マイノリティ地区の最大数の証拠として使用することができる。 少なくとも州議会では、差分プライバシーが「公正な線を引く権利を阻害する」というアラバマ州の主張が根拠になっていない。

Data from the Decennial Census is published only after applying a disclosure avoidance system (DAS). Data users were shaken by the adoption of differential privacy in the 2020 DAS, a radical departure from past methods. The change raises the question of whether redistricting law permits, forbids, or requires taking account of the effect of disclosure avoidance. Such uncertainty creates legal risks for redistricters, as Alabama argued in a lawsuit seeking to prevent the 2020 DAS's deployment. We consider two redistricting settings in which a data user might be concerned about the impacts of privacy preserving noise: drawing equal population districts and litigating voting rights cases. What discrepancies arise if the user does nothing to account for disclosure avoidance? How might the user adapt her analyses to mitigate those discrepancies? We study these questions by comparing the official 2010 Redistricting Data to the 2010 Demonstration Data -- created using the 2020 DAS -- in an analysis of millions of algorithmically generated state legislative redistricting plans. In both settings, we observe that an analyst may come to incorrect conclusions if they do not account for noise. With minor adaptations, though, the underlying policy goals remain achievable: tweaking selection criteria enables a redistricter to draw balanced plans, and illustrative plans can still be used as evidence of the maximum number of majority-minority districts that are possible in a geography. At least for state legislatures, Alabama's claim that differential privacy ``inhibits a State's right to draw fair lines'' appears unfounded.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 補題の分解:言語処理におけるERP成分の統一計算モデル

Decomposition of surprisal: Unified computational model of ERP components in language processing ( http://arxiv.org/abs/2409.06803v1 )

ライセンス: Link先を確認
Jiaxuan Li, Richard Futrell, (参考訳) 言語関連ERPコンポーネントの機能的解釈は、何十年にもわたって精神言語学において中心的な議論となっている。 我々は,脳内の人間の言語処理に関する情報理論モデルを構築し,まず入力言語入力を浅瀬で処理し,さらに深度で処理する。 形式的には、単語の文脈における情報内容(副次的)は、2つの量に分解することができる: (A) ヒューリスティック・サプライズ、単語の浅い処理困難を信号し、N400信号に対応する; (B) 浅い解釈と深い解釈の相違を反映し、P600信号に対応する。 どちらの量も、現代のNLPモデルで簡単に推定できる。 我々は6つの実験から得られた様々な言語操作によって引き起こされるERPパターンをシミュレーションし,新しい定性的・定量的な予測に成功した。 我々の理論は、'良き'ヒューリスティックな解釈段階を仮定する伝統的な認知理論と互換性があるが、正確な情報理論の定式化がある。 このモデルは認知プロセスに基づくERPコンポーネントの情報理論モデルを提供し、言語処理の完全な神経計算モデルに近づきます。

The functional interpretation of language-related ERP components has been a central debate in psycholinguistics for decades. We advance an information-theoretic model of human language processing in the brain in which incoming linguistic input is processed at first shallowly and later with more depth, with these two kinds of information processing corresponding to distinct electroencephalographic signatures. Formally, we show that the information content (surprisal) of a word in context can be decomposed into two quantities: (A) heuristic surprise, which signals shallow processing difficulty for a word, and corresponds with the N400 signal; and (B) discrepancy signal, which reflects the discrepancy between shallow and deep interpretations, and corresponds to the P600 signal. Both of these quantities can be estimated straightforwardly using modern NLP models. We validate our theory by successfully simulating ERP patterns elicited by a variety of linguistic manipulations in previously-reported experimental data from six experiments, with successful novel qualitative and quantitative predictions. Our theory is compatible with traditional cognitive theories assuming a `good-enough' heuristic interpretation stage, but with a precise information-theoretic formulation. The model provides an information-theoretic model of ERP components grounded on cognitive processes, and brings us closer to a fully-specified neuro-computational model of language processing.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 個人化フェデレーション学習技術:実証分析

Personalized Federated Learning Techniques: Empirical Analysis ( http://arxiv.org/abs/2409.06805v1 )

ライセンス: Link先を確認
Azal Ahmad Khan, Ahmad Faraz Khan, Haider Ali, Ali Anwar, (参考訳) パーソナライズド・フェデレーション・ラーニング(pFL)は、データのプライバシを保ちながら、個々のユーザに機械学習モデルをカスタマイズする、という大きな約束を持っています。 しかし、pFLの最適性能を達成するには、メモリオーバーヘッドコストとモデル精度のバランスをとる必要があることが多い。 本稿では,pFL固有のトレードオフを考察し,多様な実世界のシナリオに対して適切なアルゴリズムを選択するための貴重な洞察を提供する。 我々は、様々なデータセットとデータ分割にまたがる10の卓越したpFL手法を実証的に評価し、その性能に有意な違いが判明した。 本研究は, パーソナライズされた(局所的な)アグリゲーションを用いたpFL手法が, 通信と計算の効率性から, いかに早く収束したかを示す。 逆に、微調整法は、データの不均一性と潜在的な敵攻撃を扱う際の制限に直面し、一方、多目的学習法は、追加の訓練とリソース消費のコストで高い精度を達成する。 本研究は,pFLのスケーリングにおける通信効率の重要な役割を強調し,実際の展開における資源利用にどのように影響するかを示す。

Personalized Federated Learning (pFL) holds immense promise for tailoring machine learning models to individual users while preserving data privacy. However, achieving optimal performance in pFL often requires a careful balancing act between memory overhead costs and model accuracy. This paper delves into the trade-offs inherent in pFL, offering valuable insights for selecting the right algorithms for diverse real-world scenarios. We empirically evaluate ten prominent pFL techniques across various datasets and data splits, uncovering significant differences in their performance. Our study reveals interesting insights into how pFL methods that utilize personalized (local) aggregation exhibit the fastest convergence due to their efficiency in communication and computation. Conversely, fine-tuning methods face limitations in handling data heterogeneity and potential adversarial attacks while multi-objective learning methods achieve higher accuracy at the cost of additional training and resource consumption. Our study emphasizes the critical role of communication efficiency in scaling pFL, demonstrating how it can significantly affect resource usage in real-world deployments.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# DetailCLIP: 細粒度タスクのための詳細指向のCLIP

DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks ( http://arxiv.org/abs/2409.06809v1 )

ライセンス: Link先を確認
Amin Karimi Monsefi, Kishore Prakash Sailaja, Ali Alilooee, Ser-Nam Lim, Rajiv Ramnath, (参考訳) 本稿では,DetailCLIP: A Detail-Oriented CLIPを紹介する。 CLIPとその変種は画像とテキストのグローバルなアライメントに優れていますが、正確なセグメンテーションに必要な細かな詳細を捉えるのに苦労しています。 これらの課題を克服するために,注目ベースのトークン除去機構によって強化された,自己蒸留と画素レベルの再構成損失のパッチレベル比較を用いた新しいフレームワークを提案する。 提案手法は意味的に関連するトークンを選択的に保持し,テキスト情報処理やパッチ比較,画像再構成など,モデルの特定の機能に適合する画像のクリティカル領域に焦点を合わせ,高レベルのセマンティックスや詳細な視覚的特徴を学習できるようにする。 実験により,DetailCLIPは既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。 DetailCLIPは、高度な意味理解と詳細な特徴抽出を必要とするタスクに対して堅牢なソリューションを提供する、視覚言語モデリングの大幅な進歩を示している。 https://github.com/KishoreP1/DetailCLIP

In this paper, we introduce DetailCLIP: A Detail-Oriented CLIP to address the limitations of contrastive learning-based vision-language models, particularly CLIP, in handling detail-oriented and fine-grained tasks like segmentation. While CLIP and its variants excel in the global alignment of image and text representations, they often struggle to capture the fine-grained details necessary for precise segmentation. To overcome these challenges, we propose a novel framework that employs patch-level comparison of self-distillation and pixel-level reconstruction losses, enhanced with an attention-based token removal mechanism. This approach selectively retains semantically relevant tokens, enabling the model to focus on the image's critical regions aligned with the specific functions of our model, including textual information processing, patch comparison, and image reconstruction, ensuring that the model learns high-level semantics and detailed visual features. Our experiments demonstrate that DetailCLIP surpasses existing CLIP-based and traditional self-supervised learning (SSL) models in segmentation accuracy and exhibits superior generalization across diverse datasets. DetailCLIP represents a significant advancement in vision-language modeling, offering a robust solution for tasks that demand high-level semantic understanding and detailed feature extraction. https://github.com/KishoreP1/DetailCLIP.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 量子コンピューティングのためのマルチスケール埋め込み

Multiscale Embedding for Quantum Computing ( http://arxiv.org/abs/2409.06813v1 )

ライセンス: Link先を確認
Leah P. Weisburn, Minsik Cho, Moritz Bensberg, Oinam Romesh Meitei, Markus Reiher, Troy Van Voorhis, (参考訳) 本稿では,従来のQM/MM埋め込みとブートストラップ埋め込み(BE)をリンクして,量子デバイス上での大規模化学系のシミュレーションを可能にする,新しいマルチスケール埋め込み方式を提案する。 また,メモリ資源が制限された古典的コンピュータを用いて,拡張システム上でのBE計算を容易にする混合基底BE方式を提案する。 ベンチマークデータによると、これらの2つの戦略の組み合わせは、大きな現実的なシステムの相関エネルギーを得るための頑健な経路として、BEの証明された精度と、より低い計算コスト法に関心のある化学的および生物学的システムを組み合わせることを示唆している。 リソース要求の柔軟な調整性と体系的な断片構造のため、量子コンピュータの実現における将来の発展は、マルチスケールBE計算の精度を自然に向上させる。

We present a novel multi-scale embedding scheme that links conventional QM/MM embedding and bootstrap embedding (BE) to allow simulations of large chemical systems on limited quantum devices. We also propose a mixed-basis BE scheme that facilitates BE calculations on extended systems using classical computers with limited memory resources. Benchmark data suggest the combination of these two strategies as a robust path in attaining the correlation energies of large realistic systems, combining the proven accuracy of BE with chemical and biological systems of interest in a lower computational cost method. Due to the flexible tunability of the resource requirements and systematic fragment construction, future developments in the realization of quantum computers naturally offer improved accuracy for multi-scale BE calculations.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 海面マルチパスを用いた水中前方走査ソナー画像からの物体モデリング

Object Modeling from Underwater Forward-Scan Sonar Imagery with Sea-Surface Multipath ( http://arxiv.org/abs/2409.06815v1 )

ライセンス: Link先を確認
Yuhan Liu, Shahriar Negaharipour, (参考訳) 本研究では,2次元前方走査ソナー画像からの3次元水中物体モデリングの最適化手法を提案する。 海面近傍で撮影された物体に対する重要な貢献は、気-水界面によるマルチパスアーチファクトの解決である。 ここでは、直接目標後方散乱によって形成された物体画像は、ゴーストやミラー成分(マルチパス伝搬によって生成される)によってほぼ常に劣化する。 平面的気-水界面を仮定すると、各ビュー内の劣化した物体領域をモデル化、ローカライズ、破棄し、復元された3次元形状の歪みを避ける。 また、3次元モデリング精度を高めるために、適切なソナーポーズで区別されたミラー成分の境界からの相補的な視覚的手がかりを用いる。 この最適化は、3次元表面メッシュモデルにおける三角形パッチの頂点を分解して、データと3次元オブジェクトモデルの合成ビューとの差を最小限に抑え、反復的な形状調整として実装される。 この目的のために、まずデータ内の対象領域と合成されたビューを整列する2次元運動場を決定し、次に三角パッチセンターの3次元運動を計算し、最終的にモデル頂点を決定する。 3次元モデルは、同じデータに適用した初期の空間彫刻法の解法で初期化される。 同じパラメータを、2つの実データセット、混合実合成データセット、および実実験から一般的な知見によって導かれるコンピュータ生成データを用いて、非平坦な空気-水界面の影響を探索する様々な実験に適用した。 その結果,約5倍の繰り返しで改良された3次元モデルの生成が確認された。

We propose an optimization technique for 3-D underwater object modeling from 2-D forward-scan sonar images at known poses. A key contribution, for objects imaged in the proximity of the sea surface, is to resolve the multipath artifacts due to the air-water interface. Here, the object image formed by the direct target backscatter is almost always corrupted by the ghost and sometimes by the mirror components (generated by the multipath propagation). Assuming a planar air-water interface, we model, localize, and discard the corrupted object region within each view, thus avoiding the distortion of recovered 3-D shape. Additionally, complementary visual cues from the boundary of the mirror component, distinct at suitable sonar poses, are employed to enhance the 3-D modeling accuracy. The optimization is implemented as iterative shape adjustment by displacing the vertices of triangular patches in the 3-D surface mesh model, in order to minimize the discrepancy between the data and synthesized views of the 3-D object model. To this end, we first determine 2-D motion fields that align the object regions in the data and synthesized views, then calculate the 3-D motion of triangular patch centers, and finally the model vertices. The 3-D model is initialized with the solution of an earlier space carving method applied to the same data. The same parameters are applied in various experiments with 2 real data sets, mixed real-synthetic data set, and computer-generated data guided by general findings from a real experiment, to explore the impact of non-flat air-water interface. The results confirm the generation of a refined 3-D model in about half-dozen iterations.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 超音波駆動型ロボット缶の分岐同定

Bifurcation Identification for Ultrasound-driven Robotic Cannulation ( http://arxiv.org/abs/2409.06817v1 )

ライセンス: Link先を確認
Cecilia G. Morales, Dhruv Srikanth, Jack H. Good, Keith A. Dufendach, Artur Dubrawski, (参考訳) 外傷や重篤なケアでは、迅速かつ正確な血管内アクセスが患者の生存の鍵となる。 我々の研究は、熟練した医療従事者が手軽に利用できない場合でも、このアクセスを確保することを目的としている。 血管分岐(英: Vessel bifurcations)は、医療処置中のカテーテルや針の安全な配置をガイドする解剖学的ランドマークである。 超音波は移植性や安全性のために緊急時の解剖学的ランドマークをナビゲートするのに有利であるが,我々の知る限り,超音波画像を用いて血管分岐を自律的に抽出するアルゴリズムは存在しない。 これは主に、信頼性のあるモデルのトレーニングと検証に必要な、地上の真実データ、特に生の被験者のデータが限られているためである。 研究者は、しばしば解剖学の幻覚やシミュレーションからのデータを使う。 本稿では,超音波駆動型ロボットキャナレーションの分岐同定であるBIFURCを紹介し,血管分岐を同定し,自律型ロボットキャナレーションシステムに最適な針挿入部位を提供する。 BIFURCは、深層学習技術と専門知識を統合して、大腿骨領域内の血管分岐を効率的に検出し、限られた量のin-vivoデータに基づいて訓練することができる。 実生ブタを用いた実環境実験と同様に,医療ファントムを用いて本アルゴリズムの評価を行った。 いずれの場合も、BIFURCは専門医が特定したものと一致した分岐点と針挿入位置を一貫して同定した。

In trauma and critical care settings, rapid and precise intravascular access is key to patients' survival. Our research aims at ensuring this access, even when skilled medical personnel are not readily available. Vessel bifurcations are anatomical landmarks that can guide the safe placement of catheters or needles during medical procedures. Although ultrasound is advantageous in navigating anatomical landmarks in emergency scenarios due to its portability and safety, to our knowledge no existing algorithm can autonomously extract vessel bifurcations using ultrasound images. This is primarily due to the limited availability of ground truth data, in particular, data from live subjects, needed for training and validating reliable models. Researchers often resort to using data from anatomical phantoms or simulations. We introduce BIFURC, Bifurcation Identification for Ultrasound-driven Robot Cannulation, a novel algorithm that identifies vessel bifurcations and provides optimal needle insertion sites for an autonomous robotic cannulation system. BIFURC integrates expert knowledge with deep learning techniques to efficiently detect vessel bifurcations within the femoral region and can be trained on a limited amount of in-vivo data. We evaluated our algorithm using a medical phantom as well as real-world experiments involving live pigs. In all cases, BIFURC consistently identified bifurcation points and needle insertion locations in alignment with those identified by expert clinicians.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# 重畳された時空における加速検出器

Accelerated detector in a superposed spacetime ( http://arxiv.org/abs/2409.06818v1 )

ライセンス: Link先を確認
Lakshay Goel, Everett A. Patterson, María Rosa Preciado-Rivas, Mahdi Torabian, Robert B. Mann, Niayesh Afshordi, (参考訳) 量子重力の本格的な理論を追求するために、運用的アプローチは異なる時空の量子重ね合わせによって生じる量子重力効果に関する洞察を提供する。 最近の研究は、円筒的に同定されたミンコフスキー時空(すなわち周期境界条件)を異なる性質の円周で重畳し、時空に存在する量子場に結合した2レベル検出器は、重畳された長さ比の特定の値で共鳴ピークを示す。 ここでは、この解析を円筒的に同定されたリンドラー時空の重ね合わせに拡張し、コンパクト次元に直交する方向に常に加速される2レベル検出器を考える。 従来の研究と同様に、重畳されたコンパクト化長さの有理比で検出器応答の共鳴ピークが発見され、検出器の加速度によってアクセントされる。 さらに、時空の重畳による加速度による詳細バランス条件を初めて確認し、1つの時空状態におけるウンルー効果と調和する。 3+1次元で初めて観測された事象水平線の存在下での検出器応答の共鳴構造は、量子重力の完全な理論におけるブラックホールエントロピーの性質の手がかりとなるかもしれない。

In pursuit of a full-fledged theory of quantum gravity, operational approaches offer insights into quantum-gravitational effects produced by quantum superposition of different spacetimes not diffeomorphic to one another. Recent work applies this approach to superpose cylindrically identified Minkowski spacetimes (i.e. periodic boundary conditions) with different characteristic circumferences, where a two-level detector coupled to a quantum field residing in the spacetime exhibits resonance peaks in response at certain values of the superposed length ratios. Here, we extend this analysis to a superposition of cylindrically identified Rindler spacetimes, considering a two-level detector constantly accelerated in the direction orthogonal to the compact dimension. Similarly to previous work, we find resonance peaks in the detector response at rational ratios of the superposed compactified lengths, which we observe to be accentuated by the acceleration of the detector. Furthermore, for the first time we confirm the detailed balance condition due to acceleration in a superposition of spacetimes, commensurate with the Unruh effect in a single spacetime state. The resonant structure of detector response in the presence of event horizons, for the first time observed in 3+1 dimensions, may offer clues to the nature of black hole entropy in the full theory of quantum gravity.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# PingPong: ユーザエミュレーションとマルチモデル評価を備えたロールプレイング言語モデルのベンチマーク

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation ( http://arxiv.org/abs/2409.06820v1 )

ライセンス: Link先を確認
Ilya Gusev, (参考訳) 本稿では,言語モデルのロールプレイング能力を評価するための新しいベンチマークを提案する。 提案手法は,言語モデル自体を利用して,動的・マルチターン会話でユーザをエミュレートし,対話結果を評価する。 このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価する判断モデルという3つの主要コンポーネントから構成される。 提案手法の有効性を検証するために, 自動評価と人間のアノテーションを比較し, 複数の基準にまたがって強い相関関係を示す実験を行った。 この研究は、インタラクティブなシナリオにおけるモデル機能の堅牢で動的な評価の基礎を提供する。

We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# Sam2Rad:学習可能なプロンプトを用いた医用画像のセグメンテーションモデル

Sam2Rad: A Segmentation Model for Medical Images with Learnable Prompts ( http://arxiv.org/abs/2409.06821v1 )

ライセンス: Link先を確認
Assefa Seyoum Wahd, Banafshe Felfeliyan, Yuyue Zhou, Shrimanti Ghosh, Adam McArthur, Jiechen Zhang, Jacob L. Jaremko, Abhilash Hareendranathan, (参考訳) セグメンテーションモデルのような基礎モデルは、医用画像のセグメンテーションに高品質な手動プロンプトを必要とする。 SAMとその変種は、しばしばドメインシフトによる超音波(US)画像の構造の分割に失敗する。 Sam2Radは、SAMとその変異体をヒトのプロンプトを使わずに、米国骨のセグメンテーションに適応するための素早い学習手法である。 イメージエンコーダの機能から、プロンプト埋め込みを予測するために、クロスアテンションモジュールを備えたプロンプト予測ネットワーク(PPN)を導入する。 PPNはバウンディングボックスとマスクプロンプトを出力し、興味のある領域に対して256次元の埋め込みを行う。 このフレームワークはオプションのマニュアルプロンプトを可能にし、パラメータ効率の微調整(PEFT)を使用してエンドツーエンドでトレーニングすることができる。 Sam2Radは、手首(3822枚)、回転子カフ(1605枚)、ヒップ(4849枚)の3つの筋肉骨格のデータセットでテストされた。 手動のプロンプトなしですべてのデータセットのパフォーマンスを改善し、ヒップ/ブラストで2-7%、肩データで最大33%のDiceスコアを向上した。 Sam2Radは10個のラベル付きイメージでトレーニングでき、自動セグメンテーションのためにSAMアーキテクチャと互換性がある。

Foundation models like the segment anything model require high-quality manual prompts for medical image segmentation, which is time-consuming and requires expertise. SAM and its variants often fail to segment structures in ultrasound (US) images due to domain shift. We propose Sam2Rad, a prompt learning approach to adapt SAM and its variants for US bone segmentation without human prompts. It introduces a prompt predictor network (PPN) with a cross-attention module to predict prompt embeddings from image encoder features. PPN outputs bounding box and mask prompts, and 256-dimensional embeddings for regions of interest. The framework allows optional manual prompting and can be trained end-to-end using parameter-efficient fine-tuning (PEFT). Sam2Rad was tested on 3 musculoskeletal US datasets: wrist (3822 images), rotator cuff (1605 images), and hip (4849 images). It improved performance across all datasets without manual prompts, increasing Dice scores by 2-7% for hip/wrist and up to 33% for shoulder data. Sam2Rad can be trained with as few as 10 labeled images and is compatible with any SAM architecture for automatic segmentation.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# LiDAR点群に対する効果的なコントラスト単位を用いたクロスモーダル自己監督学習

Cross-Modal Self-Supervised Learning with Effective Contrastive Units for LiDAR Point Clouds ( http://arxiv.org/abs/2409.06827v1 )

ライセンス: Link先を確認
Mu Cai, Chenxu Luo, Yong Jae Lee, Xiaodong Yang, (参考訳) LiDARポイントクラウドにおける3D知覚は、自動運転車が3D環境で適切に機能するためには不可欠である。 しかし、手動でポイントクラウドをラベル付けするのは難しくてコストがかかる。 3次元知覚モデルの自己教師付き事前学習への関心が高まっている。 画像におけるコントラスト学習の成功に続いて、現在の手法は主に点雲のみでコントラスト事前学習を行っている。 しかし、自律走行車は通常、カメラやLiDARを含む複数のセンサーが供給される。 この文脈では、点雲の対照的な学習のために、単一モダリティ、クロスモダリティ、マルチモダリティを体系的に研究し、クロスモダリティが他の選択肢に勝っていることを示す。 さらに,2次元画像と3次元点雲のトレーニング源との大きな違いを考慮すると,LiDARのより効果的なコントラストユニットの設計方法が不明である。 そこで我々は、自律点雲に適したインスタンス認識および類似性バランスの対照的なユニットを提案する。 Waymo Open Dataset, nuScenes, SemanticKITTI, ONCEの4つのベンチマークにおいて,LiDARに基づく3Dオブジェクト検出と3Dセマンティックセマンティックセマンティックセマンティクスの下流認識タスクの様々なポイントクラウドモデルに対して,本手法が顕著な性能向上を実現していることを示す。

3D perception in LiDAR point clouds is crucial for a self-driving vehicle to properly act in 3D environment. However, manually labeling point clouds is hard and costly. There has been a growing interest in self-supervised pre-training of 3D perception models. Following the success of contrastive learning in images, current methods mostly conduct contrastive pre-training on point clouds only. Yet an autonomous driving vehicle is typically supplied with multiple sensors including cameras and LiDAR. In this context, we systematically study single modality, cross-modality, and multi-modality for contrastive learning of point clouds, and show that cross-modality wins over other alternatives. In addition, considering the huge difference between the training sources in 2D images and 3D point clouds, it remains unclear how to design more effective contrastive units for LiDAR. We therefore propose the instance-aware and similarity-balanced contrastive units that are tailored for self-driving point clouds. Extensive experiments reveal that our approach achieves remarkable performance gains over various point cloud models across the downstream perception tasks of LiDAR based 3D object detection and 3D semantic segmentation on the four popular benchmarks including Waymo Open Dataset, nuScenes, SemanticKITTI and ONCE.
翻訳日:2024-09-12 17:07:53 公開日:2024-09-10
# ノイズラベルの早期停止

Noisy Early Stopping for Noisy Labels ( http://arxiv.org/abs/2409.06830v1 )

ライセンス: Link先を確認
William Toner, Amos Storkey, (参考訳) ノイズラベルで汚染されたデータセット上のニューラルネットワーク分類器のトレーニングは、オーバーフィッティングのリスクを著しく高める。 したがって、ノイズの多いラベル環境における早期停止を効果的に実装することが重要である。 理想的な状況下では、Early Stoppingはラベルノイズによって破損しない検証セットを使用して、トレーニング中の一般化を効果的に監視する。 しかし、ノイズフリーの検証データセットを得るには費用がかかり難い。 本研究は、多くの典型的な学習環境において、効果的な早期停止にはノイズフリーの検証セットは必要ないことを証明している。 代わりに、ノイズの多いデータセットで、ノイズの多いトレーニングセットと同じ分布から引き出された精度を監視することで、ほぼ最適結果が得られる。 NES(Noisy Early Stopping)と呼ばれるこの手法は、早期停止の実装コストを単純化し、削減する。 本手法が有効である条件に関する理論的知見を提供するとともに,共通損失関数を用いた標準ベンチマークにおけるロバストな性能を実証的に実証する。

Training neural network classifiers on datasets contaminated with noisy labels significantly increases the risk of overfitting. Thus, effectively implementing Early Stopping in noisy label environments is crucial. Under ideal circumstances, Early Stopping utilises a validation set uncorrupted by label noise to effectively monitor generalisation during training. However, obtaining a noise-free validation dataset can be costly and challenging to obtain. This study establishes that, in many typical learning environments, a noise-free validation set is not necessary for effective Early Stopping. Instead, near-optimal results can be achieved by monitoring accuracy on a noisy dataset - drawn from the same distribution as the noisy training set. Referred to as `Noisy Early Stopping' (NES), this method simplifies and reduces the cost of implementing Early Stopping. We provide theoretical insights into the conditions under which this method is effective and empirically demonstrate its robust performance across standard benchmarks using common loss functions.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 無限集合辞書学習のための原子次元適応

Atom dimension adaptation for infinite set dictionary learning ( http://arxiv.org/abs/2409.06831v1 )

ライセンス: Link先を確認
Andra Băltoiu, Denis C. Ilie-Ablachim, Bogdan Dumitrescu, (参考訳) 集合原子を用いた辞書学習に関する最近の研究は、異常検出の利点を示している。 これらの方法では、原子を単一のベクトルと見なす代わりに、中心ベクトルの周りの集合から取られた原子でスパース表現を構築することができる。 本稿では,ガウス語とコーン語の辞書学習において,集合原子のサイズを適応的に調整する手法を提案する。 このアルゴリズムの目的は、原子の大きさと信号の表現への寄与とを一致させることである。 提案アルゴリズムは表現誤差を低減させるだけでなく,'dependency'と呼ばれる異常のクラスに対する異常検出も改善する。 我々は最先端手法よりも優れた検出性能を得る。

Recent work on dictionary learning with set-atoms has shown benefits in anomaly detection. Instead of viewing an atom as a single vector, these methods allow building sparse representations with atoms taken from a set around a central vector; the set can be a cone or may have a probability distribution associated to it. We propose a method for adaptively adjusting the size of set-atoms in Gaussian and cone dictionary learning. The purpose of the algorithm is to match the atom sizes with their contribution in representing the signals. The proposed algorithm not only decreases the representation error, but also improves anomaly detection, for a class of anomalies called `dependency'. We obtain better detection performance than state-of-the-art methods.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 量子コンピューティング応用のためのCMOS技術における集積型深低温温度センサ

An Integrated Deep-Cryogenic Temperature Sensor in CMOS Technology for Quantum Computing Applications ( http://arxiv.org/abs/2409.06838v1 )

ライセンス: Link先を確認
Fabio Olivieri, Grayson M. Noah, Thomas Swift, M. Fernando Gonzalez-Zalba, John J. L. Morton, Alberto Gomez-Saiz, (参考訳) 量子コンピューティングアプリケーションでは、量子ビット性能に対する温度上昇の影響を正確に定量化し、量子プロセッサにリアルタイムの熱管理を実装するために、深い極低温でのオンチップ温度測定が不可欠である。 本研究では,超伝導(SC)薄膜の臨界電流の温度依存性に基づいて,CMOS技術におけるサブ1K温度センサを提案する。 センサは、絶縁体(FDSOI)技術上の22nmの完全枯渇シリコンに実装され、6nA解像度の電流出力デジタルアナログコンバータ(DAC)、SC薄膜を利得素子とする超インピーダンス増幅器(TIA)、電圧コンパレータを備える。 回路は1.5uWを放出し、15mK以下の環境温度で動作し、温度分解能は10mK以下である。

On-chip thermometry at deep-cryogenic temperatures is vital in quantum computing applications to accurately quantify the effect of increased temperature on qubit performance and to implement real-time thermal management on quantum processors. In this work, we present a sub-1K temperature sensor in CMOS technology based on the temperature dependence of the critical current of a superconducting (SC) thin-film. The sensor is implemented in 22-nm fully depleted silicon on insulator (FDSOI) technology and comprises a 6-nA-resolution current-output digital-to-analog converter (DAC), a transimpedance amplifier (TIA) with a SC thin-film as a gain element, and a voltage comparator. The circuit dissipates 1.5uW and is demonstrated operating at ambient temperatures as low as 15mK, providing a variable temperature resolution reaching sub-10mK.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 統合震源サンプリングとアンサンブル法による地震インバージョンの不確かさの定量化

Uncertainty Quantification in Seismic Inversion Through Integrated Importance Sampling and Ensemble Methods ( http://arxiv.org/abs/2409.06840v1 )

ライセンス: Link先を確認
Luping Qu, Mauricio Araya-Polo, Laurent Demanet, (参考訳) 地震の逆転は地質学的探査と地質学的評価に不可欠であるが、本質的には重大な不確実性にさらされている。 この不確実性は、主に観測された地震データによって提供される限られた情報に由来するが、これは主にデータ収集幾何学における制約の結果である。 その結果、複数の可視速度モデルは、しばしば同じ地震観測のセットを説明することができる。 ディープラーニングベースの地震インバージョンでは、データノイズ、ニューラルネットワークの設計とトレーニング、固有のデータ制限など、さまざまなソースから不確実性が発生する。 本研究では, アンサンブル法と重要サンプリングを組み合わせた地震インバージョンにおける不確実性定量化手法を提案する。 重要サンプリングと組み合わせてアンサンブルアプローチを活用することにより,計算効率を保ちながら不確実性解析の精度を向上させる。 この方法は、異なる重みでアンサンブル内の各モデルを初期化し、予測に多様性を導入し、それによって逆結果の堅牢性と信頼性を向上させる。 さらに, 各アンサンブル試料の寄与度を重み付けし, 少数のアンサンブル試料を用いて, 後方分布のより正確な推定値を得ることができた。 提案手法は, 地震データから得られた速度モデルにおける不確実性のより正確な定量化を可能にする。 限られた数のアンサンブルサンプルを利用することで、不確実性の正確かつ確実な評価を実現し、最終的に地震インバージョン結果の信頼性を高める。

Seismic inversion is essential for geophysical exploration and geological assessment, but it is inherently subject to significant uncertainty. This uncertainty stems primarily from the limited information provided by observed seismic data, which is largely a result of constraints in data collection geometry. As a result, multiple plausible velocity models can often explain the same set of seismic observations. In deep learning-based seismic inversion, uncertainty arises from various sources, including data noise, neural network design and training, and inherent data limitations. This study introduces a novel approach to uncertainty quantification in seismic inversion by integrating ensemble methods with importance sampling. By leveraging ensemble approach in combination with importance sampling, we enhance the accuracy of uncertainty analysis while maintaining computational efficiency. The method involves initializing each model in the ensemble with different weights, introducing diversity in predictions and thereby improving the robustness and reliability of the inversion outcomes. Additionally, the use of importance sampling weights the contribution of each ensemble sample, allowing us to use a limited number of ensemble samples to obtain more accurate estimates of the posterior distribution. Our approach enables more precise quantification of uncertainty in velocity models derived from seismic data. By utilizing a limited number of ensemble samples, this method achieves an accurate and reliable assessment of uncertainty, ultimately providing greater confidence in seismic inversion results.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 少数ショット学習:未知のID国へのIDカード提示攻撃検出の拡張

Few-Shot Learning: Expanding ID Cards Presentation Attack Detection to Unknown ID Countries ( http://arxiv.org/abs/2409.06842v1 )

ライセンス: Link先を確認
Alvaro S. Rocamora, Juan M. Espin, Juan E. Tapia, (参考訳) 本稿では,遠隔検証システムに配備されたIDカードの提示攻撃を検出するためのFSL(Few-shot Learning)アプローチを提案する。 本研究は,アルゼンチンやコスタリカなどの新しいIDカード国における,原型ネットワークをベースラインとして,スペインやチリの文書にまたがるパフォーマンスを分析した。 具体的には、画面表示攻撃の課題をターゲットにしている。 プロトタイプネットワークに具現化された畳み込みアーキテクチャとメタラーニングの原則を活用することで、Few-shotの例で高い有効性を示すモデルを構築した。 本研究は,5つのユニークなアイデンティティを持つFew-shotsと,100枚未満の画像を追加することで,競争性能が達成できることを明らかにした。 これにより、未知の攻撃に対するIDカード上の新しい一般化されたプレゼンテーション攻撃検出の新たな洞察が開かれる。

This paper proposes a Few-shot Learning (FSL) approach for detecting Presentation Attacks on ID Cards deployed in a remote verification system and its extension to new countries. Our research analyses the performance of Prototypical Networks across documents from Spain and Chile as a baseline and measures the extension of generalisation capabilities of new ID Card countries such as Argentina and Costa Rica. Specifically targeting the challenge of screen display presentation attacks. By leveraging convolutional architectures and meta-learning principles embodied in Prototypical Networks, we have crafted a model that demonstrates high efficacy with Few-shot examples. This research reveals that competitive performance can be achieved with as Few-shots as five unique identities and with under 100 images per new country added. This opens a new insight for novel generalised Presentation Attack Detection on ID cards to unknown attacks.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 領域刺激型顔インペインティングによるマスク除去

Face Mask Removal with Region-attentive Face Inpainting ( http://arxiv.org/abs/2409.06845v1 )

ライセンス: Link先を確認
Minmin Yang, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックの間、顔マスクは私たちの生活の中でどこにでもあるようになった。 フェイスマスクは、顔のかなりの部分をカバーしているため、一部の顔認識モデルが失敗する可能性がある。 さらに、キャプチャされた画像やビデオからフェイスマスクを取り除くことは、例えば、より優れたソーシャルインタラクションや、画像やビデオの編集やエンハンスメントの目的のために望ましい。 そこで本稿では,顔のマスク部を効果的に復元・再構成する生成顔インペイント法を提案する。 顔の塗り絵は、アイデンティティを同時に維持しながら高い忠実性を必要とするため、従来の塗り絵に比べて困難である。 提案手法は,M-CSAM (M-scale Channel-Spatial Attention Module) を用いて空間情報損失を軽減し,チャネル間およびチャネル内相関を学習する。 さらに,画像全体ではなくマスキング領域に注目するように教師付き信号を強制する手法を提案する。 CelebAデータセットから独自のMasked-Facesデータセットを合成し、手術用マスク、通常のマスク、スカーフを含む5種類のフェイスマスクを組み込んだ。 実験の結果,提案手法は構造的類似度指数,ピーク信号-雑音比,l1損失の点で異なるベースラインよりも優れており,質的にも優れた出力が得られることがわかった。 コードは公開されます。 コードはGitHubで入手できる。

During the COVID-19 pandemic, face masks have become ubiquitous in our lives. Face masks can cause some face recognition models to fail since they cover significant portion of a face. In addition, removing face masks from captured images or videos can be desirable, e.g., for better social interaction and for image/video editing and enhancement purposes. Hence, we propose a generative face inpainting method to effectively recover/reconstruct the masked part of a face. Face inpainting is more challenging compared to traditional inpainting, since it requires high fidelity while maintaining the identity at the same time. Our proposed method includes a Multi-scale Channel-Spatial Attention Module (M-CSAM) to mitigate the spatial information loss and learn the inter- and intra-channel correlation. In addition, we introduce an approach enforcing the supervised signal to focus on masked regions instead of the whole image. We also synthesize our own Masked-Faces dataset from the CelebA dataset by incorporating five different types of face masks, including surgical mask, regular mask and scarves, which also cover the neck area. The experimental results show that our proposed method outperforms different baselines in terms of structural similarity index measure, peak signal-to-noise ratio and l1 loss, while also providing better outputs qualitatively. The code will be made publicly available. Code is available at GitHub.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 成層圏エアロゾル源インバージョン:ノイズ、変動性、不確実性定量化

Stratospheric aerosol source inversion: Noise, variability, and uncertainty quantification ( http://arxiv.org/abs/2409.06846v1 )

ライセンス: Link先を確認
J. Hart, I. Manickam, M. Gulian, L. Swiler, D. Bull, T. Ehrmann, H. Brown, B. Wagman, J. Watkins, (参考訳) 成層圏エアロゾルは地球系において重要な役割を担い、数ヶ月から数年の時間スケールで気候に影響を与える。 しかし,火山噴火などの一部観測されたエアロゾル噴射の特性は,不確実性から推定されている。 本稿では,ベイズ近似による背景エアロゾルノイズと地球系の内部変動を考慮した成層圏エアロゾル源インバージョンのためのフレームワークを提案する。 我々はE3SM(Energy Exascale Earth System Model)を用いて特別に設計された地球モデルシミュレーションを利用する。 データ生成、データ処理、次元縮小、演算子学習、ベイズ変換のための包括的なフレームワークが提示され、このフレームワークの各コンポーネントは、グローバルスケールにおける成層圏モデリングにおける特定の課題に対処するように設計されている。 本研究では, 合成観測データを用いて, エアロゾル源の推定と不確かさの関連性について, 厳密な評価を行う。

Stratospheric aerosols play an important role in the earth system and can affect the climate on timescales of months to years. However, estimating the characteristics of partially observed aerosol injections, such as those from volcanic eruptions, is fraught with uncertainties. This article presents a framework for stratospheric aerosol source inversion which accounts for background aerosol noise and earth system internal variability via a Bayesian approximation error approach. We leverage specially designed earth system model simulations using the Energy Exascale Earth System Model (E3SM). A comprehensive framework for data generation, data processing, dimension reduction, operator learning, and Bayesian inversion is presented where each component of the framework is designed to address particular challenges in stratospheric modeling on the global scale. We present numerical results using synthesized observational data to rigorously assess the ability of our approach to estimate aerosol sources and associate uncertainty with those estimates.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 材料性シャドウエッジによるシャドウ除去

Shadow Removal Refinement via Material-Consistent Shadow Edges ( http://arxiv.org/abs/2409.06848v1 )

ライセンス: Link先を確認
Shilin Hu, Hieu Le, ShahRukh Athar, Sagnik Das, Dimitris Samaras, (参考訳) 影の境界は、どちらもシーン内の輝度やコントラストの急激な変化を示すため、物質境界と混同されることがある。 しかし、影は本来の色や表面の質感を変えない。 したがって、同じ素材で領域を横断する影の縁の両側には、影を適切に取り除けば、原色とテクスチャは同一であるべきである。 これらのシャドー/シャドーフリーペアは非常に有用であるが、監視信号の収集が困難である。 本研究は, 物質共存領域を横断するシャドーエッジの同定方法と, テスト期間中のシャドウ除去改善のための自己超越的手法を学習することを目的とする。 これを実現するために,画像分割基礎モデルであるSAMを微調整し,影不変のセグメンテーションを生成し,SAMセグメンテーションと影マスクを比較して材料一貫性のあるシャドウエッジを抽出する。 これらのシャドウエッジを利用することで、色とテクスチャの整合性が損なわれ、シャドウ除去プロセスが強化される。 提案手法は,より難易度の高い画像に対して,影除去結果の改善に有効であり,最先端の影除去方法よりも優れていることを示す。 さらに,2つのシャドウ・シャドウフリーなデータを必要としないシャドウ除去手法の性能を評価するための新しい指標とアノテートデータセットを提案する。

Shadow boundaries can be confused with material boundaries as both exhibit sharp changes in luminance or contrast within a scene. However, shadows do not modify the intrinsic color or texture of surfaces. Therefore, on both sides of shadow edges traversing regions with the same material, the original color and textures should be the same if the shadow is removed properly. These shadow/shadow-free pairs are very useful but hard-to-collect supervision signals. The crucial contribution of this paper is to learn how to identify those shadow edges that traverse material-consistent regions and how to use them as self-supervision for shadow removal refinement during test time. To achieve this, we fine-tune SAM, an image segmentation foundation model, to produce a shadow-invariant segmentation and then extract material-consistent shadow edges by comparing the SAM segmentation with the shadow mask. Utilizing these shadow edges, we introduce color and texture-consistency losses to enhance the shadow removal process. We demonstrate the effectiveness of our method in improving shadow removal results on more challenging, in-the-wild images, outperforming the state-of-the-art shadow removal methods. Additionally, we propose a new metric and an annotated dataset for evaluating the performance of shadow removal methods without the need for paired shadow/shadow-free data.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# フェルミオン円対称運動のための対称性生成器と量子数

Symmetry generators and quantum numbers for fermionic circularly symmetric motion ( http://arxiv.org/abs/2409.06850v1 )

ライセンス: Link先を確認
V. B. Mendrot, A. S. de Castro, P. Alberto, (参考訳) スピン-1/2量子相対論的粒子の平面力学は、いくつかの物理系において重要である。 本稿では,平面運動に対する3+1ディラック方程式の連続対称性の生成器,すなわち円対称性が存在する場合,その相互作用は半径座標にのみ依存する。 異なるローレンツ構造を持つ一般ポテンシャル集合を考える。 これらの生成器は、可換可観測体のいくつかの最小の完全集合とその対応する量子数を可能にする。 この問題に対する一般的な固有スピナーのラベル付けにどのように使用できるかを示す。 また、この平面ディラック問題に対するスピンと擬スピン対称性の生成元を導出するが、これはベクトルとスカラーポテンシャルが同じ大きさのテンソルポテンシャルを持ち、四ベクトルポテンシャルの空間成分が欠如しているときに生じる。 関連エネルギーの退化について検討し、球対称3+1ディラック方程式の既知の退化と比較する。

The planar dynamics of spin-1/2 quantum relativistic particles is important for several physical systems. In this paper we derive, by a simple method, the generators for the continuous symmetries of the 3+1 Dirac equation for planar motion, when there is circular symmetry, i.e., the interactions depend only on the radial coordinate. We consider a general set of potentials with different Lorentz structures. These generators allow for several minimal complete sets of commuting observables and their corresponding quantum numbers. We show how they can be used to label the general eigenspinors for this problem. We also derive the generators of the spin and pseudospin symmetries for this planar Dirac problem, which arise when the vector and scalar potentials have the same magnitude and tensor potential and the space components of the four-vector potential are absent. We investigate the associated energy degeneracies and compare them to the known degeneracies in the spherically symmetric 3+1 Dirac equation.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# LIME-M: MLLMの評価にはあまり役に立たない

LIME-M: Less Is More for Evaluation of MLLMs ( http://arxiv.org/abs/2409.06851v1 )

ライセンス: Link先を確認
Kang Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shuyue Guo, Tianyu Zheng, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang, (参考訳) MLLM(Multimodal Large Language Models)による顕著な成功により、画像認識タスク(例えば、画像キャプションや視覚的質問応答)におけるMLLMの開発をガイドする能力を評価するために、多数のベンチマークが設計されている。 しかし、多数のベンチマークが存在することは、それら全てでモデル性能を評価する際に、かなりの計算負担をもたらす。 さらに、これらのベンチマークには、多くの単純な問題や挑戦的なサンプルが含まれており、様々なMLLMの機能を効果的に区別することができない。 これらの課題に対処するため,(1)半自動スクリーニングプロセスと(2)解答リークの除去という2つのモジュールからなる既存のベンチマークを処理するパイプラインを提案する。 半自動スクリーニングプロセスは、様々なMLLMを合成し、それらを手動で評価することで、モデルの能力を区別できないサンプルをフィルタリングする。 Eliminate Answer Leakageモジュールは、画像なしで回答を推測できるサンプルをフィルタリングする。 LIME-M: Less Is More for Evaluation of Multimodal LLMs, a lightweight multimodal benchmark that can be evaluate the performance of different models。 実験により,LIME-Mはより少ないサンプル(元の24%)と少ない時間(元の23%)でMLLMの性能を識別でき,LIME-Mは画像内の情報を中心に解答リークを排除し,現在の自動測定値(CIDEr)はキャプションにおけるMLLMの能力を評価するには不十分であることがわかった。 さらに、全体的なスコアを計算する際に、キャプションタスクスコアを削除することで、モデル性能の差をより正確に反映することができる。 すべてのコードとデータはhttps://github.com/kangreen0210/LIME-M.comで公開されています。

With the remarkable success achieved by Multimodal Large Language Models (MLLMs), numerous benchmarks have been designed to assess MLLMs' ability to guide their development in image perception tasks (e.g., image captioning and visual question answering). However, the existence of numerous benchmarks results in a substantial computational burden when evaluating model performance across all of them. Moreover, these benchmarks contain many overly simple problems or challenging samples, which do not effectively differentiate the capabilities among various MLLMs. To address these challenges, we propose a pipeline to process the existing benchmarks, which consists of two modules: (1) Semi-Automated Screening Process and (2) Eliminating Answer Leakage. The Semi-Automated Screening Process filters out samples that cannot distinguish the model's capabilities by synthesizing various MLLMs and manually evaluating them. The Eliminate Answer Leakage module filters samples whose answers can be inferred without images. Finally, we curate the LIME-M: Less Is More for Evaluation of Multimodal LLMs, a lightweight Multimodal benchmark that can more effectively evaluate the performance of different models. Our experiments demonstrate that: LIME-M can better distinguish the performance of different MLLMs with fewer samples (24% of the original) and reduced time (23% of the original); LIME-M eliminates answer leakage, focusing mainly on the information within images; The current automatic metric (i.e., CIDEr) is insufficient for evaluating MLLMs' capabilities in captioning. Moreover, removing the caption task score when calculating the overall score provides a more accurate reflection of model performance differences. All our codes and data are released at https://github.com/kangreen0210/LIME-M.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# ExIQA:歪属性を用いた説明可能な画像品質評価

ExIQA: Explainable Image Quality Assessment Using Distortion Attributes ( http://arxiv.org/abs/2409.06853v1 )

ライセンス: Link先を確認
Sepehr Kazemi Ranjbar, Emad Fatemizadeh, (参考訳) ブラインド画像品質評価(BIQA)は、基準画像がない場合に画像の品質スコアを推定する手法を開発することを目的としている。 本稿では,BIQAを歪み識別の観点からアプローチし,CLIPのような視覚言語モデル(VLM)を用いた歪みのタイプと強度の予測を主目的とする。 これら予測歪みに基づいて,画像の品質スコアを推定する。 これを実現するために,属性学習に基づく歪み同定のための説明可能なアプローチを提案する。 歪みの名前でVLMを誘導する代わりに、歪みの属性や効果を刺激し、この情報を集約して歪み強度を推定する。 さらに、画像毎の複数の歪みも考慮し、この手法をよりスケーラブルにします。 これをサポートするために、効率的にトレーニングするための10万の画像からなるデータセットを生成する。 最後に、属性確率を検索して回帰器に入力し、画像品質スコアを予測する。 その結果,本手法は,説明可能性と透明性に加えて,PLCCとSRCCの両方の指標において,複数のデータセット間でのSOTA(State-of-the-art)性能を実現していることがわかった。 さらに、ゼロショットの結果は、提案手法の一般化可能性を示している。

Blind Image Quality Assessment (BIQA) aims to develop methods that estimate the quality scores of images in the absence of a reference image. In this paper, we approach BIQA from a distortion identification perspective, where our primary goal is to predict distortion types and strengths using Vision-Language Models (VLMs), such as CLIP, due to their extensive knowledge and generalizability. Based on these predicted distortions, we then estimate the quality score of the image. To achieve this, we propose an explainable approach for distortion identification based on attribute learning. Instead of prompting VLMs with the names of distortions, we prompt them with the attributes or effects of distortions and aggregate this information to infer the distortion strength. Additionally, we consider multiple distortions per image, making our method more scalable. To support this, we generate a dataset consisting of 100,000 images for efficient training. Finally, attribute probabilities are retrieved and fed into a regressor to predict the image quality score. The results show that our approach, besides its explainability and transparency, achieves state-of-the-art (SOTA) performance across multiple datasets in both PLCC and SRCC metrics. Moreover, the zero-shot results demonstrate the generalizability of the proposed approach.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# AssistTaxi: 税道分析と自律運用のための総合データセット

AssistTaxi: A Comprehensive Dataset for Taxiway Analysis and Autonomous Operations ( http://arxiv.org/abs/2409.06856v1 )

ライセンス: Link先を確認
Parth Ganeriwala, Siddhartha Bhattacharyya, Sean Gunther, Brian Kish, Mohammed Abdul Hafeez Khan, Ankur Dhadoti, Natasha Neogi, (参考訳) 高品質なデータセットの可用性は、特に安全クリティカルなシステムや自律システムにおいて、研究と開発を進める上で重要な役割を担っている。 本稿では,ランウェイとタクシーウェイ解析のための画像の集合である包括的新しいデータセットAssistTaxiを提案する。 このデータセットは、メルボルン(MLB)とグラント・バルカリア(X59)の一般空港から収集された、30万フレーム以上の多様で慎重に収集されたデータで構成されている。 AssistTaxiの重要性は、自律的なオペレーションを進める可能性にある。研究者や開発者は、効率的で安全なタクシーのアルゴリズムを訓練し、評価することができる。 研究者はAssistTaxiを使ってアルゴリズムをベンチマークし、パフォーマンスを評価し、滑走路とタクシーウェイの分析のための新しいアプローチを探索することができる。 このデータセットは、既存のアルゴリズムの検証と強化のための貴重なリソースとして機能し、航空の自律運用におけるイノベーションを促進する。 また,輪郭に基づく検出と線抽出手法を用いてデータセットをラベル付けする手法を提案する。

The availability of high-quality datasets play a crucial role in advancing research and development especially, for safety critical and autonomous systems. In this paper, we present AssistTaxi, a comprehensive novel dataset which is a collection of images for runway and taxiway analysis. The dataset comprises of more than 300,000 frames of diverse and carefully collected data, gathered from Melbourne (MLB) and Grant-Valkaria (X59) general aviation airports. The importance of AssistTaxi lies in its potential to advance autonomous operations, enabling researchers and developers to train and evaluate algorithms for efficient and safe taxiing. Researchers can utilize AssistTaxi to benchmark their algorithms, assess performance, and explore novel approaches for runway and taxiway analysis. Addition-ally, the dataset serves as a valuable resource for validating and enhancing existing algorithms, facilitating innovation in autonomous operations for aviation. We also propose an initial approach to label the dataset using a contour based detection and line extraction technique.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# LLM時代の小モデルの役割:調査

What is the Role of Small Models in the LLM Era: A Survey ( http://arxiv.org/abs/2409.06857v1 )

ライセンス: Link先を確認
Lihu Chen, Gaël Varoquaux, (参考訳) 大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。 しかし、モデルのサイズを拡大すると計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られた資源を持つ学術研究者やビジネスにとって実用的ではない。 同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。 このことは、LLMの時代における小型モデルの役割に関する重要な疑問を提起する。 本研究では,LLMとSMの関係を,コラボレーションと競争という2つの重要な観点から体系的に検討する。 この調査が実践者に貴重な洞察を与え、小さなモデルの貢献をより深く理解し、より効率的な計算資源の利用を促進することを願っている。 コードはhttps://github.com/tigerchen52/role_of_small_modelsで公開されている。

Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 量子電磁力学結合クラスター理論:光子誘起電子相関の探索

Quantum Electrodynamics Coupled-Cluster Theory: Exploring Photon-Induced Electron Correlations ( http://arxiv.org/abs/2409.06858v1 )

ライセンス: Link先を確認
Himadri Pathak, Nicholas P. Bauman, Ajay Panyala, Karol Kowalski, (参考訳) 本稿では,多体法(TAMM)のテンソル代数(Tensor Algebra for Many-body Methods)に依存したExaChemプログラムパッケージ内の個々の励起過程と混合励起過程をカバーする,電子振幅とボソニック振幅の単一励起と二重励起(QED-CCSD)を用いた量子電気力学結合クラスタ法の実装に成功した。 TAMMは、ノートパソコンからリーダーシップクラスのコンピューティングリソースまで、現代のコンピューティングプラットフォームを活用するために設計された並列ヘテロジニアステンソルライブラリである。 この枠組みは従来のCCSD法を拡張し、電子とボゾン自由度の間の複雑な相互作用を取り入れ、量子現象の包括的記述を提供する。 理論的基礎、アルゴリズムの詳細、数値ベンチマークについて論じ、ボゾン自由度の統合が電子基底状態をどのように変化させるかを示す。 光キャビティ内の電子と光子の相互作用は、長さゲージ内の双極子近似の中でパウリ・フィッシャー・ハミルトニアンを用いてモデル化される。 CCSDフレームワークにおけるQED効果の統合は、複雑な量子系をシミュレートするためのより正確で汎用的なモデルに寄与し、それによって様々な物理現象の理解、予測、操作を深める。

We present our successful implementation of the quantum electrodynamics coupled-cluster method with single and double excitations (QED-CCSD) for electronic and bosonic amplitudes, covering both individual and mixed excitation processes within the ExaChem program package, which relies on the Tensor Algebra for Many-body Methods (TAMM) infrastructure. TAMM is a parallel heterogeneous tensor library designed for utilizing modern computing platforms, from laptops to leadership-class computing resources. This developed computational framework extends the traditional CCSD method to incorporate the intricate interplay between electronic and bosonic degrees of freedom, providing a comprehensive description of quantum phenomena. We discuss theoretical foundations, algorithmic details, and numerical benchmarks to demonstrate how the integration of bosonic degrees of freedom alters the electronic ground state. The interactions between electrons and photons within an optical cavity are modeled using the Pauli-Fierz Hamiltonian within the dipole approximation in the length gauge. The integration of QED effects within the CCSD framework contributes to a more accurate and versatile model for simulating complex quantum systems, thereby opening avenues for a better understanding, prediction, and manipulation of various physical phenomena.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# NSP:ニューロシンボリックな自然言語ナビゲーションプランナー

NSP: A Neuro-Symbolic Natural Language Navigational Planner ( http://arxiv.org/abs/2409.06859v1 )

ライセンス: Link先を確認
William English, Dominic Simon, Rickard Ewetz, Sumit Jha, (参考訳) 自由形式の自然言語命令を解釈できるパスプランナーは、幅広いロボット工学アプリケーションを自動化することを約束する。 これらのプランナーは、ユーザインタラクションを単純化し、複雑な半自律システムに対する直感的な制御を可能にする。 既存の記号的アプローチは正確性と効率の保証を提供するが、自由形式の自然言語入力を解析するのに苦労している。 逆に、事前訓練されたLarge Language Models(LLM)に基づくニューラルネットワークは、自然言語入力を管理することができるが、性能保証がない。 本論文では,NSPと呼ばれる自然言語入力からの経路計画のためのニューロシンボリック・フレームワークを提案する。 このフレームワークは、LLMの神経的推論能力を活用する 一 環境の象徴的な表現及び表現 二 記号経路計画アルゴリズム 次に、環境表現上でアルゴリズムを実行することにより、経路計画問題の解を求める。 このフレームワークは、シンボリック実行環境からニューラル生成プロセスへのフィードバックループを使用して、自己修正構文エラーを発生させ、実行時間の制約を満たす。 1500のパスプランニング問題のあるベンチマークスイートを用いて, ニューロシンボリックアプローチの評価を行った。 実験により、我々のニューロシンボリックアプローチは、最先端のニューラルアプローチよりも平均19~77%短い有効なパスを90.1%生成していることが示された。

Path planners that can interpret free-form natural language instructions hold promise to automate a wide range of robotics applications. These planners simplify user interactions and enable intuitive control over complex semi-autonomous systems. While existing symbolic approaches offer guarantees on the correctness and efficiency, they struggle to parse free-form natural language inputs. Conversely, neural approaches based on pre-trained Large Language Models (LLMs) can manage natural language inputs but lack performance guarantees. In this paper, we propose a neuro-symbolic framework for path planning from natural language inputs called NSP. The framework leverages the neural reasoning abilities of LLMs to i) craft symbolic representations of the environment and ii) a symbolic path planning algorithm. Next, a solution to the path planning problem is obtained by executing the algorithm on the environment representation. The framework uses a feedback loop from the symbolic execution environment to the neural generation process to self-correct syntax errors and satisfy execution time constraints. We evaluate our neuro-symbolic approach using a benchmark suite with 1500 path-planning problems. The experimental evaluation shows that our neuro-symbolic approach produces 90.1% valid paths that are on average 19-77% shorter than state-of-the-art neural approaches.
翻訳日:2024-09-12 16:29:39 公開日:2024-09-10
# 行列ベルンシュタイン不等式によるランダムクラウス作用素による量子チャネルの濃度

Concentration of quantum channels with random Kraus operators via matrix Bernstein inequality ( http://arxiv.org/abs/2409.06862v1 )

ライセンス: Link先を確認
Motohisa Fukuda, (参考訳) 本研究では,ランダムなクラウス演算子を持つ量子チャネルを生成し,量子チャネルと量子展開器をほぼツイリングする。 濃度現象を証明するために、行列ベルンシュタインの不等式を用いる。 このようにして、我々のランダムモデルは、ハール分布のユニタリ行列やガウス行列を使わない。 むしろ、前回の研究では、$t$-designsを使用して、$\mathbb C^{d^t}$に作用する混合テナー積ユニタリチャネルを生成する。 Schatten $p$-norm のバウンダリは 1\leq p \leq 2$ に対してのみ有効であるが、これらのバウンダリは典型的には 1/\mathrm{poly}(d^t)$ に比例する尾のバウンダリを持つ量子チャネルをほぼツイリングしていることを示している。 必要なクラウス演算子の数は$\log d$と$t$の権限で改善された。 このようなランダムな量子チャネルは典型的には量子展開器であるが、クラウス作用素の数は我々の場合、$\log d$に比例して増加しなければならない。 最後に、有界および等方的ランダムクラス演算子によって生成される新しい超作用素の非ユニタリモデルが導入された。

In this study, we generate quantum channels with random Kraus operators to typically obtain almost twirling quantum channels and quantum expanders. To prove the concentration phenomena, we use matrix Bernstein's inequality. In this way, our random models do not utilize Haar-distributed unitary matrices or Gaussian matrices. Rather, as in the preceding research, we use unitary $t$-designs to generate mixed tenor-product unitary channels acting on $\mathbb C^{d^t}$. Although our bounds in Schatten $p$-norm are valid only for $1\leq p \leq 2$, we show that they are typically almost twirling quantum channels with the tail bound proportional to $1/\mathrm{poly}(d^t)$, while such bounds were previously constants. The number of required Kraus operators was also improved by powers of $\log d$ and $t$. Such random quantum channels are also typically quantum expanders, but the number of Kraus operators must grow proportionally to $\log d$ in our case. Finally, a new non-unital model of super-operators generated by bounded and isotropic random Kraus operators was introduced, which can be typically rectified to give almost randomizing quantum channels and quantum expanders.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# スパースチェックインデータによる人間の感情変動の理解に向けて

Towards Understanding Human Emotional Fluctuations with Sparse Check-In Data ( http://arxiv.org/abs/2409.06863v1 )

ライセンス: Link先を確認
Sagar Paresh Shah, Ga Wu, Sean W. Kortschot, Samuel Daviau, (参考訳) データスパシティは、さまざまなドメインにわたるAIツールのパワーを制限する重要な課題である。 この問題は、自動センサーから得られる測定よりもアクティブなユーザ入力を必要とする領域で特に顕著である。 自己報告のムードチェックインなど、アクティブなユーザエンゲージメントを必要とするドメインにおいて、AIの潜在能力を最大限活用するための重要な障壁である。 この文脈では、スパースデータは、原因、引き金、寄与要因などの個人の感情経験のニュアンスを捉えようとする努力を妨げる可能性がある。 データ不足に対処する既存の方法は、しばしばヒューリスティックや大規模なデータセットに依存し、新しいドメインへの適応性に欠けるディープラーニングモデルを好む。 本稿では,ユーザ中心のフィードバックに基づく学習を取り入れた新しい確率的フレームワークを提案する。 64のオプション(最大1/64)でユーザ状態を予測する精度が60%に達すると、このフレームワークはデータ空間を効果的に軽減する。 様々なアプリケーションにまたがって汎用性があり、理論的なAI研究と実践的なデプロイメントのギャップを埋めている。

Data sparsity is a key challenge limiting the power of AI tools across various domains. The problem is especially pronounced in domains that require active user input rather than measurements derived from automated sensors. It is a critical barrier to harnessing the full potential of AI in domains requiring active user engagement, such as self-reported mood check-ins, where capturing a continuous picture of emotional states is essential. In this context, sparse data can hinder efforts to capture the nuances of individual emotional experiences such as causes, triggers, and contributing factors. Existing methods for addressing data scarcity often rely on heuristics or large established datasets, favoring deep learning models that lack adaptability to new domains. This paper proposes a novel probabilistic framework that integrates user-centric feedback-based learning, allowing for personalized predictions despite limited data. Achieving 60% accuracy in predicting user states among 64 options (chance of 1/64), this framework effectively mitigates data sparsity. It is versatile across various applications, bridging the gap between theoretical AI research and practical deployment.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 預言不等式の競合複雑性と相関

The Competition Complexity of Prophet Inequalities with Correlations ( http://arxiv.org/abs/2409.06868v1 )

ライセンス: Link先を確認
Tomer Ezra, Tamar Garbuz, (参考訳) 我々は、報酬の値が相関しているシナリオにおいて、資源増強フレームワークを通じて預言不等式問題の研究を開始する。 我々のゴールは、オンラインアルゴリズムが元のインスタンスの最大値を近似するために必要となる追加報酬の数を決定することである。 独立報酬のケースはよく理解されているが、報酬間の相関を考慮するためにこの研究を拡張している。 その結果、独立の場合と異なり、近似に要する追加報酬数は元の報酬数に依存しており、独立の場合において最適であるブロック閾値アルゴリズムは、相関が存在する場合、無限の追加報酬を必要とする可能性があることを示した。 1) 元のインスタンスの異なるコピーに対応するブロックに報酬が届く場合,(2) すべてのコピーに対して報酬が任意にシャッフルされる場合,(3) 元のインスタンスの異なるコピーに対応するブロックに報酬が届く場合, そしてブロック内の値が完全に相関しない場合, という3つのシナリオに対して,漸近的に最適なアルゴリズムを開発する。

We initiate the study of the prophet inequality problem through the resource augmentation framework in scenarios when the values of the rewards are correlated. Our goal is to determine the number of additional rewards an online algorithm requires to approximate the maximum value of the original instance. While the independent reward case is well understood, we extend this research to account for correlations among rewards. Our results demonstrate that, unlike in the independent case, the required number of additional rewards for approximation depends on the number of original rewards, and that block-threshold algorithms, which are optimal in the independent case, may require an infinite number of additional rewards when correlations are present. We develop asymptotically optimal algorithms for the following three scenarios: (1) where rewards arrive in blocks corresponding to the different copies of the original instance; (2) where rewards across all copies are arbitrarily shuffled; and (3) where rewards arrive in blocks corresponding to the different copies of the original instance, and values within each block are pairwise independent rather than fully correlated.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 基準フィッティングによる関節軌跡とネットワーク推定

Joint trajectory and network inference via reference fitting ( http://arxiv.org/abs/2409.06879v1 )

ライセンス: Link先を確認
Stephen Y Zhang, (参考訳) ネットワーク推論(Network Inference)は、実験的な可観測物から複雑なシステムの相互作用を再構築するタスクであり、システム生物学における中心的かつ極めて困難な問題である。 過去20年間に多くの進展があったが、ネットワーク推論は依然として未解決の問題である。 定常状態で観測されるシステムでは、時間的情報が利用できないため、因果情報が失われるため、限られた洞察が得られる。 システム行動に因果的な洞察を得るための2つの一般的な方法は、軌跡の形で時間的ダイナミクスを活用することと、ノックアウト摂動のような介入を適用することである。 本稿では,動的かつ摂動的な単一細胞データを利用して,細胞軌道と電力ネットワークの推論を共同で学習する手法を提案する。 我々のアプローチは確率力学の最小エントロピー推定によって動機付けられ、タイムスタンプ付き単一セルスナップショットから有向および符号付きネットワークを推定できる。

Network inference, the task of reconstructing interactions in a complex system from experimental observables, is a central yet extremely challenging problem in systems biology. While much progress has been made in the last two decades, network inference remains an open problem. For systems observed at steady state, limited insights are available since temporal information is unavailable and thus causal information is lost. Two common avenues for gaining causal insights into system behaviour are to leverage temporal dynamics in the form of trajectories, and to apply interventions such as knock-out perturbations. We propose an approach for leveraging both dynamical and perturbational single cell data to jointly learn cellular trajectories and power network inference. Our approach is motivated by min-entropy estimation for stochastic dynamics and can infer directed and signed networks from time-stamped single cell snapshots.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 調査質問抽出作業のためのLCMに基づく評価関数評価用データセット

A Dataset for Evaluating LLM-based Evaluation Functions for Research Question Extraction Task ( http://arxiv.org/abs/2409.06883v1 )

ライセンス: Link先を確認
Yuya Fujisaki, Shiro Takagi, Hideki Asoh, Wataru Kumagai, (参考訳) テキスト要約技術の進歩は目覚ましい。 しかし,研究論文などの高度専門文書から必要な情報を正確に抽出・要約する作業は十分に検討されていない。 我々は,研究論文から研究質問(RQ)を抽出し,機械学習論文から抽出したRQ,GPT-4によるこれらの論文から抽出したRQ,および複数の視点から抽出したRQの人的評価からなる新しいデータセットを構築することに注力している。 このデータセットを用いて,最近提案したLCMに基づく要約評価関数を体系的に比較し,これらの関数がヒト評価と十分に高い相関関係を示さなかったことを発見した。 我々のデータセットは、RQ抽出タスクに適したより良い評価関数の開発に関するさらなる研究の基盤を提供し、タスクの性能向上に寄与することを期待している。 データセットはhttps://github.com/auto-res/PaperRQ-HumanAnno-Datasetで公開されている。

The progress in text summarization techniques has been remarkable. However the task of accurately extracting and summarizing necessary information from highly specialized documents such as research papers has not been sufficiently investigated. We are focusing on the task of extracting research questions (RQ) from research papers and construct a new dataset consisting of machine learning papers, RQ extracted from these papers by GPT-4, and human evaluations of the extracted RQ from multiple perspectives. Using this dataset, we systematically compared recently proposed LLM-based evaluation functions for summarizations, and found that none of the functions showed sufficiently high correlations with human evaluations. We expect our dataset provides a foundation for further research on developing better evaluation functions tailored to the RQ extraction task, and contribute to enhance the performance of the task. The dataset is available at https://github.com/auto-res/PaperRQ-HumanAnno-Dataset.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# オルタナティブベルの状態とテレポーテーション

Alternative Bell's states and teleportation ( http://arxiv.org/abs/2409.06885v1 )

ライセンス: Link先を確認
Juan M. Romero, Emiliano Montoya-Gonzalez, Oscar Velazquez-Alvarado, (参考訳) ベル状態は量子コンピューティングにおいて最も有用なものの一つである。 これらの状態は、2つの量子ビットを持つ感染状態の正規直交基底である。 絡み合った状態の代替基底を提案する。 これらの状態のいくつかは連続パラメータに依存する。 これらの代替基底の量子回路と符号を示す。 さらに、これらの絡み合った状態を用いて量子テレポーテーションを研究し、量子回路と関連する符号を示す。

Bell's states are among the most useful in quantum computing. These state are an orthonormal base of entagled states with two qubits. We propose alternative bases of entangled states. Some of these states depend on a continuous parameter. We present the quantum circuit and code of these alternative bases. In addition, we study quantum teleportation with these entangled states and present their quantum circuits and codes associated.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# スパース同定による確率系の準ポテンシャル・ドリフト分解

Quasi-potential and drift decomposition in stochastic systems by sparse identification ( http://arxiv.org/abs/2409.06886v1 )

ライセンス: Link先を確認
Leonardo Grigorio, Mnerh Alqahtani, (参考訳) 準ポテンシャルは確率系において重要な概念であり、そのような系の力学の長期的挙動を考慮に入れている。 また、システムのアトラクタからの平均終了時間を推定し、状態間の遷移率を推定することもできます。 これは物理学、生物学、生態学、経済など様々な分野における多くの応用において重要である。 準ポテンシャルの計算は、しばしば難しい機能的最小化問題によって得られる。 本稿では,スパース学習手法とアクション最小化手法を組み合わせる。 一 確率力学を駆動する決定論的ベクトル場(ドリフト)の直交分解を同定すること。 (ii)この分解から準ポテンシャルを決定する。 このドリフトベクトル場の勾配と直交部分への分解は、機械学習に基づくスパース識別技術を用いて達成される。 具体的には、非線型力学(SINDy)[1] のいわゆるスパース同定が確率系(インスタント)の最も可能性の高い軌道に適用され、ドリフトの直交分解を学習する。 その結果、準ポテンシャルはインスタントパスの外側の点でも評価でき、この1つの軌道から完全な準ポテンシャルランドスケープを提供することができる。 さらに, 本フレームワーク内で得られた直交ドリフト成分は, 遷移速度と出口時間の指数的減衰の補正として重要である。 提案手法を2次元および3次元システムで実装し,様々なタイプの潜在的景観とアトラクタを網羅した。

The quasi-potential is a key concept in stochastic systems as it accounts for the long-term behavior of the dynamics of such systems. It also allows us to estimate mean exit times from the attractors of the system, and transition rates between states. This is of significance in many applications across various areas such as physics, biology, ecology, and economy. Computation of the quasi-potential is often obtained via a functional minimization problem that can be challenging. This paper combines a sparse learning technique with action minimization methods in order to: (i) Identify the orthogonal decomposition of the deterministic vector field (drift) driving the stochastic dynamics; (ii) Determine the quasi-potential from this decomposition. This decomposition of the drift vector field into its gradient and orthogonal parts is accomplished with the help of a machine learning-based sparse identification technique. Specifically, the so-called sparse identification of non-linear dynamics (SINDy) [1] is applied to the most likely trajectory in a stochastic system (instanton) to learn the orthogonal decomposition of the drift. Consequently, the quasi-potential can be evaluated even at points outside the instanton path, allowing our method to provide the complete quasi-potential landscape from this single trajectory. Additionally, the orthogonal drift component obtained within our framework is important as a correction to the exponential decay of transition rates and exit times. We implemented the proposed approach in 2- and 3-D systems, covering various types of potential landscapes and attractors.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 正常学習:マンモグラフィーによる乳がんイベントの予測のための縦アテンションアライメントモデル

Ordinal Learning: Longitudinal Attention Alignment Model for Predicting Time to Future Breast Cancer Events from Mammograms ( http://arxiv.org/abs/2409.06887v1 )

ライセンス: Link先を確認
Xin Wang, Tao Tan, Yuan Gao, Eric Marcus, Luyi Han, Antonio Portaluri, Tianyu Zhang, Chunyao Lu, Xinglong Liang, Regina Beets-Tan, Jonas Teuwen, Ritse Mann, (参考訳) 検診・予防の個別化には, 乳がん検診(BC)のリスク評価が重要である。 近年のmammogram(MG)に基づく深層学習モデルによるBCのリスク予測の可能性にもかかわらず、彼らは主に患者間の「時間から未来への」秩序を見落とし、乳房組織の変化を追跡する方法の限定的な調査を行い、臨床応用を制限している。 本研究は, 経時的乳房組織変化をより説明可能な方法で組み込んだOA-BreaCR(OA-BreaCR)という新しい手法を提案する。 提案手法を,既存のBCリスク予測や時間予測手法と比較し,公共EMBEDおよび社内データセット上で検証する。 OA-BreaCR は,BC のリスクと時間・将来の予測タスクにおいて,既存の手法よりも優れています。 さらに、通常のヒートマップの可視化は、時間の経過とともにモデルの注意を示す。 以上の結果から,BC検診・予防活動の強化に向けた解釈的かつ正確なリスク評価の重要性が示唆された。 コードは一般に公開されます。

Precision breast cancer (BC) risk assessment is crucial for developing individualized screening and prevention. Despite the promising potential of recent mammogram (MG) based deep learning models in predicting BC risk, they mostly overlook the 'time-to-future-event' ordering among patients and exhibit limited explorations into how they track history changes in breast tissue, thereby limiting their clinical application. In this work, we propose a novel method, named OA-BreaCR, to precisely model the ordinal relationship of the time to and between BC events while incorporating longitudinal breast tissue changes in a more explainable manner. We validate our method on public EMBED and inhouse datasets, comparing with existing BC risk prediction and time prediction methods. Our ordinal learning method OA-BreaCR outperforms existing methods in both BC risk and time-to-future-event prediction tasks. Additionally, ordinal heatmap visualizations show the model's attention over time. Our findings underscore the importance of interpretable and precise risk assessment for enhancing BC screening and prevention efforts. The code will be accessible to the public.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# UAV撮像画像の視覚的欠陥除去のためのPix2Pix GANの改良

Enhanced Pix2Pix GAN for Visual Defect Removal in UAV-Captured Images ( http://arxiv.org/abs/2409.06889v1 )

ライセンス: Link先を確認
Volodymyr Rizun, (参考訳) 本稿では,UAV撮像画像から視覚的欠陥を効果的に除去するニューラルネットワークを提案する。 Pix2Pix GANは、UAV画像の視覚的欠陥に対処するために特別に設計された。 この手法にはPix2Pixアーキテクチャの高度な修正が含まれており、モード崩壊のような一般的な問題をターゲットにしている。 提案手法は、欠陥のあるUAV画像の品質を大幅に向上させ、よりクリーンでより正確な視覚的結果をもたらす。 提案手法の有効性は、航空写真のカスタムデータセットの評価を通じて実証され、UAV画像の精細化と復元を効果的に行う能力を強調している。

This paper presents a neural network that effectively removes visual defects from UAV-captured images. It features an enhanced Pix2Pix GAN, specifically engineered to address visual defects in UAV imagery. The method incorporates advanced modifications to the Pix2Pix architecture, targeting prevalent issues such as mode collapse. The suggested method facilitates significant improvements in the quality of defected UAV images, yielding cleaner and more precise visual results. The effectiveness of the proposed approach is demonstrated through evaluation on a custom dataset of aerial photographs, highlighting its capability to refine and restore UAV imagery effectively.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 非パラメトリック独立試験のためのディープカーネルの学習

Learning Deep Kernels for Non-Parametric Independence Testing ( http://arxiv.org/abs/2409.06890v1 )

ライセンス: Link先を確認
Nathaniel Xu, Feng Liu, Danica J. Sutherland, (参考訳) ヒルベルト・シュミット独立基準(英: Hilbert-Schmidt Independence Criterion、HSIC)は、確率変数間の依存を非パラメトリックに検出するための強力なツールである。 ガウス核や距離共分散をもたらす核のような一般的に用いられる選択は、比較的単純な形式の依存を持つデータ分布からのアンプサイズの標本に対してのみ十分である。 本稿では, HSIC による独立性テストで使用されるカーネルを, 漸近性テスト能力の推定値の最大化に基づいて選択する手法を提案する。 この推定値の最大化がテストの真のパワーをほぼ最大化することを証明し、学習したカーネルが様々な実験においてランダム変数間の構造的依存の形式を識別できることを実証する。

The Hilbert-Schmidt Independence Criterion (HSIC) is a powerful tool for nonparametric detection of dependence between random variables. It crucially depends, however, on the selection of reasonable kernels; commonly-used choices like the Gaussian kernel, or the kernel that yields the distance covariance, are sufficient only for amply sized samples from data distributions with relatively simple forms of dependence. We propose a scheme for selecting the kernels used in an HSIC-based independence test, based on maximizing an estimate of the asymptotic test power. We prove that maximizing this estimate indeed approximately maximizes the true power of the test, and demonstrate that our learned kernels can identify forms of structured dependence between random variables in various experiments.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# AI支援データ可視化のための定式化研究

Formative Study for AI-assisted Data Visualization ( http://arxiv.org/abs/2409.06892v1 )

ライセンス: Link先を確認
Rania Saber, Anna Fariha, (参考訳) このフォーマティブな研究は、データ品質がAIによるデータ視覚化に与える影響を調査し、不適切なデータセットがこれらのツールの結果にどのように影響するかに焦点を当てる。 この研究は、固有の品質問題を持つデータセットから視覚化を生成することにより、発生した特定の可視化問題を特定し、分類することを目的としている。 この研究は、これらの視覚化課題に効果的に対処する潜在的な方法やツールについても検討している。 ツール開発はまだ実施されていないが、この発見は欠陥のあるデータを扱うためのAI視覚化ツールの強化を強調している。 この研究は、より堅牢でユーザフレンドリなソリューションの必要性を強調し、データや視覚化エラーの迅速かつ容易な修正を可能にし、AI支援データ可視化プロセスの全体的な信頼性とユーザビリティを向上させる。

This formative study investigates the impact of data quality on AI-assisted data visualizations, focusing on how uncleaned datasets influence the outcomes of these tools. By generating visualizations from datasets with inherent quality issues, the research aims to identify and categorize the specific visualization problems that arise. The study further explores potential methods and tools to address these visualization challenges efficiently and effectively. Although tool development has not yet been undertaken, the findings emphasize enhancing AI visualization tools to handle flawed data better. This research underscores the critical need for more robust, user-friendly solutions that facilitate quicker and easier correction of data and visualization errors, thereby improving the overall reliability and usability of AI-assisted data visualization processes.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# Mazed and Confused:VRにおける実際の歩行中のサイバーシック、作業記憶、精神的負荷、身体的負荷、注意のデータセット

Mazed and Confused: A Dataset of Cybersickness, Working Memory, Mental Load, Physical Load, and Attention During a Real Walking Task in VR ( http://arxiv.org/abs/2409.06898v1 )

ライセンス: Link先を確認
Jyotirmay Nag Setu, Joshua M Le, Ripan Kumar Kundu, Barry Giesbrecht, Tobias Höllerer, Khaza Anuarul Hoque, Kevin Desai, John Quarles, (参考訳) バーチャルリアリティ(VR)は、トレーニング、教育、医療、エンターテイメントなど様々な産業で急速に定着しており、ユーザーは複数の複雑な認知的および身体的活動を行う必要がある。 しかし、認知活動、身体活動、およびサイバーシックネスの慣れ親しんだ感情との関係はよく理解されておらず、開発者にとって予測不可能である。 研究者は以前、ユーザーが静止している間にサイバーシックネスを予測するためのラベル付きデータセットを提供してきたが、ユーザーが物理的に歩いている間、サイバーシックネスに関するラベル付きデータセットはほとんどなかった。 そこで、39名の被験者から、頭部方向、頭部位置、視線追跡、画像、外部センサーからの生理的読影、自己報告されたサイバーシック度、身体負荷、およびVRにおける精神負荷を収集した。 データ収集全体を通じて、参加者は実際の歩行を通して迷路をナビゲートし、注意と作業記憶に挑戦するタスクを実行した。 このデータセットの有用性を実証するために,サイバーシック度重度分類の95%の精度を達成したトレーニング分類器のケーススタディを行った。 簡単な分類器の性能は、このデータセットを将来の研究者がサイバーシック検出と縮小モデルを開発するのに理想的なものにしている。 分類に役立った特徴をよりよく理解するため, SHAP(SHapley Additive exPlanations)分析を行い, 視線追跡の重要性と歩行時のサイバーシックネス予測の生理的指標を強調した。 このオープンデータセットにより、将来の研究者はサイバーシックネスと認知的負荷の関係を研究し、予測モデルを開発することができる。 このデータセットは、認知負荷管理の改善とサイバーシックネスの最小化によって、将来のVR開発者が効率的で効果的な仮想環境を設計できるようにする。

Virtual Reality (VR) is quickly establishing itself in various industries, including training, education, medicine, and entertainment, in which users are frequently required to carry out multiple complex cognitive and physical activities. However, the relationship between cognitive activities, physical activities, and familiar feelings of cybersickness is not well understood and thus can be unpredictable for developers. Researchers have previously provided labeled datasets for predicting cybersickness while users are stationary, but there have been few labeled datasets on cybersickness while users are physically walking. Thus, from 39 participants, we collected head orientation, head position, eye tracking, images, physiological readings from external sensors, and the self-reported cybersickness severity, physical load, and mental load in VR. Throughout the data collection, participants navigated mazes via real walking and performed tasks challenging their attention and working memory. To demonstrate the dataset's utility, we conducted a case study of training classifiers in which we achieved 95% accuracy for cybersickness severity classification. The noteworthy performance of the straightforward classifiers makes this dataset ideal for future researchers to develop cybersickness detection and reduction models. To better understand the features that helped with classification, we performed SHAP(SHapley Additive exPlanations) analysis, highlighting the importance of eye tracking and physiological measures for cybersickness prediction while walking. This open dataset can allow future researchers to study the connection between cybersickness and cognitive loads and develop prediction models. This dataset will empower future VR developers to design efficient and effective Virtual Environments by improving cognitive load management and minimizing cybersickness.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 共振器QEDによる拡張励起子輸送と量子情報の拡散

Disorder enhanced exciton transport and quantum information spreading with the assistance of cavity QED ( http://arxiv.org/abs/2409.06900v1 )

ライセンス: Link先を確認
Weijun Wu, Ava N. Hejazi, Gregory D. Scholes, (参考訳) 分子材料は、励起子輸送や量子情報拡散といった高効率輸送のための潜在的プラットフォームとして研究されている。 しかし、輸送効率を損なう要因の1つは分子系の固有の障害であり、アンダーソンの局在によって部位間ホッピングが抑制される。 本稿では,空洞光子ブリッジが空間的に分離された場所を橋渡しし,空洞を介する移動路を構築する空洞にシステムを強く結合させることにより,障害の負の影響を取り除くための新しいアプローチを理論的に報告する。 オープン量子系の力学解析は長距離輸送の観点で示し、2つのチャネルは競合関係を持つ。 障害が部位間ホッピングを抑制するとき、輸送は主に空洞を介するジャンプによって起こる。 したがって、空洞の助けを借りて、ある範囲の障害は輸送を増強し、ある障害のあるシステムは均質なシステムよりも輸送に効率的である。 これらの結果は、ハイブリッド光マター状態を活用することにより、励起子輸送および量子情報拡散のための次世代材料の設計に関する洞察を与える。

Molecular materials have been studied as a potential platform for highly efficient transport such as exciton transport and quantum information spreading. However, one detrimental factor to transport efficiency is the inherent disorder of the molecular system, where site-to-site hopping is suppressed by Anderson localization. Here we theoretically report a novel approach to eliminate the negative impact of disorder by strongly coupling the system to a cavity, where the cavity photon bridges spatially separated sites and builds an additional transport channel, cavity-mediated jumping. Our analysis of the open quantum system dynamics shows in terms of long-range transport, the two channels hold a competitive relation. When disorder suppresses site-to-site hopping, transport occurs mainly through cavity-mediated jumping in disguise. Therefore, with the assistance of the cavity, disorder in certain ranges can enhance transport and certain disordered systems can even be more efficient for transport than the homogeneous system. These results provide insight into the design of next-generation materials for exciton transport and quantum information spreading by leveraging hybrid light-matter states.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# シュレーディンガー猫状態育種による光学ゴッテマン・キタエフ・プレスキルクビット生成

Optical Gottesman-Kitaev-Preskill Qubit Generation via Approximate Squeezed Schrödinger Cat State Breeding ( http://arxiv.org/abs/2409.06902v1 )

ライセンス: Link先を確認
Andrew J. Pizzimenti, Daniel Soh, (参考訳) Gottesman-Kitaev-Preskill (GKP) 量子ビットは、異常な誤り訂正能力で知られており、量子コンピューティングにおいて非常に解明されている。 しかし、光GKP量子ビットの生成は重要な課題である。 未検出モードにおける所望の状態を隠蔽する光子数分解検出器を用いて、絡み合った真空モードの一部を計測する計測に基づく手法が、その最小限のリソース要求により光GKP量子ビット生成の候補として浮上している。 現在の測定に基づく手法は、高品質なGKP量子ビットを生成することができるが、実験的な実現を制限した低い成功確率に悩まされている。 問題の核心は光子数分解測定の双対性にあり、質の高いGKP量子ビットを生成するのに必要な非線形性の源と、生産が成功する確率を下げる成分の両方である。 一般化された光子サブトラクションによって生成されたシュリンガー猫状態に近似したシュリンガー猫状態を育む手法は、単一の高い確率ホモダイン測定で2つの光子数分解測定を補足することでこの問題を克服する。 このスキームは成功確率を$\geq 10^{-5}$、他の測定基準法よりも2桁高くし、なおも10dBの圧縮GKP量子ビットに相当する誤差補正能力を持つ高忠実な状態を生成する。 このブレークスルーにより、光学GKP量子ビット符号化の実用性が大幅に向上した。

Gottesman-Kitaev-Preskill (GKP) qubits, known for their exceptional error-correction capabilities, are highly coveted in quantum computing. However, generating optical GKP qubits has been a significant challenge. Measurement based methods, where a portion of entangled squeezed vacuum modes are measured with photon number resolving detectors heralding a desired state in the undetected modes, have emerged as leading candidates for optical GKP qubit generation due their minimal resource requirements. While the current measurement based methods can produce high quality GKP qubits, they suffer from low success probabilities limiting experimental realization. The heart of the problem lies in the duality of photon number resolving measurements, being both the source of nonlinearity needed to generate quality GKP qubits and the component driving down their probability of successful production. Our method, breeding approximate squeezed Schr\"odinger cat states created by generalized photon subtraction, overcomes this problem by supplementing two photon number resolving measurements with a single high success probability homodyne measurement. This scheme achieves success probabilities $\geq 10^{-5}$, two orders of magnitude higher than other measurement based methods, while still producing states with high-fidelity, possessing error-correction capabilities equivalent to up to a 10 dB squeezed GKP qubit. This breakthrough significantly advances the practical use of the optical GKP qubit encoding.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 反復的自己訓練による半教師付きリワードモデリング

Semi-Supervised Reward Modeling via Iterative Self-Training ( http://arxiv.org/abs/2409.06903v1 )

ライセンス: Link先を確認
Yifei He, Haoxiang Wang, Ziyan Jiang, Alexandros Papangelis, Han Zhao, (参考訳) RLHF(Reinforcement Learning with Human Feedback)において、リワードモデル(RM)は人間の価値観と好みを捉え、事前訓練された大規模言語モデル(LLM)を整合させる中心的な役割を担っている。 伝統的に、これらのモデルのトレーニングは、拡張性とコストという面で大きな課題を生じさせる、広範囲な人手による嗜好データに依存している。 これらの制約を克服するために,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。 ラベルなしデータセットを与えられたSSRMには、擬似ラベルなし例、信頼しきい値による高信頼例の選択、洗練されたデータセットの微調整の3つの重要な反復ステップが含まれている。 様々なモデル構成に関する広範な実験において、SSRMは追加のラベリングコストを発生させることなく報酬モデルを大幅に改善することを示した。 特にSSRMは、同等のボリュームのラベル付きデータで完全に訓練されたモデルに匹敵するパフォーマンスを達成することができる。 全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。

Reward models (RM) capture the values and preferences of humans and play a central role in Reinforcement Learning with Human Feedback (RLHF) to align pretrained large language models (LLMs). Traditionally, training these models relies on extensive human-annotated preference data, which poses significant challenges in terms of scalability and cost. To overcome these limitations, we propose Semi-Supervised Reward Modeling (SSRM), an approach that enhances RM training using unlabeled data. Given an unlabeled dataset, SSRM involves three key iterative steps: pseudo-labeling unlabeled examples, selecting high-confidence examples through a confidence threshold, and supervised finetuning on the refined dataset. Across extensive experiments on various model configurations, we demonstrate that SSRM significantly improves reward models without incurring additional labeling costs. Notably, SSRM can achieve performance comparable to models trained entirely on labeled data of equivalent volumes. Overall, SSRM substantially reduces the dependency on large volumes of human-annotated data, thereby decreasing the overall cost and time involved in training effective reward models.
翻訳日:2024-09-12 16:16:15 公開日:2024-09-10
# 産業領域におけるフェデレーションモデルパーソナライズ : 比較研究

Applied Federated Model Personalisation in the Industrial Domain: A Comparative Study ( http://arxiv.org/abs/2409.06904v1 )

ライセンス: Link先を確認
Ilias Siniosoglou, Vasileios Argyriou, George Fragulis, Panagiotis Fouliras, Georgios Th. Papadopoulos, Anastasios Lytos, Panagiotis Sarigiannidis, (参考訳) さまざまなアプリケーションのための複雑な機械学習モデルとディープラーニング(DL)モデルのトレーニングとデプロイの時間的特性は、マシンラーニング(ML)分野において大きな課題を呈し続けている。 これらの課題は、個々のノードに対するモデル最適化が重大な困難をもたらす連邦領域において特に顕著である。 この問題を解決するために多くの手法が開発され、効率的な最適化を維持しつつ、トレーニング費用と時間を削減することを目的としている。 この課題に取り組むための3つの戦略は、アクティブラーニング、知識蒸留、局所記憶である。 これらの手法により、より少ない計算資源を必要とする小さなモデルを採用することができ、局所的な洞察によるモデルのパーソナライズを可能にし、現在のモデルの有効性を向上させることができる。 本研究は,これらの3つのアプローチの基本原理を考察し,AIモデルの精度向上とリアルタイムNG-IoTアプリケーションにおけるユーザエクスペリエンス向上を目的とした,さまざまなパーソナライズ手法を活用した高度なフェデレーション学習システムを提案する。 元のモデルと最適化されたモデルの結果は、比較分析を用いて局所的およびフェデレーションされた文脈で比較される。 分析後の結果は、提案されたテクニックでモデルを最適化しパーソナライズすることに関して、促進的な結果を示している。

The time-consuming nature of training and deploying complicated Machine and Deep Learning (DL) models for a variety of applications continues to pose significant challenges in the field of Machine Learning (ML). These challenges are particularly pronounced in the federated domain, where optimizing models for individual nodes poses significant difficulty. Many methods have been developed to tackle this problem, aiming to reduce training expenses and time while maintaining efficient optimisation. Three suggested strategies to tackle this challenge include Active Learning, Knowledge Distillation, and Local Memorization. These methods enable the adoption of smaller models that require fewer computational resources and allow for model personalization with local insights, thereby improving the effectiveness of current models. The present study delves into the fundamental principles of these three approaches and proposes an advanced Federated Learning System that utilises different Personalisation methods towards improving the accuracy of AI models and enhancing user experience in real-time NG-IoT applications, investigating the efficacy of these techniques in the local and federated domain. The results of the original and optimised models are then compared in both local and federated contexts using a comparison analysis. The post-analysis shows encouraging outcomes when it comes to optimising and personalising the models with the suggested techniques.
翻訳日:2024-09-12 15:57:17 公開日:2024-09-10
# タッチによる能動物体認識・ポーズ推定・形状伝達学習のためのベイズ的枠組み

A Bayesian framework for active object recognition, pose estimation and shape transfer learning through touch ( http://arxiv.org/abs/2409.06912v1 )

ライセンス: Link先を確認
Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers, Wijnand IJsselsteijn, Sanne Schoenmakers, (参考訳) 人間は触覚によって世界を探索し、理解することができるので、触覚はロボット知覚の重要な側面でもある。 構造化されていない環境では、ロボットは既知のオブジェクトと新しいオブジェクトの両方に遭遇し、既知のオブジェクトと新しいオブジェクトの両方に対処する方法を要求する。 本研究では,粒子フィルタ (PF) とガウス過程暗黙曲面 (GPIS) を統一ベイズ的枠組みに結合する。 このフレームワークは、既知のオブジェクトと新しいオブジェクトを区別し、オブジェクト認識を行い、既知のオブジェクトを推定し、未知のオブジェクトの形状をアクティブな学習方法で再構築することができる。 PFから最大形推定(MLE)形状に先立ってGPISを選択することにより、既知の物体の形状に関する知識を移譲し、新しい形状を学ぶことができる。 大域的な形状推定による探索手法を提案し,十分な情報が得られると,その探索を導出する。 提案したベイズフレームワークの性能は,未知のオブジェクトと新しいオブジェクトのシミュレーションによって評価され,ランダムなポーズで初期化され,高速探索ランダムツリー(RRT)と比較される。 その結果, グローバルな形状推定手法を用いて, RRTによる局所探査よりも高速な探査を行うことができた。 その結果,提案手法はオブジェクト認識,ポーズ推定,形状復元において有効かつ効率的であることが示唆された。 さらに、学習した形状を新しい先行要素として含め、将来のオブジェクト認識や新しいオブジェクトのポーズ推定に効果的に使用できることを示す。

As humans can explore and understand the world through the sense of touch, tactile sensing is also an important aspect of robotic perception. In unstructured environments, robots can encounter both known and novel objects, this calls for a method to address both known and novel objects. In this study, we combine a particle filter (PF) and Gaussian process implicit surface (GPIS) in a unified Bayesian framework. The framework can differentiate between known and novel objects, perform object recognition, estimate pose for known objects, and reconstruct shapes for unknown objects, in an active learning fashion. By grounding the selection of the GPIS prior with the maximum-likelihood-estimation (MLE) shape from the PF, the knowledge about known objects' shapes can be transferred to learn novel shapes. An exploration procedure with global shape estimation is proposed to guide active data acquisition and conclude the exploration when sufficient information is obtained. The performance of the proposed Bayesian framework is evaluated through simulations on known and novel objects, initialized with random poses and is compared with a rapidly explore random tree (RRT).The results show that the proposed exploration procedure, utilizing global shape estimation, achieves faster exploration than the RRT-based local exploration procedure. Overall, results indicate that the proposed framework is effective and efficient in object recognition, pose estimation and shape reconstruction. Moreover, we show that a learned shape can be included as a new prior and used effectively for future object recognition and pose estimation of novel objects.
翻訳日:2024-09-12 15:57:17 公開日:2024-09-10
# Recommenderシステムにおけるアルゴリズムハームの相互対実探索

Interactive Counterfactual Exploration of Algorithmic Harms in Recommender Systems ( http://arxiv.org/abs/2409.06916v1 )

ライセンス: Link先を確認
Yongsu Ahn, Quinn K Wolter, Jonilyn Dick, Janet Dick, Yu-Ru Lin, (参考訳) レコメンダシステムはデジタル体験に不可欠なものとなり、様々なプラットフォームでユーザーインタラクションや好みを形作っている。 広く使われているにもかかわらず、これらのシステムはアルゴリズムのバイアスに悩まされ、不公平で満足のいくユーザー体験につながる。 本研究では,レコメンデーションシステムにおけるアルゴリズム的害の影響を理解し,探索するための対話型ツールを提案する。 視覚化、偽物の説明、インタラクティブなモジュールを活用することで、ユーザは誤校正、ステレオタイプ、フィルタバブルなどのバイアスが推奨にどう影響するかを調査できる。 詳細なユーザインタビューからヒントを得たこのツールは、透明性を高め、パーソナライズされた影響評価を提供することによって、一般ユーザと研究者の両方に恩恵を与え、最終的にはアルゴリズムバイアスの理解を深め、より公平なレコメンデーション結果に寄与する。 この研究は、バイアスを緩和し、機械学習アルゴリズムの公正性を高めるための将来の研究と実践的な応用に有用な洞察を提供する。

Recommender systems have become integral to digital experiences, shaping user interactions and preferences across various platforms. Despite their widespread use, these systems often suffer from algorithmic biases that can lead to unfair and unsatisfactory user experiences. This study introduces an interactive tool designed to help users comprehend and explore the impacts of algorithmic harms in recommender systems. By leveraging visualizations, counterfactual explanations, and interactive modules, the tool allows users to investigate how biases such as miscalibration, stereotypes, and filter bubbles affect their recommendations. Informed by in-depth user interviews, this tool benefits both general users and researchers by increasing transparency and offering personalized impact assessments, ultimately fostering a better understanding of algorithmic biases and contributing to more equitable recommendation outcomes. This work provides valuable insights for future research and practical applications in mitigating bias and enhancing fairness in machine learning algorithms.
翻訳日:2024-09-12 15:57:17 公開日:2024-09-10
# Mpox Narrative on Instagram: 感情、ヘイトスピーチ、不安分析のためのMpox上のInstagram投稿のラベル付き多言語データセット

Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis ( http://arxiv.org/abs/2409.05292v2 )

ライセンス: Link先を確認
Nirmalya Thakur, (参考訳) WHOは、世界保健機関(WHO)の国際的懸念の公衆衛生非常事態を宣言している。 ソーシャルメディアのマイニングに関する以前の研究は、mpoxのアウトブレイクに関するInstagram投稿のデータセットの開発に重点を置いていなかった。 本研究は, この研究ギャップに対処し, この分野に2つの科学的貢献を行うことを目的としている。 まず、2022年7月23日から2024年9月5日までに発行されたmpoxに関する60,127のInstagram投稿の多言語データセットを示す。 データセットはhttps://dx.doi.org/10.21227/7fvc-y093で公開されている。 これらの投稿のそれぞれについて、データセット内の別々の属性として、ポストID、ポスト説明、出版日時、言語、翻訳版(Google Translate APIを使用して英訳が行われた)が提示される。 このデータセットを開発した後、感情分析、ヘイトスピーチ検出、不安やストレス検出を行った。 このプロセスには各ポストを分類することが含まれる。 (i)恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立という感情階級の1つ (二)憎むこと、憎まないこと、 (3)不安・ストレス、または不安・ストレスは検出されなかった。 これらの結果はデータセット内の別の属性として示されます。 次に、感情分析、ヘイトスピーチ分析、不安やストレス分析の結果について述べる。 恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立性の差は27.95%、2.57%、8.69%、5.94%、2.69%、1.53%、50.64%であった。 ヘイトスピーチの検出に関しては、95.75%の投稿にはヘイトが含まれておらず、残りの4.25%にはヘイトが含まれていた。 最後に、投稿の72.05%は不安/ストレスを示しておらず、残りの27.95%はある種の不安/ストレスを表している。

The world is currently experiencing an outbreak of mpox, which has been declared a Public Health Emergency of International Concern by WHO. No prior work related to social media mining has focused on the development of a dataset of Instagram posts about the mpox outbreak. The work presented in this paper aims to address this research gap and makes two scientific contributions to this field. First, it presents a multilingual dataset of 60,127 Instagram posts about mpox, published between July 23, 2022, and September 5, 2024. The dataset, available at https://dx.doi.org/10.21227/7fvc-y093, contains Instagram posts about mpox in 52 languages. For each of these posts, the Post ID, Post Description, Date of publication, language, and translated version of the post (translation to English was performed using the Google Translate API) are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis, hate speech detection, and anxiety or stress detection were performed. This process included classifying each post into (i) one of the sentiment classes, i.e., fear, surprise, joy, sadness, anger, disgust, or neutral, (ii) hate or not hate, and (iii) anxiety/stress detected or no anxiety/stress detected. These results are presented as separate attributes in the dataset. Second, this paper presents the results of performing sentiment analysis, hate speech analysis, and anxiety or stress analysis. The variation of the sentiment classes - fear, surprise, joy, sadness, anger, disgust, and neutral were observed to be 27.95%, 2.57%, 8.69%, 5.94%, 2.69%, 1.53%, and 50.64%, respectively. In terms of hate speech detection, 95.75% of the posts did not contain hate and the remaining 4.25% of the posts contained hate. Finally, 72.05% of the posts did not indicate any anxiety/stress, and the remaining 27.95% of the posts represented some form of anxiety/stress.
翻訳日:2024-09-12 11:05:12 公開日:2024-09-10
# 異種データを用いたLCMベースのQ&Aシステムとベンチマーク

A System and Benchmark for LLM-based Q&A on Heterogeneous Data ( http://arxiv.org/abs/2409.05735v2 )

ライセンス: Link先を確認
Achille Fokoue, Srideepika Jayaraman, Elham Khabiri, Jeffrey O. Kephart, Yingjie Li, Dhruv Shah, Youssef Drissi, Fenno F. Heath III, Anu Bhamidipaty, Fateh A. Tipu, Robert J. Baseman, (参考訳) 多くの産業環境では,スプレッドシートやデータベース,API,あるいはその組み合わせなど,構造化データソースから回答が得られそうな質問をユーザが求めている。 多くの場合、ユーザは適切なデータソースを識別したり、アクセスする方法を知らない。 この問題がさらに複雑になるのは、複数の(そして潜在的にサイロ化された)データソースを組み立てて答えを導出する必要がある場合である。 近年,Large Language Models (LLMs) を利用したテキストからSQLへの様々なアプリケーションが,自然言語で質問を行うことによって,これらの問題に対処している。 しかし、これらのアプリケーションは、そのような環境に代表されるデータソースの不均一性に対処できないため、現実的な産業環境では実用的ではない。 本稿では,データベースとAPIの両方へのシームレスな自然言語アクセスを可能にするsiwarexプラットフォームを導入することで,不均一性に対処する。 siwarexの有効性を示すために、人気のあるSpiderデータセットとベンチマークを拡張し、データ検索APIによってテーブルの一部を置き換える。 私たちは、siwarexがデータソースの不均一性に対処する上で、よい仕事をしていることに気付きました。 修正されたスパイダーベンチマークが近く研究コミュニティで利用可能に

In many industrial settings, users wish to ask questions whose answers may be found in structured data sources such as a spreadsheets, databases, APIs, or combinations thereof. Often, the user doesn't know how to identify or access the right data source. This problem is compounded even further if multiple (and potentially siloed) data sources must be assembled to derive the answer. Recently, various Text-to-SQL applications that leverage Large Language Models (LLMs) have addressed some of these problems by enabling users to ask questions in natural language. However, these applications remain impractical in realistic industrial settings because they fail to cope with the data source heterogeneity that typifies such environments. In this paper, we address heterogeneity by introducing the siwarex platform, which enables seamless natural language access to both databases and APIs. To demonstrate the effectiveness of siwarex, we extend the popular Spider dataset and benchmark by replacing some of its tables by data retrieval APIs. We find that siwarex does a good job of coping with data source heterogeneity. Our modified Spider benchmark will soon be available to the research community
翻訳日:2024-09-12 11:05:12 公開日:2024-09-10
# 無線360度ビデオストリーミングのためのクロス層最適化と分散強化学習

Cross Layer Optimization and Distributed Reinforcement Learning for Wireless 360° Video Streaming ( http://arxiv.org/abs/2011.06356v2 )

ライセンス: Link先を確認
Anis Elgabli, Mohammed S. Elbamby, Cristina Perfecto, Mounssif Krouka, Mehdi Bennis, Vaneet Aggarwal, (参考訳) ワイヤレスで高画質の360度ビデオをストリーミングすることは、今でも難しい問題だ。 異なる360度ビデオを見たり、コンピューティングや通信リソースに競合するユーザがたくさんいる場合、ストリーミングアルゴリズムは、各ユーザに対して最小限のレートを保証しながら、平均品質(QoE)を最大化すべきである。 本稿では,各ユーザに対して利用可能なレートを最大化し,ユーザのQoEを最大化するために効率的に利用するクロスレイヤ最適化手法を提案する。 特にタイルベースの360度ビデオストリーミングを検討し、各ユーザのQoEの最大化とユーザ間の公正性の確保とのトレードオフをバランスさせるQoEメトリックを最適化する。 この問題を2つの相互関連サブプロブレムに分解できることを示す。 一 利用者毎のダウンロード率を見つけることを目的とする物理層サブプロブレム 二 利用者のQoEが最大になるように、そのレートを用いてタイルごとの品質判定を行うことを目的とするアプリケーション層サブプロブレム。 物理層サブプロブレムを低複雑性で最適に解き、複数の独立エージェントの並列トレーニングを活用してアプリケーション層サブプロブレムを解くためにアクタ・クリティカル・ディープ・強化学習(DRL)を提案する。 大規模な実験により,提案手法の頑健さが明らかになり,いくつかのベースラインアルゴリズムと比較して顕著な性能向上が示された。

Wirelessly streaming high quality 360 degree videos is still a challenging problem. When there are many users watching different 360 degree videos and competing for the computing and communication resources, the streaming algorithm at hand should maximize the average quality of experience (QoE) while guaranteeing a minimum rate for each user. In this paper, we propose a cross layer optimization approach that maximizes the available rate to each user and efficiently uses it to maximize users' QoE. Particularly, we consider a tile based 360 degree video streaming, and we optimize a QoE metric that balances the tradeoff between maximizing each user's QoE and ensuring fairness among users. We show that the problem can be decoupled into two interrelated subproblems: (i) a physical layer subproblem whose objective is to find the download rate for each user, and (ii) an application layer subproblem whose objective is to use that rate to find a quality decision per tile such that the user's QoE is maximized. We prove that the physical layer subproblem can be solved optimally with low complexity and an actor-critic deep reinforcement learning (DRL) is proposed to leverage the parallel training of multiple independent agents and solve the application layer subproblem. Extensive experiments reveal the robustness of our scheme and demonstrate its significant performance improvement compared to several baseline algorithms.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-10
# 生物学的に妥当なスキーマを用いたペア型アソシエーションナビゲーションのワンショット学習

One-shot learning of paired association navigation with biologically plausible schemas ( http://arxiv.org/abs/2106.03580v4 )

ライセンス: Link先を確認
M Ganesh Kumar, Cheston Tan, Camilo Libedinsky, Shih-Cheng Yen, Andrew Yong-Yi Tan, (参考訳) スキーマは、迅速な学習を可能にする知識構造である。 複数のペア・アソシエーション・ナビゲーションタスクにおける一発一発学習はスキーマに依存していると仮定されている。 Marrの計算レベルで概念化されたスキーマが、どのようにニューラルネットワークで実装されるのか、まだよく分かっていません。 さらに, 生物学的に妥当な歯列学習の計算モデルも示されていない。 そこで我々は,生物学的に妥当なニューラル実装を持つスキーマからエージェントを構成する。 エージェントは、経路積分時間差誤差を用いて環境の計量表現を徐々に学習し、任意の環境に局在させることができる。 また、4段階の報酬変調探索ヘビアン(EH)規則によりプラスチック出力重量が支配されるフィードフォワード層またはリカレント連結ニューロンの貯留体で実装された、感覚手がかりとゴール座標との多数のワンショット関連を安定して形成することができる連想記憶を含む。 第3のネットワークは、エージェントの電流と目標位置との間のベクトル減算を行い、移動方向を決定する。 さらに,アクタ・クリティカルによって補足されたスキーマにより,障害が直接の進路を妨げる場合でもエージェントが成功することを示すとともに,作業記憶ゲーティング機構の時間差学習により,注意をそらすことなくワンショット学習が可能となることを示す。 我々のエージェントは実験で観察された学習行動を再カプセル化し、将来の実験で探索できる検証可能な予測を提供する。

Schemas are knowledge structures that can enable rapid learning. Rodent one-shot learning in a multiple paired association navigation task has been postulated to be schema-dependent. We still only poorly understand how schemas, conceptualized at Marr's computational level, are neurally implemented. Moreover, a biologically plausible computational model of the rodent learning has not been demonstrated. Accordingly, we here compose an agent from schemas with biologically plausible neural implementations. The agent gradually learns a metric representation of its environment using a path integration temporal difference error, allowing it to localize in any environment. Additionally, the agent contains an associative memory that can stably form numerous one-shot associations between sensory cues and goal coordinates, implemented with a feedforward layer or a reservoir of recurrently connected neurons whose plastic output weights are governed by a 4-factor reward-modulated Exploratory Hebbian (EH) rule. A third network performs vector subtraction between the agent's current and goal location to decide the direction of movement. We further show that schemas supplemented by an actor-critic allows the agent to succeed even if an obstacle prevents direct heading, and that temporal-difference learning of a working memory gating mechanism enables one-shot learning despite distractors. Our agent recapitulates learning behavior observed in experiments and provides testable predictions that can be probed in future experiments.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-10
# 非線形未知入力可観測性と未知入力再構成:一般解析解

Nonlinear Unknown Input Observability and Unknown Input Reconstruction: The General Analytical Solution ( http://arxiv.org/abs/2201.07610v5 )

ライセンス: Link先を確認
Agostino Martinelli, (参考訳) 可観測性は任意の動的システムの基本的な構造特性であり、入力や出力を観測することからシステムの特徴を特徴づける状態を再構築する可能性を記述する。 この特性を調査し、動的システムがこの特性を満たすかどうかを確認できる解析基準を導入するという大きな努力にもかかわらず、未知の入力によって動的も駆動される場合、状態の可観測性を自動的にチェックする一般的な分析基準は存在しない。 ここでは、この基本問題の一般的な解析解を導入し、しばしば未知の入力可観測問題と呼ぶ。 本稿では, この問題の一般的な解析解, すなわち, 自動計算(微分および行列ランク決定)に基づく体系的手順を提供し, 未知の入力が存在する場合でも, 状態の可観測性を自動的にチェックできるようにする(Algorithm 6.1)。 この問題の第一の解決策は、本書の第2部で「可観測性:不変群に基づく新しい理論」として提示された[45]。 この論文で提示された解決策は[45]で前のソリューションを完成させます。 特に、新しい解法は「未知の入力に関してカノニクス」であるシステムのカテゴリに属さないシステムを徹底的に説明する。 分析的導出は[45]で導入されたいくつかの新しい概念と分析的な結果に大きく影響している。 最後に、得られた結果の簡単な結果として、状態可観測性の問題と密接に関連している未知の入力再構成問題に対する回答を提供する。 本稿では,2つの未知の入力と1つの未知の入力によって動的に駆動される視覚-慣性センサ融合の枠組みにおける非線形システムの可観測性について検討し,新しいアルゴリズムの実装について述べる。

Observability is a fundamental structural property of any dynamic system and describes the possibility of reconstructing the state that characterizes the system from observing its inputs and outputs. Despite the huge effort made to study this property and to introduce analytical criteria able to check whether a dynamic system satisfies this property or not, there is no general analytical criterion to automatically check the state observability when the dynamics are also driven by unknown inputs. Here, we introduce the general analytical solution of this fundamental problem, often called the unknown input observability problem. This paper provides the general analytical solution of this problem, namely, it provides the systematic procedure, based on automatic computation (differentiation and matrix rank determination), that allows us to automatically check the state observability even in the presence of unknown inputs (Algorithm 6.1). A first solution of this problem was presented in the second part of the book: "Observability: A New Theory Based on the Group of Invariance" [45]. The solution presented by this paper completes the previous solution in [45]. In particular, the new solution exhaustively accounts for the systems that do not belong to the category of the systems that are "canonic with respect to their unknown inputs". The analytical derivations largely exploit several new concepts and analytical results introduced in [45]. Finally, as a simple consequence of the results here obtained, we also provide the answer to the problem of unknown input reconstruction which is intimately related to the problem of state observability. We illustrate the implementation of the new algorithm by studying the observability properties of a nonlinear system in the framework of visual-inertial sensor fusion, whose dynamics are driven by two unknown inputs and one known input.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-10
# 複雑媒体における高次元量子光学回路の逆設計

Inverse-design of high-dimensional quantum optical circuits in a complex medium ( http://arxiv.org/abs/2204.00578v2 )

ライセンス: Link先を確認
Suraj Goel, Saroch Leedumrongwatthanakun, Natalia Herrera Valencia, Will McCutcheon, Armin Tavakoli, Claudio Conti, Pepijn W. H. Pinkse, Mehul Malik, (参考訳) プログラム可能な光回路は、量子通信のトランシーバーから、量子情報処理のための集積フォトニックチップまで、今日の量子技術の重要な部分を形成している。 このような回路のサイズが大きくなると、各部品の正確な制御が困難になり、処理の質が低下する。 並行して、回路製造における小さな欠陥が増幅され、その性能が劇的に抑制される。 ここでは,光回路を高次元の周囲モードミキサに埋め込むことによって,各回路素子の制御を抑えつつ,高いプログラム性を維持することができることを示す。 このアプローチを用いて,2つの制御可能な位相平面の間に配置された商用多モードファイバからなる複雑な散乱媒体内に,高次元線形光回路を実装した。 これらの回路を用いて、最大7次元の高次元空間モードの絡み合いを制御し、完全にプログラム可能な量子ゲートとしての応用を実証する。 さらに,マルチモードファイバ自体を一般化されたマルチアウトカム計測装置に変換することで,伝送路内の絡み合いの伝達と認証を両立させることができることを示す。 最後に,本手法のスケーラビリティについて考察し,高次元モードミキサーの資源を利用して,低回路深さで高回路忠実性を実現する方法を示す。 我々の研究は、光の高次元量子状態の精密制御を実現するための代替的かつ強力なアプローチとして機能し、次世代の量子通信およびコンピューティング技術に明確な応用が期待できる。

Programmable optical circuits form a key part of quantum technologies today, ranging from transceivers for quantum communication to integrated photonic chips for quantum information processing. As the size of such circuits is increased, maintaining precise control over every individual component becomes challenging, leading to a reduction in the quality of the operations performed. In parallel, minor imperfections in circuit fabrication are amplified in this regime, dramatically inhibiting their performance. Here we show how embedding an optical circuit in the higher-dimensional space of a large, ambient mode-mixer using inverse-design techniques allows us to forgo control over each individual circuit element, while retaining a high degree of programmability over the circuit. Using this approach, we implement high-dimensional linear optical circuits within a complex scattering medium consisting of a commercial multi-mode fibre placed between two controllable phase planes. We employ these circuits to manipulate high-dimensional spatial-mode entanglement in up to seven dimensions, demonstrating their application as fully programmable quantum gates. Furthermore, we show how their programmability allows us to turn the multi-mode fibre itself into a generalised multi-outcome measurement device, allowing us to both transport and certify entanglement within the transmission channel. Finally, we discuss the scalability of our approach, numerically showing how a high circuit fidelity can be achieved with a low circuit depth by harnessing the resource of a high-dimensional mode-mixer. Our work serves as an alternative yet powerful approach for realising precise control over high-dimensional quantum states of light, with clear applications in next-generation quantum communication and computing technologies.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-10
# 平均クリッピングによる重機データのための効率的なプライベートSCO

Efficient Private SCO for Heavy-Tailed Data via Averaged Clipping ( http://arxiv.org/abs/2206.13011v4 )

ライセンス: Link先を確認
Chenhan Jin, Kaiwen Zhou, Bo Han, James Cheng, Tieyong Zeng, (参考訳) 重み付きデータに対する確率的凸最適化を、差分プライベート(DP)の保証とともに検討する。 重み付きデータに対する微分的確率凸最適化に関する先行研究は、勾配降下(GD)に制限されるか、大規模問題では非効率な確率勾配降下(SGD)に複数回クリッピングされるかのいずれかである。 本稿では,1回のクリッピング戦略を考察し,そのバイアスとプライベート平均推定の原理的分析を行う。 我々は,制約付きおよび制約なし凸問題に対するAClipped-dpSGDというアルゴリズムに対して,新たな収束結果を確立し,複雑性境界を改善した。 また、収束解析を強凸ケースと非滑らかケース(H$\ddot{\text{o}}$lder-連続勾配で一般化された滑らかな目的に対して機能する)にまで拡張する。 以上の結果は、重み付きデータに対して高い確率で保証される。 理論的改善を正当化するための数値実験を行った。

We consider stochastic convex optimization for heavy-tailed data with the guarantee of being differentially private (DP). Most prior works on differentially private stochastic convex optimization for heavy-tailed data are either restricted to gradient descent (GD) or performed multi-times clipping on stochastic gradient descent (SGD), which is inefficient for large-scale problems. In this paper, we consider a one-time clipping strategy and provide principled analyses of its bias and private mean estimation. We establish new convergence results and improved complexity bounds for the proposed algorithm called AClipped-dpSGD for constrained and unconstrained convex problems. We also extend our convergent analysis to the strongly convex case and non-smooth case (which works for generalized smooth objectives with H$\ddot{\text{o}}$lder-continuous gradients). All the above results are guaranteed with a high probability for heavy-tailed data. Numerical experiments are conducted to justify the theoretical improvement.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-10
# 発生モックによる生産挙動の模倣

Mimicking Production Behavior with Generated Mocks ( http://arxiv.org/abs/2208.01321v4 )

ライセンス: Link先を確認
Deepika Tiwari, Martin Monperrus, Benoit Baudry, (参考訳) モッキングは、プログラムユニットを独立した形でテストすることを可能にする。 モックを使ってテストを書く開発者は、ユニットと環境の間の現実的な相互作用を設計すること、これらの相互作用がユニットの振る舞いに与える影響について理解することの2つの課題に直面します。 本稿では,モックによる現実的な実行シナリオを模倣したテストを生成するために,本番環境でのアプリケーションの監視を提案する。 私たちのアプローチは3つのフェーズで機能します。 まず、テストを生成したいターゲットメソッドのセットと、それらが呼び出しているメソッドをモック可能なメソッド呼び出しと呼びます。 第2に、本番環境では、ターゲットメソッドが呼び出されるコンテキストに関するデータと、モック可能なメソッド呼び出し毎にパラメータと返される値を収集します。 第3にオフラインでは、実運用データを分析して、現実的なインプットとモックインタラクションでテストケースを生成します。 このアプローチは自動化され、RICKと呼ばれるオープンソースのツールで実装されている。 われわれのアプローチを3つの実世界のオープンソースJavaアプリケーションで評価する。 RICKは3つのアプリケーション間で128のメソッドの本番環境での呼び出しを監視し、その振る舞いをキャプチャする。 このキャプチャデータに基づいて、RICKは実際の初期状態やテスト入力、モックやスタブを含むテストケースを生成する。 生成されたテストケースはすべて実行可能であり、52.4%は本番環境で観測されたターゲットメソッドの完全な実行コンテキストをうまく模倣している。 モックベースのオラクルは、ターゲットメソッド内の回帰を検出するのにも有効であり、フォールトフィニング能力において相互に補完する。 業界から5人の開発者に対してインタビューを行い、モックやスタブの設計に生産観察を使うことの関連性を確認しました。 実験結果から,製品間相互作用からモックを生成する可能性と付加価値が明らかとなった。

Mocking allows testing program units in isolation. A developer who writes tests with mocks faces two challenges: design realistic interactions between a unit and its environment; and understand the expected impact of these interactions on the behavior of the unit. In this paper, we propose to monitor an application in production to generate tests that mimic realistic execution scenarios through mocks. Our approach operates in three phases. First, we instrument a set of target methods for which we want to generate tests, as well as the methods that they invoke, which we refer to as mockable method calls. Second, in production, we collect data about the context in which target methods are invoked, as well as the parameters and the returned value for each mockable method call. Third, offline, we analyze the production data to generate test cases with realistic inputs and mock interactions. The approach is automated and implemented in an open-source tool called RICK. We evaluate our approach with three real-world, open-source Java applications. RICK monitors the invocation of 128 methods in production across the three applications and captures their behavior. Based on this captured data, RICK generates test cases that include realistic initial states and test inputs, as well as mocks and stubs. All the generated test cases are executable, and 52.4% of them successfully mimic the complete execution context of the target methods observed in production. The mock-based oracles are also effective at detecting regressions within the target methods, complementing each other in their fault-finding ability. We interview 5 developers from the industry who confirm the relevance of using production observations to design mocks and stubs. Our experimental findings clearly demonstrate the feasibility and added value of generating mocks from production interactions.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# 協調制約付きマルチエージェント強化学習(CMARL)の平均場近似

Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL) ( http://arxiv.org/abs/2209.07437v2 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri, (参考訳) Mean-Field Control (MFC)は,大規模マルチエージェント強化学習(MARL)問題を概ね解くための,スケーラブルなツールであることが最近証明されている。 しかしながら、これらの研究は通常、制約のない累積報酬最大化フレームワークに限られる。 本稿では, 制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。 具体的には、各エージェントがそれぞれ大きさ$|\mathcal{X}|$と$|\mathcal{U}|$の値を持つ$N$-agent制約付きMARL問題と、各エージェントのアクション空間が、関連する制約付きMFC問題([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$によって誤差で近似できることを証明している。 報酬、コスト、状態遷移関数が集団の作用分布とは独立である特別な場合、誤差は$e=\mathcal{O}(\sqrt{|\mathcal{X}|}/\sqrt{N})$に改善できる。 また、Natural Policy Gradientベースのアルゴリズムを提供し、サンプル複雑性$\mathcal{O}(e^{-6})$で$\mathcal{O}(e)$の誤差で制限されたMARL問題を解くことができることを証明した。

Mean-Field Control (MFC) has recently been proven to be a scalable tool to approximately solve large-scale multi-agent reinforcement learning (MARL) problems. However, these studies are typically limited to unconstrained cumulative reward maximization framework. In this paper, we show that one can use the MFC approach to approximate the MARL problem even in the presence of constraints. Specifically, we prove that, an $N$-agent constrained MARL problem, with state, and action spaces of each individual agents being of sizes $|\mathcal{X}|$, and $|\mathcal{U}|$ respectively, can be approximated by an associated constrained MFC problem with an error, $e\triangleq \mathcal{O}\left([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$. In a special case where the reward, cost, and state transition functions are independent of the action distribution of the population, we prove that the error can be improved to $e=\mathcal{O}(\sqrt{|\mathcal{X}|}/\sqrt{N})$. Also, we provide a Natural Policy Gradient based algorithm and prove that it can solve the constrained MARL problem within an error of $\mathcal{O}(e)$ with a sample complexity of $\mathcal{O}(e^{-6})$.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# PoseScript: 3Dの人間と自然言語をリンクする

PoseScript: Linking 3D Human Poses and Natural Language ( http://arxiv.org/abs/2210.11795v3 )

ライセンス: Link先を確認
Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc Moreno-Noguer, Grégory Rogez, (参考訳) 自然言語は、画像キャプション、視覚的質問応答、モーダル検索など、多くのコンピュータビジョンアプリケーションにおいて重要な役割を担い、きめ細かい意味情報を提供する。 残念なことに、人間のポーズは人間の理解の鍵であるが、現在の3D人間のポーズデータセットには詳細な言語記述がない。 この問題に対処するため、私たちはPoseScriptデータセットを導入しました。 このデータセットは、AMASSの6万以上の3Dポーズと、身体の部分とその空間的関係に関する豊富な人間による記述とをペアリングする。 さらに,データセットのサイズを,データ・ハングリー学習アルゴリズムと互換性のあるスケールに拡大するために,与えられた3次元キーポイントから自然言語で自動合成記述を生成する精巧なキャプションプロセスを提案する。 このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。 これらのポーズコードは、構文規則を用いて高レベルなテキスト記述に結合される。 自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。 アノテーション付きポーズの可能性を示すために,PoseScriptデータセットを利用する3つのマルチモーダル学習タスクを提案する。 まず,3次元ポーズとテキスト記述を共同埋め込み空間にマッピングし,大規模データセットから関連するポーズを相互に検索するパイプラインを開発する。 次に、3Dポーズを生成するテキスト条件付きモデルのベースラインを確立する。 第3に、ポーズ記述を生成するための学習過程を示す。 これらの応用は、様々なタスクにおいてアノテートされたポーズの汎用性と有用性を示し、今後の研究の道を開くものである。

Natural language plays a critical role in many computer vision applications, such as image captioning, visual question answering, and cross-modal retrieval, to provide fine-grained semantic information. Unfortunately, while human pose is key to human understanding, current 3D human pose datasets lack detailed language descriptions. To address this issue, we have introduced the PoseScript dataset. This dataset pairs more than six thousand 3D human poses from AMASS with rich human-annotated descriptions of the body parts and their spatial relationships. Additionally, to increase the size of the dataset to a scale that is compatible with data-hungry learning algorithms, we have proposed an elaborate captioning process that generates automatic synthetic descriptions in natural language from given 3D keypoints. This process extracts low-level pose information, known as "posecodes", using a set of simple but generic rules on the 3D keypoints. These posecodes are then combined into higher level textual descriptions using syntactic rules. With automatic annotations, the amount of available data significantly scales up (100k), making it possible to effectively pretrain deep models for finetuning on human captions. To showcase the potential of annotated poses, we present three multi-modal learning tasks that utilize the PoseScript dataset. Firstly, we develop a pipeline that maps 3D poses and textual descriptions into a joint embedding space, allowing for cross-modal retrieval of relevant poses from large-scale datasets. Secondly, we establish a baseline for a text-conditioned model generating 3D poses. Thirdly, we present a learned process for generating pose descriptions. These applications demonstrate the versatility and usefulness of annotated poses in various tasks and pave the way for future research in the field.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# スタック変換器を用いたシフト変換タスク指向セマンティックパーシング

Shift-Reduce Task-Oriented Semantic Parsing with Stack-Transformers ( http://arxiv.org/abs/2210.11984v2 )

ライセンス: Link先を確認
Daniel Fernández-González, (参考訳) Apple SiriやAmazon Alexaといったインテリジェントな音声アシスタントは、近年広く使われている。 これらのタスク指向対話システムは、ユーザの発話を処理し、実行すべきアクションを理解するために意味解析モジュールを必要とする。 この意味解析コンポーネントは最初、単純なクエリを処理するためのルールベースまたは統計的スロット補完アプローチによって実装されたが、より複雑な発話の出現により、シフト・リデュース・パーサーやシーケンス・ツー・シーケンス・モデルの適用が要求された。 シフト・リデュース・アプローチは、当初は最も有望な選択肢と考えられていたが、シーケンス・ツー・シーケンス・ニューラル・システムの出現により、この特定のタスクの最高性能の手法として、最前線に進出した。 本稿では,タスク指向対話におけるシフト・リデュース・セマンティック・パーシングの研究を前進させる。 Stack-Transformerに依存する新しいシフト-リデュースパーサを実装した。 このフレームワークでは、Transformerのニューラルアーキテクチャ上でのトランジションシステムを適切にモデル化することが可能で、特にシフト-リデュース解析のパフォーマンスが向上する。 さらに,本手法は従来のトップダウンアルゴリズムを超越して,タスク指向構文解析の領域に選挙区解析から派生したボトムアップ・インオーダー・トランジションシステムを導入する。 我々は、Facebook TOPベンチマークから複数のドメインに対するアプローチを広範囲にテストし、既存のシフト・リデュース・パーサと、高リソースと低リソースの両方の設定における最先端のシーケンス・ツー・シーケンスモデルを改善した。 また、インオーダーアルゴリズムが一般的に使用されるトップダウン戦略を大幅に上回っていることを実証的に証明する。 革新的遷移システムの構築とロバストなニューラルアーキテクチャの能力を活用することによって,本研究では,主ベンチマーク上でのシークエンス・ツー・シーケンス方式よりも,シフト・リデュース・パーサの優位性を示す。

Intelligent voice assistants, such as Apple Siri and Amazon Alexa, are widely used nowadays. These task-oriented dialogue systems require a semantic parsing module in order to process user utterances and understand the action to be performed. This semantic parsing component was initially implemented by rule-based or statistical slot-filling approaches for processing simple queries; however, the appearance of more complex utterances demanded the application of shift-reduce parsers or sequence-to-sequence models. Although shift-reduce approaches were initially considered the most promising option, the emergence of sequence-to-sequence neural systems has propelled them to the forefront as the highest-performing method for this particular task. In this article, we advance the research on shift-reduce semantic parsing for task-oriented dialogue. We implement novel shift-reduce parsers that rely on Stack-Transformers. This framework allows to adequately model transition systems on the Transformer neural architecture, notably boosting shift-reduce parsing performance. Furthermore, our approach goes beyond the conventional top-down algorithm: we incorporate alternative bottom-up and in-order transition systems derived from constituency parsing into the realm of task-oriented parsing. We extensively test our approach on multiple domains from the Facebook TOP benchmark, improving over existing shift-reduce parsers and state-of-the-art sequence-to-sequence models in both high-resource and low-resource settings. We also empirically prove that the in-order algorithm substantially outperforms the commonly-used top-down strategy. Through the creation of innovative transition systems and harnessing the capabilities of a robust neural architecture, our study showcases the superiority of shift-reduce parsers over leading sequence-to-sequence methods on the main benchmark.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# クラウドスケールでのセキュアIPアドレス割り当て

Secure IP Address Allocation at Cloud Scale ( http://arxiv.org/abs/2210.14999v2 )

ライセンス: Link先を確認
Eric Pauley, Kyle Domico, Blaine Hoak, Ryan Sheatsley, Quinn Burke, Yohan Beugin, Engin Kirda, Patrick McDaniel, (参考訳) パブリッククラウドは動的リソースの割り当てと共有を必要とする。 しかし、IPアドレスの動的割り当ては、悪意のあるトラフィックを発生させる敵によって悪用され、速度制限システムをバイパスし、さらには他のクラウドテナントのトラフィックを捕捉する。 その結果、クラウドプロバイダと顧客の両方が危険にさらされ、これらの脅威に対する防御には、テナント行動、敵戦略、クラウドプロバイダポリシーの厳密な分析が必要です。 本稿では,そのような分析を通じてIPアドレス割り当ての実践的防御を開発する。 まず,デプロイされたシステムの文献と測定に基づいて,クラウドテナントデプロイメントの統計モデルを構築した。 これにより、既存の脅威モデルおよび新たな脅威モデルに基づくIP割り当てポリシーを解析する。 より強力な脅威モデルであるIPスキャンセグメンテーションを設計し、敵がクラウドテナント数に制限されない場合でも、アドレスプールを敵スキャンから保護する。 IPスキャンのセグメンテーションにより、アドレスを迅速に割り当てる能力が低下し、アドレス空間の評判とクラウドテナントデータの保護が図られる。 このようにして、クラウドIPアドレス割り当ての原則解析と実装は、テナントとそのユーザにとってかなりのセキュリティ向上をもたらす可能性があることを示す。

Public clouds necessitate dynamic resource allocation and sharing. However, the dynamic allocation of IP addresses can be abused by adversaries to source malicious traffic, bypass rate limiting systems, and even capture traffic intended for other cloud tenants. As a result, both the cloud provider and their customers are put at risk, and defending against these threats requires a rigorous analysis of tenant behavior, adversarial strategies, and cloud provider policies. In this paper, we develop a practical defense for IP address allocation through such an analysis. We first develop a statistical model of cloud tenant deployment behavior based on literature and measurement of deployed systems. Through this, we analyze IP allocation policies under existing and novel threat models. In response to our stronger proposed threat model, we design IP scan segmentation, an IP allocation policy that protects the address pool against adversarial scanning even when an adversary is not limited by number of cloud tenants. Through empirical evaluation on both synthetic and real-world allocation traces, we show that IP scan segmentation reduces adversaries' ability to rapidly allocate addresses, protecting both address space reputation and cloud tenant data. In this way, we show that principled analysis and implementation of cloud IP address allocation can lead to substantial security gains for tenants and their users.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# 長距離異方性ハイゼンベルク模型におけるマグノン境界状態の観測

Observation of magnon bound states in the long-range, anisotropic Heisenberg model ( http://arxiv.org/abs/2212.03899v2 )

ライセンス: Link先を確認
Florian Kranzl, Stefan Birnkammer, Manoj K. Joshi, Alvise Bastianello, Rainer Blatt, Michael Knap, Christian F. Roos, (参考訳) 近年のコヒーレントなコヒーレントな時間周期変調は、新しいハミルトン派を実現するための汎用的なツールとして確立されてきた。 Floquet Engineeringと呼ばれるこのアプローチを用いることで、捕捉されたイオン量子シミュレータにおいて、チューニング可能な相互作用を持つ長距離異方性ハイゼンベルクモデルが実験的に実現される。 モデルのスペクトルは、単一のマグノン励起だけでなく、複合マグノン境界状態も含むことを示した。 実験的に実現されたパワーロー指数との長距離相互作用では、マグノンの群速度は非有界である。 それでも、十分に強い相互作用に対して、非発散群速度を持つこれらの非伝統的なマグノンの有界状態を観測する。 2つの不連続区間間の構成的相互情報を測定することにより、系の絡み合いダイナミクスに対する境界状態形成の影響を実証する。 我々の観測は、量子多体系の非平衡力学における複合励起の特異な役割に関する重要な知見を提供する。

Over the recent years coherent, time-periodic modulation has been established as a versatile tool for realizing novel Hamiltonians. Using this approach, known as Floquet engineering, we experimentally realize a long-ranged, anisotropic Heisenberg model with tunable interactions in a trapped ion quantum simulator. We demonstrate that the spectrum of the model contains not only single magnon excitations but also composite magnon bound states. For the long-range interactions with the experimentally realized power-law exponent, the group velocity of magnons is unbounded. Nonetheless, for sufficiently strong interactions we observe bound states of these unconventional magnons which possess a non-diverging group velocity. By measuring the configurational mutual information between two disjoint intervals, we demonstrate the implications of the bound state formation on the entanglement dynamics of the system. Our observations provide key insights into the peculiar role of composite excitations in the non-equilibrium dynamics of quantum many-body systems.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# データソースの最適正規化

Optimal Regularization for a Data Source ( http://arxiv.org/abs/2212.13597v4 )

ライセンス: Link先を確認
Oscar Leong, Eliza O'Reilly, Yong Sheng Soh, Venkat Chandrasekaran, (参考訳) 逆問題と統計的推定に対する最適化に基づくアプローチでは、解における所望の構造特性を促進する正則化器を用いてデータの忠実性を強制する基準を強化することが一般的である。 適切な正則化器の選択は、通常、事前のドメイン情報と計算上の考慮の組み合わせによって引き起こされる。 凸正則化器は計算的に魅力的であるが、それらが促進できる構造の種類には制限がある。 一方、非凸正則化器は、それらが促進できる構造形態においてより柔軟であり、いくつかのアプリケーションで強い経験的性能を示してきたが、それらが関連する最適化問題を解くという計算上の課題を伴っている。 本稿では, 分散が与えられた場合, 分散から引き出されたデータに対して, 最適な正規化器は何か, という質問をすることで, 凸正則化のパワーと限界を体系的に理解することを模索する。 データソースのどの特性が最適正則化器が凸であるかを制御しているのか? これらの問題は、連続で、正に同質であり、原点から正に離れている汎函数によって指定された正則化器のクラスに対処する。 正規化器は、正規化器によって与えられるエネルギーを持つギブス密度が、すべてのギブス密度に対して人口密度を最大化(または同値に、クロスエントロピー損失を最小化する)した場合、データ分布に最適である。 正規化器は星体と1対1で対応していると考えられるので、双対ブラン・ミンコフスキー理論を利用して、データ分布から導出される放射関数が「計算十分統計」に類似していることを示し、それは最適な正規化器を同定し、データソースの可測性を凸正則化するために評価するための鍵となる量である。

In optimization-based approaches to inverse problems and to statistical estimation, it is common to augment criteria that enforce data fidelity with a regularizer that promotes desired structural properties in the solution. The choice of a suitable regularizer is typically driven by a combination of prior domain information and computational considerations. Convex regularizers are attractive computationally but they are limited in the types of structure they can promote. On the other hand, nonconvex regularizers are more flexible in the forms of structure they can promote and they have showcased strong empirical performance in some applications, but they come with the computational challenge of solving the associated optimization problems. In this paper, we seek a systematic understanding of the power and the limitations of convex regularization by investigating the following questions: Given a distribution, what is the optimal regularizer for data drawn from the distribution? What properties of a data source govern whether the optimal regularizer is convex? We address these questions for the class of regularizers specified by functionals that are continuous, positively homogeneous, and positive away from the origin. We say that a regularizer is optimal for a data distribution if the Gibbs density with energy given by the regularizer maximizes the population likelihood (or equivalently, minimizes cross-entropy loss) over all regularizer-induced Gibbs densities. As the regularizers we consider are in one-to-one correspondence with star bodies, we leverage dual Brunn-Minkowski theory to show that a radial function derived from a data distribution is akin to a ``computational sufficient statistic'' as it is the key quantity for identifying optimal regularizers and for assessing the amenability of a data source to convex regularization.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# TempSAL -- 潜伏予測のための時間情報

TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction ( http://arxiv.org/abs/2301.02315v2 )

ライセンス: Link先を確認
Bahar Aydemir, Ludo Hoffstetter, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk, (参考訳) ディープサリエンシ予測アルゴリズムはオブジェクト認識の特徴を補完するが、通常はシーンコンテキスト、セマンティックな関係、視線方向、オブジェクトの異種性などの追加情報に依存する。 しかし、これらのモデルはいずれも、画像観察中に視線シフトの時間的性質を考慮していない。 本研究では,人間の時間的注意パターンを利用して,逐次的時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。 提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。 実験の結果,本手法はSALICONベンチマークにおいて,マルチデューレーション・サリエンシ・モデルを含む最先端モデルよりも優れていることがわかった。 私たちのコードはGitHubで公開されます。

Deep saliency prediction algorithms complement the object recognition features, they typically rely on additional information, such as scene context, semantic relationships, gaze direction, and object dissimilarity. However, none of these models consider the temporal nature of gaze shifts during image observation. We introduce a novel saliency prediction model that learns to output saliency maps in sequential time intervals by exploiting human temporal attention patterns. Our approach locally modulates the saliency predictions by combining the learned temporal maps. Our experiments show that our method outperforms the state-of-the-art models, including a multi-duration saliency model, on the SALICON benchmark. Our code will be publicly available on GitHub.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# ブラックボックス予測時系列の不確実性予測:信頼すべき時期を学習する

Surrogate uncertainty estimation for your time series forecasting black-box: learn when to trust ( http://arxiv.org/abs/2302.02834v2 )

ライセンス: Link先を確認
Leonid Erlygin, Vladimir Zholobov, Valeriia Baklanova, Evgeny Sokolovskiy, Alexey Zaytsev, (参考訳) 機械学習モデルは時系列予測において重要な役割を果たす。 しかしこれらのモデルは、しばしば重要な要素である点不確実性推定を見落としている。 これらの見積もりを組み込むことは、効果的なリスク管理、情報モデル選択、意思決定に不可欠であり、この問題に対処するために、不確実性評価手法を提案する。 代用ガウス過程回帰モデルを用いる。 妥当な不確実性推定を伴うベース回帰モデルを強化する。 このアプローチはその計算効率で際立っている。 1つの補充的なサロゲートのトレーニングが必要であり、データ固有の仮定を避けます。 さらに,本手法では,ブラックボックスとしてのベースモデルの存在とそのトレーニングデータのみを必要とする。 提案手法の有効性は実験結果に支えられている。 各種時系列予測データを用いて, 代理モデルに基づく手法により, 精度の高い信頼区間が得られることがわかった。 これらの技術は、ブートストラップベースとビルトインメソッドの両方において、中間データ方式よりも優れている。 この優位性は、線形回帰、ARIMA、勾配向上、ニューラルネットワークなど、さまざまなベースモデルタイプにまたがる。

Machine learning models play a vital role in time series forecasting. These models, however, often overlook an important element: point uncertainty estimates. Incorporating these estimates is crucial for effective risk management, informed model selection, and decision-making.To address this issue, our research introduces a method for uncertainty estimation. We employ a surrogate Gaussian process regression model. It enhances any base regression model with reasonable uncertainty estimates. This approach stands out for its computational efficiency. It only necessitates training one supplementary surrogate and avoids any data-specific assumptions. Furthermore, this method for work requires only the presence of the base model as a black box and its respective training data. The effectiveness of our approach is supported by experimental results. Using various time-series forecasting data, we found that our surrogate model-based technique delivers significantly more accurate confidence intervals. These techniques outperform both bootstrap-based and built-in methods in a medium-data regime. This superiority holds across a range of base model types, including a linear regression, ARIMA, gradient boosting and a neural network.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# リカレントネットワークのメモリ: 正しく計算できるだろうか?

Memory of recurrent networks: Do we compute it right? ( http://arxiv.org/abs/2305.01457v2 )

ライセンス: Link先を確認
Giovanni Ballarin, Lyudmila Grigoryeva, Juan-Pablo Ortega, (参考訳) 文献で報告されたリカレントニューラルネットワークのメモリ容量(MC)の数値評価は、よく確立された理論的境界に矛盾することが多い。 本稿では, 線形エコー状態ネットワークの場合, 総メモリ容量が対応するカルマン制御性行列のランクに等しいことが証明された。 メモリの不正確な数値推定の様々な理由に光を当て、最近の文献でしばしば見過ごされるこれらの問題は、排他的な数値的性質であることを示す。 より具体的には、線型MCのクリロフ構造が無視されるとき、理論MCと経験的MCとのギャップが導入されたことを証明している。 提案手法は,入力マスク行列に対するMC中立性の結果を利用して,ロバストな数値計算手法を開発する。 シミュレーションにより,提案手法を用いて復元したメモリ曲線は理論に完全に一致することが示された。

Numerical evaluations of the memory capacity (MC) of recurrent neural networks reported in the literature often contradict well-established theoretical bounds. In this paper, we study the case of linear echo state networks, for which the total memory capacity has been proven to be equal to the rank of the corresponding Kalman controllability matrix. We shed light on various reasons for the inaccurate numerical estimations of the memory, and we show that these issues, often overlooked in the recent literature, are of an exclusively numerical nature. More explicitly, we prove that when the Krylov structure of the linear MC is ignored, a gap between the theoretical MC and its empirical counterpart is introduced. As a solution, we develop robust numerical approaches by exploiting a result of MC neutrality with respect to the input mask matrix. Simulations show that the memory curves that are recovered using the proposed methods fully agree with the theory.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# システムニューラルダイバーシティ:マルチエージェント学習における行動的不均一性の測定

System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning ( http://arxiv.org/abs/2305.02128v2 )

ライセンス: Link先を確認
Matteo Bettini, Ajay Shankar, Amanda Prorok, (参考訳) 進化科学は、多様性が自然システムにレジリエンスをもたらす証拠を提供する。 しかし、従来のマルチエージェント強化学習技術は、トレーニングサンプル効率を高めるために、通常均質性を強制する。 学習エージェントのシステムが均質なポリシーに制約されない場合、個人は多様な振る舞いを発達させ、システムに恩恵をもたらす創発的な相補性をもたらす。 それにもかかわらず、行動の多様性を定量化するツールが驚くほど不足している。 このような技術は、集団人工知能における多様性の影響を理解し、その制御を可能にするための道を開くだろう。 本稿では,マルチエージェントシステムにおける行動の不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。 本稿では,その理論的特性を論じ,ロボット工学領域で用いられる,最先端の行動多様性指標と比較する。 様々な協調型マルチロボットタスクのシミュレーションを通じて,我々の測定値が,行動の不均一性の測定と制御を可能にする重要なツールであることを示す。 トレーニング中に繰り返し発生する障害によって問題が発生する動的タスクでは、SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。 最後に、このメトリクスが多様性を制御するためにどのように使われるかを示し、所望の異種性セットポイントや範囲を強制することができる。 我々は,このパラダイムを探索フェーズのブートストラップに利用し,最適なポリシを高速に発見することで,新規で効率的なMARLパラダイムを実現する方法について実証する。

Evolutionary science provides evidence that diversity confers resilience in natural systems. Yet, traditional multi-agent reinforcement learning techniques commonly enforce homogeneity to increase training sample efficiency. When a system of learning agents is not constrained to homogeneous policies, individuals may develop diverse behaviors, resulting in emergent complementarity that benefits the system. Despite this, there is a surprising lack of tools that quantify behavioral diversity. Such techniques would pave the way towards understanding the impact of diversity in collective artificial intelligence and enabling its control. In this paper, we introduce System Neural Diversity (SND): a measure of behavioral heterogeneity in multi-agent systems. We discuss and prove its theoretical properties, and compare it with alternate, state-of-the-art behavioral diversity metrics used in the robotics domain. Through simulations of a variety of cooperative multi-robot tasks, we show how our metric constitutes an important tool that enables measurement and control of behavioral heterogeneity. In dynamic tasks, where the problem is affected by repeated disturbances during training, we show that SND allows us to measure latent resilience skills acquired by the agents, while other proxies, such as task performance (reward), fail to. Finally, we show how the metric can be employed to control diversity, allowing us to enforce a desired heterogeneity set-point or range. We demonstrate how this paradigm can be used to bootstrap the exploration phase, finding optimal policies faster, thus enabling novel and more efficient MARL paradigms.
翻訳日:2024-09-12 00:08:16 公開日:2024-09-10
# DNN-Defender: DNNの対向重み攻撃に対処するためのVictim-Focused In-DRAM防御機構

DNN-Defender: A Victim-Focused In-DRAM Defense Mechanism for Taming Adversarial Weight Attack on DNNs ( http://arxiv.org/abs/2305.08034v2 )

ライセンス: Link先を確認
Ranyang Zhou, Sabbir Ahmed, Adnan Siraj Rakin, Shaahin Angizi, (参考訳) 多くのセキュリティに敏感な分野にディープラーニングが展開されるにつれ、機械学習のセキュリティは徐々に重要になりつつある。 近年の研究では、DRAMのRowHammer脆弱性を利用して、ディープニューラルネットワーク(DNN)モデルの重み付けを決定的かつ正確にフリップし、推論精度に影響を与えるシステムレベルのテクニックを攻撃者が活用できることが示されている。 既存の防御機構はソフトウェアベースで、例えば重量再構成には高価なトレーニングオーバーヘッドや性能劣化が必要になる。 一方、汎用的なハードウェアベースの被害者/攻撃者に焦点を当てたメカニズムは、高価なハードウェアオーバーヘッドを課し、被害者と攻撃者列の間の空間的接続を維持する。 そこで本稿では,DNN-Defender という量子化 DNN に適した DRAM ベースのディフェンス機構を提案する。 以上の結果から,DNN-DefenderはターゲットRowHammer攻撃の性能をランダムな攻撃レベルに低下させる高いレベルの保護を提供することが可能であることが示唆された。 さらに、提案されたディフェンスは、ソフトウェアトレーニングやハードウェアオーバーヘッドを発生させることなく、CIFAR-10とImageNetデータセットに精度を落としない。

With deep learning deployed in many security-sensitive areas, machine learning security is becoming progressively important. Recent studies demonstrate attackers can exploit system-level techniques exploiting the RowHammer vulnerability of DRAM to deterministically and precisely flip bits in Deep Neural Networks (DNN) model weights to affect inference accuracy. The existing defense mechanisms are software-based, such as weight reconstruction requiring expensive training overhead or performance degradation. On the other hand, generic hardware-based victim-/aggressor-focused mechanisms impose expensive hardware overheads and preserve the spatial connection between victim and aggressor rows. In this paper, we present the first DRAM-based victim-focused defense mechanism tailored for quantized DNNs, named DNN-Defender that leverages the potential of in-DRAM swapping to withstand the targeted bit-flip attacks with a priority protection mechanism. Our results indicate that DNN-Defender can deliver a high level of protection downgrading the performance of targeted RowHammer attacks to a random attack level. In addition, the proposed defense has no accuracy drop on CIFAR-10 and ImageNet datasets without requiring any software training or incurring hardware overhead.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 船舶搭載人工知能における多スペクトル地球観測画像の活用の解禁

Unlocking the Use of Raw Multispectral Earth Observation Imagery for Onboard Artificial Intelligence ( http://arxiv.org/abs/2305.11891v2 )

ライセンス: Link先を確認
Gabriele Meoni, Roberto Del Prete, Federico Serva, Alix De Beussche, Olivier Colin, Nicolas Longépé, (参考訳) 近年,地球観測(EO)衛星に人工知能(AI)を応用することへの関心が高まっている。 しかし、現在生の衛星データが利用できないため、軽量な前処理技術の研究が妨げられ、エンドツーエンドのパイプラインの探索が制限され、ソースデータから直接、より効率的で正確な洞察の抽出が可能になる。 このギャップを埋めるために、この研究はSentinel-2の生データと他のマルチスペクトルのEOプッシュブルームの生画像からターゲットイベント(熱ホットスポットなど)やオブジェクト(容器など)を検出するデータセットの自動作成手法を提案する。 提案手法は、まず、空間帯域登録と原データのジオレファレンスからなるパイプラインを適用して生データを処理する。 次に, ジオレファレンス対応生顆粒領域をモザイクし, 収穫するレベル1C製品上で, イベント固有の最先端アルゴリズムを活用することにより, 対象イベントを検出する。 検出されたイベントは、最終的に対応する生画像に再投影される。 本研究では,温熱ホットスポットを含むSentinel-2生データの最初のデータセットであるTHRawS (Thermal Hotspots in Raw Sentinel-2 data) を実現するために提案手法を適用した。 THRawSは、山火事、火山噴火を含む1090のサンプルと、熱ホットスポットの検出と一般的な分類の応用を可能にする33,335のイベントフリーな買収を含んでいる。 このデータセットと関連するツールキットは、コミュニティにすぐに役立つリソースと、将来の追加のためのテンプレートとして機能するフレームワークと方法論の両方を提供します。 この研究により、エネルギー効率のよい前処理アルゴリズムと、EO衛星上のAIベースのエンドツーエンド処理システムの研究の道を開いたいと考えています。

Nowadays, there is growing interest in applying Artificial Intelligence (AI) on board Earth Observation (EO) satellites for time-critical applications, such as natural disaster response. However, the unavailability of raw satellite data currently hinders research on lightweight pre-processing techniques and limits the exploration of end-to-end pipelines, which could offer more efficient and accurate extraction of insights directly from the source data. To fill this gap, this work presents a novel methodology to automate the creation of datasets for the detection of target events (e.g., warm thermal hotspots) or objects (e.g., vessels) from Sentinel-2 raw data and other multispectral EO pushbroom raw imagery. The presented approach first processes the raw data by applying a pipeline consisting of spatial band registration and georeferencing of the raw data pixels. Then, it detects the target events by leveraging event-specific state-of-the-art algorithms on the Level-1C products, which are mosaicked and cropped on the georeferenced correspondent raw granule area. The detected events are finally re-projected back onto the corresponding raw images. We apply the proposed methodology to realize THRawS (Thermal Hotspots in Raw Sentinel-2 data), the first dataset of Sentinel-2 raw data containing warm thermal hotspots. THRawS includes 1090 samples containing wildfires, volcanic eruptions, and 33,335 event-free acquisitions to enable thermal hotspot detection and general classification applications. This dataset and associated toolkits provide the community with both an immediately useful resource as well as a framework and methodology acting as a template for future additions. With this work, we hope to pave the way for research on energy-efficient pre-processing algorithms and AI-based end-to-end processing systems on board EO satellites.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# Caterpillar: シフトピラー結合を備えたPure-MLPアーキテクチャ

Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation ( http://arxiv.org/abs/2305.17644v3 )

ライセンス: Link先を確認
Jin Sun, Xiaoshuang Shi, Zhiyuan Wang, Kaidi Xu, Heng Tao Shen, Xiaofeng Zhu, (参考訳) コンピュータビジョンにおけるモデリングは、MLPへと進化してきた。 視覚MLPは局所モデリング能力に欠けており、最も単純な処理は畳み込み層と組み合わせられる。 このスライディングウインドウスキームで有名な畳み込みも、この冗長性と低い並列計算のスキームに悩まされている。 本稿では,ウィンドウ化方式を廃止し,局所性を活用するためのより精巧で並列化可能な手法を提案する。 そこで本研究では,(1)入力画像を4方向にシフトさせて隣接する4つの地図を生成するPillars-Shiftと,(2)局所的な特徴を集約するために線形変換や地図の連結を施したPillars-Concatenationという,新たなMLPモジュールを提案する。 SPCモジュールは、より優れたローカルモデリングパワーとパフォーマンスゲインを提供し、畳み込み層に代わる有望な代替となる。 そこで我々は、SMLPNetのハイブリッドモデルにおいて、畳み込み層をSPCモジュールに置き換えることで、Caterpillarと呼ばれる純粋なMLPアーキテクチャを構築した。 大規模な実験では、Caterpillarは小規模とImageNet-1kの分類ベンチマークで優れた性能を示し、スケーラビリティと転送能力も優れていた。 コードはhttps://github.com/sunjin19126/Caterpillar.comで公開されている。

Modeling in Computer Vision has evolved to MLPs. Vision MLPs naturally lack local modeling capability, to which the simplest treatment is combined with convolutional layers. Convolution, famous for its sliding window scheme, also suffers from this scheme of redundancy and lower parallel computation. In this paper, we seek to dispense with the windowing scheme and introduce a more elaborate and parallelizable method to exploit locality. To this end, we propose a new MLP module, namely Shifted-Pillars-Concatenation (SPC), that consists of two steps of processes: (1) Pillars-Shift, which generates four neighboring maps by shifting the input image along four directions, and (2) Pillars-Concatenation, which applies linear transformations and concatenation on the maps to aggregate local features. SPC module offers superior local modeling power and performance gains, making it a promising alternative to the convolutional layer. Then, we build a pure-MLP architecture called Caterpillar by replacing the convolutional layer with the SPC module in a hybrid model of sMLPNet. Extensive experiments show Caterpillar's excellent performance on both small-scale and ImageNet-1k classification benchmarks, with remarkable scalability and transfer capability possessed as well. The code is available at https://github.com/sunjin19126/Caterpillar.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 一貫性のない記述論理の知識ベースを問合せするための不確かさの爆発

Exploiting Uncertainty for Querying Inconsistent Description Logics Knowledge Bases ( http://arxiv.org/abs/2306.09138v3 )

ライセンス: Link先を確認
Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi, (参考訳) Description Logics Knowledge Bases (KBs) における矛盾を管理する必要性は、セマンティック・ウェブ(Semantic Web)によってもたらされる重要性の高まりに端を発している。 古典的推論アルゴリズムは不整合KBを処理せず、不整合を取り除くためにKBのデバッグを強制する。 本稿では,disPONTEと呼ばれる既存の確率論的セマンティクスを利用してこの問題を克服し,不整合KBに対してもクエリを許容する。 提案手法をTRILLとBUNDLEで実装し,提案手法の有効性を実証的に検証した。 さらに,提案手法を,DL推論タスクにおいて最も確立された意味論の一つである修復意味論と比較した。

The necessity to manage inconsistency in Description Logics Knowledge Bases (KBs) has come to the fore with the increasing importance gained by the Semantic Web, where information comes from different sources that constantly change their content and may contain contradictory descriptions when considered either alone or together. Classical reasoning algorithms do not handle inconsistent KBs, forcing the debugging of the KB in order to remove the inconsistency. In this paper, we exploit an existing probabilistic semantics called DISPONTE to overcome this problem and allow queries also in case of inconsistent KBs. We implemented our approach in the reasoners TRILL and BUNDLE and empirically tested the validity of our proposal. Moreover, we formally compare the presented approach to that of the repair semantics, one of the most established semantics when considering DL reasoning tasks.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 擬似剛体ネットワーク:部分観測から解釈可能な変形可能な物体力学を学習する

Pseudo-rigid body networks: learning interpretable deformable object dynamics from partial observations ( http://arxiv.org/abs/2307.07975v4 )

ライセンス: Link先を確認
Shamil Mamedov, A. René Geist, Jan Swevers, Sebastian Trimpe, (参考訳) 変形可能な線形オブジェクト(DLO)の正確な予測は、特に人間の解釈と計算効率の両方のモデルを必要とする場合、困難である。 本研究では、擬似剛体法(PRB)からインスピレーションを得て、動的ネットワークによって内部状態が経時的にアンロールされる剛体の直列鎖としてDLOをモデル化する。 このダイナミクスネットワークは、観測された運動変数をDLOの隠れ状態にマッピングする物理インフォームドエンコーダと共同で訓練されている。 そこで本研究では,PRBモデルの前方運動学をデコーダとして活用する。 ロボット実験において,提案したDLO力学モデルは,予測精度に関するブラックボックスモデルと同等でありながら,部分的な観測から物理的に解釈可能な予測を提供することを示した。 プロジェクトのコードは、http://tinyurl.com/prb-networks.comで公開されている。

Accurately predicting deformable linear object (DLO) dynamics is challenging, especially when the task requires a model that is both human-interpretable and computationally efficient. In this work, we draw inspiration from the pseudo-rigid body method (PRB) and model a DLO as a serial chain of rigid bodies whose internal state is unrolled through time by a dynamics network. This dynamics network is trained jointly with a physics-informed encoder that maps observed motion variables to the DLO's hidden state. To encourage the state to acquire a physically meaningful representation, we leverage the forward kinematics of the PRB model as a decoder. We demonstrate in robot experiments that the proposed DLO dynamics model provides physically interpretable predictions from partial observations while being on par with black-box models regarding prediction accuracy. The project code is available at: http://tinyurl.com/prb-networks
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# INFLECT-DGNN:動的グラフニューラルネットワークによるインフルエンサー予測

INFLECT-DGNN: Influencer Prediction with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.08131v4 )

ライセンス: Link先を確認
Elena Tiukhova, Emiliano Penaloza, María Óskarsdóttir, Bart Baesens, Monique Snoeck, Cristián Bravo, (参考訳) 予測モデリングのためのネットワーク情報を活用することは、多くの領域で広まっている。 参照とターゲットマーケティングの領域において、インフルエンサー検出は、顧客ブランド関係の継続的な進化による動的ネットワーク表現の組み入れから大きな恩恵を受けることができる分野として際立っている。 In this paper, INFLECT-DGNN, a new method for profit-driven INFLuencer prEdiCTion with Dynamic Graph Neural Networks that innovatively combines Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) with weighted loss function, adopted to graph data, and a carefully crafted rolling-window strategy。 モデル予測に基づく意思決定を支援する,新たな利益主導型フレームワークを提案する。 このフレームワークをテストするために、さまざまなネットワークを持つユニークな企業データセットを使用し、異なる社会経済特性と人口統計特性を持つ3つの都市における顧客インタラクションをキャプチャする。 この結果から,GNNと共に時間特性を符号化するためにRNNを用いることで予測性能を大幅に向上する一方,利益主導型フレームワークは利益最大化のための最適分類しきい値を決定する。 我々は,ネットワーク表現,時間的依存,利益主導評価を用いた重要度を示すために,異なるモデルの結果を比較した。 本研究は,企業環境におけるディープグラフ学習の技術的利用を拡大し,レファラルおよびターゲットマーケティングの分野に重要な意味を持つ。

Leveraging network information for predictive modeling has become widespread in many domains. Within the realm of referral and targeted marketing, influencer detection stands out as an area that could greatly benefit from the incorporation of dynamic network representation due to the continuous evolution of customer-brand relationships. In this paper, we present INFLECT-DGNN, a new method for profit-driven INFLuencer prEdiCTion with Dynamic Graph Neural Networks that innovatively combines Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) with weighted loss functions, synthetic minority oversampling adapted to graph data, and a carefully crafted rolling-window strategy. We introduce a novel profit-driven framework that supports decision-making based on model predictions. To test the framework, we use a unique corporate dataset with diverse networks, capturing the customer interactions across three cities with different socioeconomic and demographic characteristics. Our results show how using RNNs to encode temporal attributes alongside GNNs significantly improves predictive performance, while the profit-driven framework determines the optimal classification threshold for profit maximization. We compare the results of different models to demonstrate the importance of capturing network representation, temporal dependencies, and using a profit-driven evaluation. Our research has significant implications for the fields of referral and targeted marketing, expanding the technical use of deep graph learning within corporate environments.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# NeFL: システムの不均一なクライアントによるフェデレーション学習のためのネストモデルスケーリング

NeFL: Nested Model Scaling for Federated Learning with System Heterogeneous Clients ( http://arxiv.org/abs/2308.07761v3 )

ライセンス: Link先を確認
Honggu Kang, Seohyeon Cha, Jinwoo Shin, Jongmyeong Lee, Joonhyuk Kang, (参考訳) フェデレートラーニング(FL)は、データのプライバシを保ちながら分散トレーニングを可能にするが、ストラグラーのスローあるいは無効なクライアントは、トレーニング時間を大幅に短縮し、パフォーマンスを低下させる。 ストラグラーの影響を軽減するため、異種コンピューティングやネットワーク帯域幅を含むシステム不均一性に対処している。 従来の研究では、モデルをサブモデルに分割することで、システムの不均一性に対処してきたが、複数のサブモデルアーキテクチャのトレーニングから生じる潜在的な不整合を考慮せずに、モデルアーキテクチャ設計において限られた柔軟性を提供する。 深層ニューラルネットワークを深層スケールとワイドワイドスケーリングの両方を用いてサブモデルに効率的に分割する一般化されたフレームワークであるネスト付きフェデレーションラーニング(NeFL)を提案する。 複数のサブモデルアーキテクチャのトレーニングから生じる矛盾に対処するため、NeFLは各サブモデルのためにトレーニングされているものからパラメータのサブセットを分離する。 集約中にこれらの疎結合パラメータを扱う平均化法を提案する。 NeFLはリソース制約のあるデバイスをFLパイプラインに効果的に参加させ、モデルトレーニングのためのより大きなデータセットを容易にする。 実験では、NeFLは、特にベースラインアプローチ(CIFAR-100の7.63%の改善)と比較して、パフォーマンス向上を実現している。 さらに、NeFLは、事前訓練されたモデルの活用や統計的不均一性の説明など、最近のFLの進歩と一致している。 私たちのコードはオンラインで利用可能です。

Federated learning (FL) enables distributed training while preserving data privacy, but stragglers-slow or incapable clients-can significantly slow down the total training time and degrade performance. To mitigate the impact of stragglers, system heterogeneity, including heterogeneous computing and network bandwidth, has been addressed. While previous studies have addressed system heterogeneity by splitting models into submodels, they offer limited flexibility in model architecture design, without considering potential inconsistencies arising from training multiple submodel architectures. We propose nested federated learning (NeFL), a generalized framework that efficiently divides deep neural networks into submodels using both depthwise and widthwise scaling. To address the inconsistency arising from training multiple submodel architectures, NeFL decouples a subset of parameters from those being trained for each submodel. An averaging method is proposed to handle these decoupled parameters during aggregation. NeFL enables resource-constrained devices to effectively participate in the FL pipeline, facilitating larger datasets for model training. Experiments demonstrate that NeFL achieves performance gain, especially for the worst-case submodel compared to baseline approaches (7.63% improvement on CIFAR-100). Furthermore, NeFL aligns with recent advances in FL, such as leveraging pre-trained models and accounting for statistical heterogeneity. Our code is available online.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# ロバストな単一回転平均値の再検討

Robust Single Rotation Averaging Revisited ( http://arxiv.org/abs/2309.05388v5 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, (参考訳) そこで本研究では, 極端に多くのオフレーラを効率的に扱えるロバストな単回転平均化法を提案する。 我々のアプローチは、測地線距離の総最小二乗偏差(TLUD)コストを最小化することである。 提案アルゴリズムは3つのステップから構成される: まず,各入力回転を潜在的初期解とみなす。 次に、初期解を用いて不整集合を取得し、その和を$L_2$-meanで計算する。 最後に、この推定から始めて、$SO(3)$でWeiszfeldアルゴリズムを用いて、イリヤの測地線$L_1$-meanを反復的に計算する。 本手法は, 精度の高いインレーヤの数が十分ある場合, 最大99%のアウトレーヤに対して頑健であり, 現状よりも優れていた。

In this work, we propose a novel method for robust single rotation averaging that can efficiently handle an extremely large fraction of outliers. Our approach is to minimize the total truncated least unsquared deviations (TLUD) cost of geodesic distances. The proposed algorithm consists of three steps: First, we consider each input rotation as a potential initial solution and choose the one that yields the least sum of truncated chordal deviations. Next, we obtain the inlier set using the initial solution and compute its chordal $L_2$-mean. Finally, starting from this estimate, we iteratively compute the geodesic $L_1$-mean of the inliers using the Weiszfeld algorithm on $SO(3)$. An extensive evaluation shows that our method is robust against up to 99% outliers given a sufficient number of accurate inliers, outperforming the current state of the art.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 地球科学と基礎モデル:一般地球科学人工知能システムを目指して

When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System ( http://arxiv.org/abs/2309.06799v4 )

ライセンス: Link先を確認
Hao Zhang, Jin-Jian Xu, Hong-Wei Cui, Lin Li, Yaowen Yang, Chao-Sheng Tang, Niklas Boers, (参考訳) 人工知能(AI)は地球科学を著しく進歩させたが、地球の複雑な力学を包括的にモデル化する大きな可能性を秘めている。 地球科学基礎モデル(GFM)はパラダイムシフトソリューションとして登場し、地球系の力学のシミュレーションと理解を強化するために広範な学際データを統合する。 これらのデータ中心のAIモデルは、構造的および非構造的データのペタバイト単位から洞察を抽出し、従来のモデルが捉えるのに苦労する地球のシステムの複雑さに効果的に対処する。 GFMの独特な強みは、フレキシブルなタスク仕様、多様な入出力能力、マルチモーダルな知識表現である。 このレビューは、GFMの重要な利点だけでなく、トランスフォーマー、事前学習、適応戦略に焦点をあてて、構築に必要な技術も提示する。 その後、大規模言語モデル、視覚モデル、視覚言語モデルなど、近年のGFMの進歩について検討し、特にリモートセンシングにおける潜在的な応用を強調した。 さらに、データ統合、モデル複雑性、不確実性定量化、学際的コラボレーション、プライバシ、信頼、セキュリティに関する懸念の5つの重要な側面に対処する。 このレビューは、先進的なAI技術と地球科学の交差点における未解決の機会を強調した、新興の地球科学研究パラダイムの包括的概要を提供する。 主要な方法論を検証し、大規模モデルにおける進歩を示し、今後のGFMの展望を形作る挑戦と展望について論じる。

Artificial intelligence (AI) has significantly advanced Earth sciences, yet its full potential in to comprehensively modeling Earth's complex dynamics remains unrealized. Geoscience foundation models (GFMs) emerge as a paradigm-shifting solution, integrating extensive cross-disciplinary data to enhance the simulation and understanding of Earth system dynamics. These data-centric AI models extract insights from petabytes of structured and unstructured data, effectively addressing the complexities of Earth systems that traditional models struggle to capture. The unique strengths of GFMs include flexible task specification, diverse input-output capabilities, and multi-modal knowledge representation, enabling analyses that surpass those of individual data sources or traditional AI methods. This review not only highlights the key advantages of GFMs, but also presents essential techniques for their construction, with a focus on transformers, pre-training, and adaptation strategies. Subsequently, we examine recent advancements in GFMs, including large language models, vision models, and vision-language models, particularly emphasizing the potential applications in remote sensing. Additionally, the review concludes with a comprehensive analysis of the challenges and future trends in GFMs, addressing five critical aspects: data integration, model complexity, uncertainty quantification, interdisciplinary collaboration, and concerns related to privacy, trust, and security. This review offers a comprehensive overview of emerging geoscientific research paradigms, emphasizing the untapped opportunities at the intersection of advanced AI techniques and geoscience. It examines major methodologies, showcases advances in large-scale models, and discusses the challenges and prospects that will shape the future landscape of GFMs.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 大規模言語モデルを用いたゼロショット音声トピックの再評価

Zero-shot Audio Topic Reranking using Large Language Models ( http://arxiv.org/abs/2309.07606v2 )

ライセンス: Link先を確認
Mengjie Qian, Rao Ma, Adian Liusie, Erfan Loweimi, Kate M. Knill, Mark J. F. Gales, (参考訳) MVSE(Multimodal Video Search by Examples)は、従来のテキストクエリではなく、情報検索のクエリ語としてビデオクリップを使用することを調査する。 これにより、画像、話者、コンテンツ、トピック、感情など、はるかにリッチな検索モダリティが可能になる。 このプロセスの重要な要素は、大規模なアーカイブをサポートするための高速で柔軟な検索である。 本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。 特に,大規模言語モデル (LLM) を用いたゼロショット復位法について,ビデオアーカイブ音声コンテンツに適用可能であるとして検討した。 パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。 その結果、再ランク付けはタスク固有のドメイン内トレーニングデータを必要とせずに、検索ランク付けを大幅に改善することを示した。 さらに, LLM再分類のための入力として, 3つの情報源(ASR転写, 自動要約, シナプス)を比較した。 これらのテキストソースのパフォーマンスの違いや制限について、より深い理解とさらなる洞察を得るために、情報一貫性の分析にファクトチェックのアプローチを採用する。

Multimodal Video Search by Examples (MVSE) investigates using video clips as the query term for information retrieval, rather than the more traditional text query. This enables far richer search modalities such as images, speaker, content, topic, and emotion. A key element for this process is highly rapid and flexible search to support large archives, which in MVSE is facilitated by representing video attributes with embeddings. This work aims to compensate for any performance loss from this rapid archive search by examining reranking approaches. In particular, zero-shot reranking methods using large language models (LLMs) are investigated as these are applicable to any video archive audio content. Performance is evaluated for topic-based retrieval on a publicly available video archive, the BBC Rewind corpus. Results demonstrate that reranking significantly improves retrieval ranking without requiring any task-specific in-domain training data. Furthermore, three sources of information (ASR transcriptions, automatic summaries and synopses) as input for LLM reranking were compared. To gain a deeper understanding and further insights into the performance differences and limitations of these text sources, we employ a fact-checking approach to analyse the information consistency among them.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# イベントとフレームを用いた深部視覚計測

Deep Visual Odometry with Events and Frames ( http://arxiv.org/abs/2309.09947v3 )

ライセンス: Link先を確認
Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza, (参考訳) ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。 堅牢性を改善するため、最近のモデルベースVOシステムは標準カメラとイベントベースカメラの組み合わせを開始している。 イベントカメラは低照度で高速な動きが優れているが、標準的なカメラは密度が高く、トラックが簡単になる。 しかし、画像とイベントベースのVOの分野は依然としてモデルベースの手法に依存しており、エンドツーエンドの学習ベースのアーキテクチャを活用する最近の画像のみの進歩を完全には統合していない。 ひとつは非同期で、もうひとつはそうで、より効果的なイメージとイベントベースのVOの可能性を制限する。 本稿では,最初のエンドツーエンドの学習画像とイベントベースのVOシステムであるRAMP-VOを紹介する。 新たなRecurrent、Asynchronous、Massively Parallel(RAMP)エンコーダを利用して、画像データと非同期イベントを融合し、既存のソリューションよりも8倍高速な推論と33%正確な予測を提供する。 シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは新しく導入されたApolloとMalapertのデータセット、および既存のベンチマークで、画像およびイベントベースのメソッドを58.8%と30.6%改善し、宇宙での堅牢で非同期なVOへの道を開いた。

Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. To improve robustness, recent model-based VO systems have begun combining standard and event-based cameras. While event cameras excel in low-light and high-speed motion, standard cameras provide dense and easier-to-track features. However, the field of image- and event-based VO still predominantly relies on model-based methods and is yet to fully integrate recent image-only advancements leveraging end-to-end learning-based architectures. Seamlessly integrating the two modalities remains challenging due to their different nature, one asynchronous, the other not, limiting the potential for a more effective image- and event-based VO. We introduce RAMP-VO, the first end-to-end learned image- and event-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders capable of fusing asynchronous events with image data, providing 8x faster inference and 33% more accurate predictions than existing solutions. Despite being trained only in simulation, RAMP-VO outperforms previous methods on the newly introduced Apollo and Malapert datasets, and on existing benchmarks, where it improves image- and event-based methods by 58.8% and 30.6%, paving the way for robust and asynchronous VO in space.
翻訳日:2024-09-11 23:57:26 公開日:2024-09-10
# 多体システムにおける学習力則

Learning force laws in many-body systems ( http://arxiv.org/abs/2310.05273v2 )

ライセンス: Link先を確認
Wentao Yu, Eslam Abdelaleem, Ilya Nemenman, Justin C. Burton, (参考訳) 自然システムを記述する科学的法則は、私たちの直観が扱えるものよりも複雑である可能性がある。 機械学習(ML)モデルは大量のデータを分析できるが、その構造は基礎となる物理的制約と一致して有用な洞察を提供する必要がある。 基礎となる物理が知られているシミュレーションデータを用いて、進歩が進んでいるが、実験データ上でのMLモデルのトレーニングと検証には、根本的に新しいアプローチが必要である。 ここでは,複雑な多体系であるほこり質プラズマにおける力法則を推論するための物理的直観を取り入れたMLアプローチを実証し,実験的に検証する。 モデルは3次元粒子軌道で訓練され、固有対称性、非恒等粒子を考慮に入れ、正確な精度で粒子間の効果的な非相互力(R^2>0.99)を学習する。 2つの独立して一貫した方法で粒子質量を推定することでモデルを検証する。 モデルの精度は、粒子電荷とスクリーニング長さの正確な測定を可能にし、一般的な理論的仮定の違反を発見する。 実験データから新しい物理を識別する能力は、MLを利用したアプローチが、多体システムにおける新しい科学的発見経路をどのように導くかを示す。 さらに,我々のMLアプローチは,コロイドから生物まで幅広い多体系の力学から法則を推論する出発点となると予測している。

Scientific laws describing natural systems may be more complex than our intuition can handle, thus how we discover laws must change. Machine learning (ML) models can analyze large quantities of data, but their structure should match the underlying physical constraints to provide useful insight. While progress has been made using simulated data where the underlying physics is known, training and validating ML models on experimental data requires fundamentally new approaches. Here we demonstrate and experimentally validate an ML approach that incorporates physical intuition to infer force laws in dusty plasma, a complex, many-body system. Trained on 3D particle trajectories, the model accounts for inherent symmetries, non-identical particles, and learns the effective non-reciprocal forces between particles with exquisite accuracy (R^2>0.99). We validate the model by inferring particle masses in two independent yet consistent ways. The model's accuracy enables precise measurements of particle charge and screening length, discovering violations of common theoretical assumptions. Our ability to identify new physics from experimental data demonstrates how ML-powered approaches can guide new routes of scientific discovery in many-body systems. Furthermore, we anticipate our ML approach to be a starting point for inferring laws from dynamics in a wide range of many-body systems, from colloids to living organisms.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# SpikeCLIP: コントラスト言語による事前訓練型スパイクニューラルネットワーク

SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network ( http://arxiv.org/abs/2310.06488v3 )

ライセンス: Link先を確認
Tianlong Li, Wenhao Liu, Changze Lv, Yufei Gu, Jianhan Xu, Cenyuan Zhang, Muling Wu, Xiaoqing Zheng, Xuanjing Huang, (参考訳) 従来のニューラルネットワーク(ANN)に代わる有望な代替手段としてスパイキングニューラルネットワーク(SNN)が登場し、視覚的タスクと言語的タスクの両方で同等のパフォーマンスを示しながら、エネルギー効率の向上を享受している。 これらの進歩にもかかわらず、言語的特徴と視覚的特徴をスパイク列車による統一表現に統合することは大きな課題となり、SNNのマルチモーダルシナリオへの応用は未解明のままである。 本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。 我々のアプローチでは、2段階のレシピが採用されている:「アライメント事前学習」は、モダリティにまたがる特徴を調整し、続いてモデルの性能を洗練させる「ダールロス微調整」である。 大規模な実験により、SNNはANNと同等の結果を得るとともに、マルチモーダルモデル評価によく使用される様々なデータセットのエネルギー消費量を大幅に削減することがわかった。 さらに、SpikeCLIPは、事前に定義されたカテゴリの外にあるクラスを扱う場合でも、堅牢な画像分類機能を維持している。 本研究は,エネルギー効率・生物学的に妥当なマルチモーダル学習システムの開発において,重要な進展を示すものである。

Spiking Neural Networks (SNNs) have emerged as a promising alternative to conventional Artificial Neural Networks (ANNs), demonstrating comparable performance in both visual and linguistic tasks while offering the advantage of improved energy efficiency. Despite these advancements, the integration of linguistic and visual features into a unified representation through spike trains poses a significant challenge, and the application of SNNs to multimodal scenarios remains largely unexplored. This paper presents SpikeCLIP, a novel framework designed to bridge the modality gap in spike-based computation. Our approach employs a two-step recipe: an ``alignment pre-training'' to align features across modalities, followed by a ``dual-loss fine-tuning'' to refine the model's performance. Extensive experiments reveal that SNNs achieve results on par with ANNs while substantially reducing energy consumption across various datasets commonly used for multimodal model evaluation. Furthermore, SpikeCLIP maintains robust image classification capabilities, even when dealing with classes that fall outside predefined categories. This study marks a significant advancement in the development of energy-efficient and biologically plausible multimodal learning systems.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# リモートセンシング画像のためのモード間異常検出器の学習

Learning a Cross-modality Anomaly Detector for Remote Sensing Imagery ( http://arxiv.org/abs/2310.07511v2 )

ライセンス: Link先を確認
Jingtao Li, Xinyu Wang, Hengwei Zhao, Liangpei Zhang, Yanfei Zhong, (参考訳) リモートセンシング異常検知器は、背景から逸脱した物体を地球観測の潜在的標的として見つけることができる。 地球異常型の多様性を考えると、異質性検出能力を有する移動モデルの設計は、新しい地球観測源や異常タイプに対して費用対効果が高く、柔軟であるべきである。 しかし、現在の異常検知器は特定の背景分布を学習することを目的としており、訓練されたモデルは見えない画像に転送することはできない。 本研究は,スコアランキングの偏差距離が画像分布から独立であるという事実に着想を得て,各背景分布から一貫した偏差距離への学習目標変換を利用する。 我々は,ラベル付きサンプルにおける大マルジン条件が,学習偏差測定の伝達能力を保証することを理論的に証明する。 この条件を満たすために、画素レベルと特徴レベルの偏差ランキングの2つの大きなマージン損失を提案する。 実際の異常は取得が難しいため、モデル損失を計算するために異常シミュレーション戦略が設計されている。 偏差測定のための大マージン学習により、トレーニングされたモデルは、ハイパースペクトル、可視光、合成開口レーダ(SAR)、赤外線、低照度をゼロショットで5つのモードで横断モード検出能力を達成する。

Remote sensing anomaly detector can find the objects deviating from the background as potential targets for Earth monitoring. Given the diversity in earth anomaly types, designing a transferring model with cross-modality detection ability should be cost-effective and flexible to new earth observation sources and anomaly types. However, the current anomaly detectors aim to learn the certain background distribution, the trained model cannot be transferred to unseen images. Inspired by the fact that the deviation metric for score ranking is consistent and independent from the image distribution, this study exploits the learning target conversion from the varying background distribution to the consistent deviation metric. We theoretically prove that the large-margin condition in labeled samples ensures the transferring ability of learned deviation metric. To satisfy this condition, two large margin losses for pixel-level and feature-level deviation ranking are proposed respectively. Since the real anomalies are difficult to acquire, anomaly simulation strategies are designed to compute the model loss. With the large-margin learning for deviation metric, the trained model achieves cross-modality detection ability in five modalities including hyperspectral, visible light, synthetic aperture radar (SAR), infrared and low-light in zero-shot manner.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 近接場におけるメッシュ回復のためのマルチモーダルアクティブ計測

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity ( http://arxiv.org/abs/2310.08116v4 )

ライセンス: Link先を確認
Takahiro Maeda, Keisuke Takeshita, Norimichi Ukita, Kazuhito Tanaka, (参考訳) 物理的人間-ロボット相互作用(pHRI)では、ロボットは対象者の正確な身体姿勢を推定する必要がある。 しかし、これらのpHRIシナリオでは、対象者が物理的相互作用のためにロボットの近くにいなければならないため、搭載カメラで対象者の身体を完全に観察することはできない。 この近接距離は重度の乱れと閉塞を引き起こし、結果として人間のポーズ推定の精度が低下する。 そこで本研究では,2次元LiDARなどのタッチ・レンジセンサを備えたカメラのアクティブな計測・センサ融合フレームワークを提案する。 触覚と測位センサーの計測は、人体部分のローカライズのための、希少だが信頼性があり、情報的な方法である。 アクティブな計測プロセスでは、カメラの視点とセンサーの配置を動的に最適化し、高い推定不確かさで身体部分を測定する。 センサ融合過程において, センサの計測値がカメラによる推定値よりも信頼性が高いことを前提として, 推定されたポーズを計測点に向けて整列させることにより, センサ計測値をカメラによる推定ポーズに融合させる。 提案手法は, 模擬能動測定を用いた標準閉塞ベンチマークにおいて, 従来手法よりも優れた性能を示した。 さらに,本手法は,毛布による隠蔽などの実用的制約を伴っても,実際のロボットを用いて人間のポーズを確実に推定する。

For physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose of a target person. However, in these pHRI scenarios, the robot cannot fully observe the target person's body with equipped cameras because the target person must be close to the robot for physical interaction. This close distance leads to severe truncation and occlusions and thus results in poor accuracy of human pose estimation. For better accuracy in this challenging environment, we propose an active measurement and sensor fusion framework of the equipped cameras with touch and ranging sensors such as 2D LiDAR. Touch and ranging sensor measurements are sparse but reliable and informative cues for localizing human body parts. In our active measurement process, camera viewpoints and sensor placements are dynamically optimized to measure body parts with higher estimation uncertainty, which is closely related to truncation or occlusion. In our sensor fusion process, assuming that the measurements of touch and ranging sensors are more reliable than the camera-based estimations, we fuse the sensor measurements to the camera-based estimated pose by aligning the estimated pose towards the measured points. Our proposed method outperformed previous methods on the standard occlusion benchmark with simulated active measurement. Furthermore, our method reliably estimated human poses using a real robot, even with practical constraints such as occlusion by blankets.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 逆正則化による分割学習におけるパッシブ推論攻撃

Passive Inference Attacks on Split Learning via Adversarial Regularization ( http://arxiv.org/abs/2310.10483v5 )

ライセンス: Link先を確認
Xiaochen Zhu, Xinjian Luo, Yuncheng Wu, Yangfan Jiang, Xiaokui Xiao, Beng Chin Ooi, (参考訳) スプリットラーニング(SL)は、従来のフェデレートラーニングに代わる実用的で効率的な代替手段として登場した。 従来のSL攻撃の試みは、しばしば過度に強い仮定や、容易に悪用できるモデルに頼っていたが、我々はより有能な攻撃方法を模索している。 SDAR は SL に対する攻撃フレームワークである。 SDARは補助データと逆正則化を利用してクライアントのプライベートモデルのデオード可能なシミュレータを学習し、バニラSLの下でクライアントのプライベート機能を効果的に推測する。 提案した攻撃の有効性を検証するため,両構成で広範囲な実験を行った。 特に、既存のパッシブアタックがクライアントのプライベートデータを効果的に再構築するのに苦労している挑戦的なシナリオでは、SDARはアクティブアタックに匹敵するような、非常に優れたアタックパフォーマンスを一貫して達成します。 CIFAR-10では、7の深さ分割レベルでは、SDARは、バニラとU字型の両方において0.025以上の平均2乗誤差でプライベートな特徴再構成を達成し、U字型設定では98%以上のラベル推測精度を達成し、既存の攻撃では非自明な結果が得られない。

Split Learning (SL) has emerged as a practical and efficient alternative to traditional federated learning. While previous attempts to attack SL have often relied on overly strong assumptions or targeted easily exploitable models, we seek to develop more capable attacks. We introduce SDAR, a novel attack framework against SL with an honest-but-curious server. SDAR leverages auxiliary data and adversarial regularization to learn a decodable simulator of the client's private model, which can effectively infer the client's private features under the vanilla SL, and both features and labels under the U-shaped SL. We perform extensive experiments in both configurations to validate the effectiveness of our proposed attacks. Notably, in challenging scenarios where existing passive attacks struggle to reconstruct the client's private data effectively, SDAR consistently achieves significantly superior attack performance, even comparable to active attacks. On CIFAR-10, at the deep split level of 7, SDAR achieves private feature reconstruction with less than 0.025 mean squared error in both the vanilla and the U-shaped SL, and attains a label inference accuracy of over 98% in the U-shaped setting, while existing attacks fail to produce non-trivial results.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# グリーディ・パースペクティブ: クラッタ環境における協調的知覚のための多次元視点計画

Greedy Perspectives: Multi-Drone View Planning for Collaborative Perception in Cluttered Environments ( http://arxiv.org/abs/2310.10863v3 )

ライセンス: Link先を確認
Krishna Suresh, Aditya Rauniyar, Micah Corah, Sebastian Scherer, (参考訳) 空飛ぶロボットのチームの配置は、チームスポーツや撮影などの分野への応用のために、複雑な環境での動的グループ(アクター)の大規模な撮影を可能にする。 この目的のために、逐次欲望計画による部分モジュラー最大化手法は、ロボットのチーム間でカメラビューのスケーラブルな最適化を可能にするが、散在する環境における効率的な調整を伴う課題に直面している。 障害物はオクルージョンを発生させ、ロボット同士の衝突の可能性を高め、ほぼ最適の保証の要求に反する可能性がある。 密集した環境下での人々の撮影グループにおける航空ロボットのチームを協調させるためには、より一般的なビュープランニングアプローチが必要である。 マルチロボット・マルチ・アクター・ビュー・プランナの開発を通じて,映像撮影における衝突・閉塞が映像撮影アプリケーションにどう影響するかを考察し,ロボット間衝突を無視するボケーション・プランナーとグリーディ・プランナーとの比較を行った。 提案手法は,5つのテスト環境と複雑なマルチアクタの挙動に基づいて評価する。 コンフォーメーションプランナーと比較して、連続プランナーは3つのシナリオで俳優を撮影する際の14%のビュー報酬と、他の2つのシナリオでのフォーメーションプランナーに匹敵するパフォーマンスを生成する。 また,ロボット同士の衝突制約を伴わない連続的な計画において,ロボットが知覚タスクの性能を損なうことなく衝突を回避できることを示す,ほぼ同一の視点報酬も観測した。 総じて、衝突や閉塞を引き起こす障害物や、分裂、融合、分散するかもしれないグループを撮影する環境において、空中ロボットのチームが効果的に協調することを示します。

Deployment of teams of aerial robots could enable large-scale filming of dynamic groups of people (actors) in complex environments for applications in areas such as team sports and cinematography. Toward this end, methods for submodular maximization via sequential greedy planning can enable scalable optimization of camera views across teams of robots but face challenges with efficient coordination in cluttered environments. Obstacles can produce occlusions and increase chances of inter-robot collision which can violate requirements for near-optimality guarantees. To coordinate teams of aerial robots in filming groups of people in dense environments, a more general view-planning approach is required. We explore how collision and occlusion impact performance in filming applications through the development of a multi-robot multi-actor view planner with an occlusion-aware objective for filming groups of people and compare with a formation planner and a greedy planner that ignores inter-robot collisions. We evaluate our approach based on five test environments and complex multi-actor behaviors. Compared with a formation planner, our sequential planner generates 14% greater view reward for filming the actors in three scenarios and comparable performance to formation planning on two others. We also observe near identical view rewards for sequential planning both with and without inter-robot collision constraints which indicates that robots are able to avoid collisions without impairing performance in the perception task. Overall, we demonstrate effective coordination of teams of aerial robots in environments cluttered with obstacles that may cause collisions or occlusions and for filming groups that may split, merge, or spread apart.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# LiDARによる4次元作業完了と予測

LiDAR-based 4D Occupancy Completion and Forecasting ( http://arxiv.org/abs/2310.11239v2 )

ライセンス: Link先を確認
Xinhao Liu, Moonjun Gong, Qi Fang, Haoyu Xie, Yiming Li, Hang Zhao, Chen Feng, (参考訳) シーンの完成と予測は、自動運転車のようなモバイルエージェントの研究における2つの一般的な認識問題である。 既存のアプローチは2つの問題を分離して扱い、2つの側面を別々に認識する。 本稿では、自律運転の文脈において、これらの側面を結合的な枠組みに統一する新しいLiDAR認識タスクであるOccupancy Completion and Forecasting(OCF)を紹介する。 本課題は,(1)スパース・トゥ・デンス再構成,(2)部分的・完全幻覚,(3)3次元から4次元の予測という3つの課題に対処する新しいアルゴリズムを必要とする。 監視と評価を可能にするため、公共の自動運転データセットからOCFBenchと呼ばれる大規模データセットをキュレートする。 我々は,我々のデータセット上で,既存のベースラインモデルと私たち自身のモデルのパフォーマンスを分析した。 この研究は、この進化し重要な4D知覚領域のさらなる研究を呼び起こすことを期待している。 データキュレーションとベースライン実装のコードはhttps://github.com/ai4ce/Occ4cast.comで公開されています。

Scene completion and forecasting are two popular perception problems in research for mobile agents like autonomous vehicles. Existing approaches treat the two problems in isolation, resulting in a separate perception of the two aspects. In this paper, we introduce a novel LiDAR perception task of Occupancy Completion and Forecasting (OCF) in the context of autonomous driving to unify these aspects into a cohesive framework. This task requires new algorithms to address three challenges altogether: (1) sparse-to-dense reconstruction, (2) partial-to-complete hallucination, and (3) 3D-to-4D prediction. To enable supervision and evaluation, we curate a large-scale dataset termed OCFBench from public autonomous driving datasets. We analyze the performance of closely related existing baseline models and our own ones on our dataset. We envision that this research will inspire and call for further investigation in this evolving and crucial area of 4D perception. Our code for data curation and baseline implementation is available at https://github.com/ai4ce/Occ4cast.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# HDR画像レンダリングの知覚的評価と最適化

Perceptual Assessment and Optimization of HDR Image Rendering ( http://arxiv.org/abs/2310.12877v6 )

ライセンス: Link先を確認
Peibei Cao, Rafal K. Mantiuk, Kede Ma, (参考訳) 高ダイナミックレンジ(HDR)レンダリングは、自然界の広い輝度範囲を忠実に再現する能力を持つが、レンダリング品質を正確に評価する方法は、比較的過小評価されている。 既存の画質モデルは、主に低ダイナミックレンジ(LDR)画像用に設計されており、HDR画像の品質に対する人間の認識とよく一致しない。 このギャップを埋めるために、HDRの品質指標のファミリーを提案し、その重要なステップは、単純な逆表示モデルを用いて、HDR画像を様々な露出でLDR画像のスタックに分解することである。 その後、これらの分解された画像は、確立されたLDR品質指標によって評価される。 私たちのHDRの品質モデルには3つのメリットがあります。 まず、LDRの品質指標の最近の進歩を直接継承する。 第2に、HDR画像品質の人間の知覚データを再校正に頼らない。 第3に、より正確で詳細な品質評価のために、特定の輝度範囲のアライメントと優先順位付けを容易にする。 実験結果から,HDR画像品質データセットの4つの品質評価と,HDR新規ビュー合成の知覚的最適化の観点から,HDR品質指標が既存モデルより一貫して優れていることが示された。

High dynamic range (HDR) rendering has the ability to faithfully reproduce the wide luminance ranges in natural scenes, but how to accurately assess the rendering quality is relatively underexplored. Existing quality models are mostly designed for low dynamic range (LDR) images, and do not align well with human perception of HDR image quality. To fill this gap, we propose a family of HDR quality metrics, in which the key step is employing a simple inverse display model to decompose an HDR image into a stack of LDR images with varying exposures. Subsequently, these decomposed images are assessed through well-established LDR quality metrics. Our HDR quality models present three distinct benefits. First, they directly inherit the recent advancements of LDR quality metrics. Second, they do not rely on human perceptual data of HDR image quality for re-calibration. Third, they facilitate the alignment and prioritization of specific luminance ranges for more accurate and detailed quality assessment. Experimental results show that our HDR quality metrics consistently outperform existing models in terms of quality assessment on four HDR image quality datasets and perceptual optimization of HDR novel view synthesis.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# バレン高原を緩和する工学的散逸

Engineered dissipation to mitigate barren plateaus ( http://arxiv.org/abs/2310.15037v2 )

ライセンス: Link先を確認
Antonio Sannia, Francesco Tacchino, Ivano Tavernelli, Gian Luca Giorgi, Roberta Zambrini, (参考訳) 変分量子アルゴリズムは、化学から機械学習まで幅広い潜在的な応用範囲を持つ、ノイズの多い量子コンピュータの最適化問題を解くための強力なアプローチである。 しかし、実際的な実装におけるそれらの性能は、バレンプラトーのような現象によって著しく制限される量子回路トレーニングの有効性に大きく依存する。 一般に、散逸は量子アルゴリズムにとって有害であり、ノイズ自体が実際にバレンプラトーを誘導することができるが、ここでは、各ユニタリ量子回路層の後、適切に設計されたマルコフの損失が量子モデルのトレーサビリティを回復する方法について述べる。 我々は,散逸過程の必要形態を特定し,その最適化が効率的であることを確かめる。 我々は、この提案を合成的および実用的な量子化学の例でベンチマークし、その効果と異なる領域における潜在的影響を実証した。

Variational quantum algorithms represent a powerful approach for solving optimization problems on noisy quantum computers, with a broad spectrum of potential applications ranging from chemistry to machine learning. However, their performances in practical implementations crucially depend on the effectiveness of quantum circuit training, which can be severely limited by phenomena such as barren plateaus. While, in general, dissipation is detrimental for quantum algorithms, and noise itself can actually induce barren plateaus, here we describe how the inclusion of properly engineered Markovian losses after each unitary quantum circuit layer can restore the trainability of quantum models. We identify the required form of the dissipation processes and establish that their optimization is efficient. We benchmark our proposal in both a synthetic and a practical quantum chemistry example, demonstrating its effectiveness and potential impact across different domains.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 雑音推定復号に基づく効率的な絡み合い浄化

Efficient entanglement purification based on noise guessing decoding ( http://arxiv.org/abs/2310.19914v3 )

ライセンス: Link先を確認
André Roque, Diogo Cruz, Francisco A. Monteiro, Bruno C. Coutinho, (参考訳) 本稿では,従来の誤り訂正符号に対して最近考案されたランダムな付加雑音復号法(GRAND)に基づいて,ハッシュ処理と推定に基づく新しい二部絡み除去プロトコルを提案する。 我々のプロトコルは、既存のハッシュプロトコルに対して大きな利点を提供し、浄化のためにキュービットを少なくし、高い忠実性を実現し、計算コストを削減してより良い利得を提供する。 本研究は,Bennetらのハッシュプロトコルと比較し,解析結果と半解析結果の相関関係を示すものであるが,先駆的な業績境界が考案されたにもかかわらず,実装の明示的な構築は提供されなかった。 本研究は, そのギャップを埋め, 明示的で効率的な浄化法を提供する。 我々は,16対の小さなアンサンブルであっても,ベル対あたり10%のノイズで状態を浄化できることを実証した。 本研究は,ノイズを伴う実用的な設定に対処するプロトコルの計測に基づく実装について検討する。 本研究は, 実現可能な計算コストを持つハッシュ法を用いて, 実用的で効率的な絡み合い浄化への道を開く。 元のハッシュプロトコルと比較して、提案手法は、複数の初期リソースを最大100倍まで小さくすることで、所望の忠実性を達成することができる。 そのため,提案手法は資源が限られ,計算オーバーヘッドが比較的少ない将来の量子ネットワークに適していると考えられる。

In this paper, we propose a novel bipartite entanglement purification protocol built upon hashing and upon the guessing random additive noise decoding (GRAND) approach recently devised for classical error correction codes. Our protocol offers substantial advantages over existing hashing protocols, requiring fewer qubits for purification, achieving higher fidelities, and delivering better yields with reduced computational costs. We provide numerical and semi-analytical results to corroborate our findings and provide a detailed comparison with the hashing protocol of Bennet et al. Although that pioneering work devised performance bounds, it did not offer an explicit construction for implementation. The present work fills that gap, offering both an explicit and more efficient purification method. We demonstrate that our protocol is capable of purifying states with noise on the order of 10% per Bell pair even with a small ensemble of 16 pairs. The work explores a measurement-based implementation of the protocol to address practical setups with noise. This work opens the path to practical and efficient entanglement purification using hashing-based methods with feasible computational costs. Compared to the original hashing protocol, the proposed method can achieve some desired fidelity with a number of initial resources up to one hundred times smaller. Therefore, the proposed method seems well-fit for future quantum networks with a limited number of resources and entails a relatively low computational overhead.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# ハイブリッド音声とフルランジアテンションに基づくグラフ変換器

Hybrid Focal and Full-Range Attention Based Graph Transformers ( http://arxiv.org/abs/2311.04653v2 )

ライセンス: Link先を確認
Minhong Zhu, Zhenhao Zhao, Weiran Cai, (参考訳) 自己アテンション機構を用いたトランスフォーマーのパラダイムは,グラフ構造化データの学習において,その優位性を示している。 しかし、Graph Transformerは完全な範囲依存をモデル化できるが、ローカリティから情報を取り出すには不十分であることが多い。 一般的には、メッセージパッシングニューラルネットワーク(MPNN)を、ローカル情報をキャプチャするための補助として使用するが、サブストラクチャの解釈にはまだ不十分である。 本稿では,FocalとFull-Range Graph Transformer(FFGT)という,純粋に注目に基づくアーキテクチャを提案する。 FFGTのコアコンポーネントは複合的な注意のメカニズムであり、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。 標準変換器の範囲を超えて、FFGTはよりサブ構造に注意を払っているという利点がある。 提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させるとともに,複数のLong-Range Graph Benchmark(LRGB)データセットにおいて,バニラ変換器を用いても互換性のあるSOTA性能を実現する。 さらに,SBM-PATTERNに基づく新しい合成データセットを導入することにより,注目の焦点距離に影響を及ぼす要因について検討した。

The paradigm of Transformers using the self-attention mechanism has manifested its advantage in learning graph-structured data. Yet, Graph Transformers are capable of modeling full range dependencies but are often deficient in extracting information from locality. A common practice is to utilize Message Passing Neural Networks (MPNNs) as an auxiliary to capture local information, which however are still inadequate for comprehending substructures. In this paper, we present a purely attention-based architecture, namely Focal and Full-Range Graph Transformer (FFGT), which can mitigate the loss of local information in learning global correlations. The core component of FFGT is a new mechanism of compound attention, which combines the conventional full-range attention with K-hop focal attention on ego-nets to aggregate both global and local information. Beyond the scope of canonical Transformers, the FFGT has the merit of being more substructure-aware. Our approach enhances the performance of existing Graph Transformers on various open datasets, while achieves compatible SOTA performance on several Long-Range Graph Benchmark (LRGB) datasets even with a vanilla transformer. We further examine influential factors on the optimal focal length of attention via introducing a novel synthetic dataset based on SBM-PATTERN.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 最新技術レビューと合成:デジタルツイン技術を用いた標準化された予測保守自動化のための要件ベースのロードマップ

State-of-the-art review and synthesis: A requirement-based roadmap for standardized predictive maintenance automation using digital twin technologies ( http://arxiv.org/abs/2311.06993v2 )

ライセンス: Link先を確認
Sizhe Ma, Katherine A. Flanigan, Mario Bergés, (参考訳) 近年のデジタル技術は予測保守(PMx)を普及させ、効率の向上、自動化、正確性、コスト削減、保守プロセスの独立性を提供する。 しかし、PMxは、説明可能性の低さ、データ駆動手法のサンプル非効率性、物理学に基づく手法の複雑さ、知識に基づく手法の限定的な一般化可能性や拡張性など、多くの制限に直面し続けている。 本稿では,これらの課題に対処するためにDigital Twins(DT)を活用し,大規模なPMxの自動化を実現することを提案する。 DTは変革の可能性があるが、標準化された方法でこれらのギャップを埋めるために必要な成熟度には達していない。 この進化を導く標準的な定義がなければ、この変革は開発のためのしっかりとした基盤を欠いている。 本稿では,DT技術を用いた標準化PMx自動化をサポートするための要件ベースのロードマップを提供する。 我々の体系的なアプローチは2つの主要な段階から成る。 まず,情報要求 (IR) と PMx の機能要求 (FR) を体系的に識別する。 PMx DTのバックボーンとしてIRとFRを定義し、使用するための我々のアプローチは、ソフトウェア産業における製品開発など他の分野における青写真として、これらの要件が実証された成功によって支持されます。 第2に、これらのIRとFRが現在DT内でどのように適用されているかを評価するために、さまざまな分野にわたる詳細な文献レビューを実施し、要求に基づくPMx DTの進展と成熟を支援するために、さらなる研究が必要な特定領域を特定できるようにする。

Recent digital advances have popularized predictive maintenance (PMx), offering enhanced efficiency, automation, accuracy, cost savings, and independence in maintenance processes. Yet, PMx continues to face numerous limitations such as poor explainability, sample inefficiency of data-driven methods, complexity of physics-based methods, and limited generalizability and scalability of knowledge-based methods. This paper proposes leveraging Digital Twins (DTs) to address these challenges and enable automated PMx adoption on a larger scale. While DTs have the potential to be transformative, they have not yet reached the maturity needed to bridge these gaps in a standardized manner. Without a standard definition guiding this evolution, the transformation lacks a solid foundation for development. This paper provides a requirement-based roadmap to support standardized PMx automation using DT technologies. Our systematic approach comprises two primary stages. First, we methodically identify the Informational Requirements (IRs) and Functional Requirements (FRs) for PMx, which serve as a foundation from which any unified framework must emerge. Our approach to defining and using IRs and FRs as the backbone of any PMx DT is supported by the proven success of these requirements as blueprints in other areas, such as product development in the software industry. Second, we conduct a thorough literature review across various fields to assess how these IRs and FRs are currently being applied within DTs, enabling us to identify specific areas where further research is needed to support the progress and maturation of requirement-based PMx DTs.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 入力凸長短期記憶ネットワークを用いた実時間機械学習に基づく最適化

Real-Time Machine-Learning-Based Optimization Using Input Convex Long Short-Term Memory Network ( http://arxiv.org/abs/2311.07202v6 )

ライセンス: Link先を確認
Zihao Wang, Donghan Yu, Zhe Wu, (参考訳) ニューラルネットワークに基づく最適化と制御手法(ブラックボックスアプローチと呼ばれることが多い)は、エネルギーや製造システム、特に第一原理モデルが利用できないか不正確な状況において、ますます注目を集めている。 しかし、その非凸性は最適化と制御プロセスを著しく遅くし、リアルタイムな意思決定プロセスにおけるアプリケーションを制限する。 この課題に対処するために、ニューラルネットワークに基づく最適化の計算効率を高めるために、新しい入力凸長短期記憶(IC-LSTM)ネットワークを提案する。 エネルギーと化学システムの最適化にリアルタイムニューラルネットワークを用いた2つのケーススタディを通じて、実行時のIC-LSTMに基づく最適化の優れた性能を実証する。 具体的には、シンガポールのLHTホールディングスの現実の太陽光発電システムのリアルタイム最適化問題において、IC-LSTMベースの最適化は従来のLSTMベースの最適化に比べて少なくとも4倍のスピードアップを達成した。 これらの結果は、実用的な応用において、ニューラルネットワークに基づく最適化と制御の効率を大幅に向上させるIC-LSTMネットワークの可能性を強調している。 ソースコードはhttps://github.com/killingbear999/ICLSTMで入手できる。

Neural network-based optimization and control methods, often referred to as black-box approaches, are increasingly gaining attention in energy and manufacturing systems, particularly in situations where first-principles models are either unavailable or inaccurate. However, their non-convex nature significantly slows down the optimization and control processes, limiting their application in real-time decision-making processes. To address this challenge, we propose a novel Input Convex Long Short-Term Memory (IC-LSTM) network to enhance the computational efficiency of neural network-based optimization. Through two case studies employing real-time neural network-based optimization for optimizing energy and chemical systems, we demonstrate the superior performance of IC-LSTM-based optimization in terms of runtime. Specifically, in a real-time optimization problem of a real-world solar photovoltaic energy system at LHT Holdings in Singapore, IC-LSTM-based optimization achieved at least 4-fold speedup compared to conventional LSTM-based optimization. These results highlight the potential of IC-LSTM networks to significantly enhance the efficiency of neural network-based optimization and control in practical applications. Source code is available at https://github.com/killingbear999/ICLSTM.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# 物理的に着想を得たフェルミオン・ツー・クビットマッピングによる絡み合いの低減

Reducing Entanglement With Physically-Inspired Fermion-To-Qubit Mappings ( http://arxiv.org/abs/2311.07409v3 )

ライセンス: Link先を確認
Teodor Parella-Dilmé, Korbinian Kottmann, Leonardo Zambrano, Luke Mortimer, Jakob S. Kottmann, Antonio Acín, (参考訳) ab-initio電子構造シミュレーションでは、フェルミオンからクォービットへの写像はフェルミオン問題の初期符号化ステップを表す。 この研究は、関心の状態をシミュレートする際の絡み合い要求を大幅に単純化する、マッピングを構築する物理的に着想を得た手法を導入する。 電子励起の存在はマッピングの構築を駆動し、キュービット空間におけるターゲット状態の相関を減少させる。 提案手法をベンチマークするために, 従来のマッピングを用いた従来の研究から得られた古典的, 量子的変動的アプローチと比較して, 小分子の基底状態のシミュレートを行い, 改良された性能を観察する。 特に量子側では、99LiH$, $H_2$, $(H_2)_2$, the $H_4$ stretching and benzene's {\pi} system using the RY hardware efficient ansatz の精度を達成するために、我々の写像はエンタングリング層の数を減らす必要がある。 さらに,N_2$分子に対する密度行列再正規化群アルゴリズムの基底状態シミュレーション性能も向上した。

In ab-initio electronic structure simulations, fermion-to-qubit mappings represent the initial encoding step of the fermionic problem into qubits. This work introduces a physically-inspired method for constructing mappings that significantly simplify entanglement requirements when simulating states of interest. The presence of electronic excitations drives the construction of our mappings, reducing correlations for target states in the qubit space. To benchmark our method, we simulate ground states of small molecules and observe an enhanced performance when compared to classical and quantum variational approaches from prior research employing conventional mappings. In particular, on the quantum side, our mappings require a reduced number of entangling layers to achieve accuracy for $LiH$, $H_2$, $(H_2)_2$, the $H_4$ stretching and benzene's {\pi} system using the RY hardware efficient ansatz. In addition, our mappings also provide an enhanced ground state simulation performance in the density matrix renormalization group algorithm for the $N_2$ molecule.
翻訳日:2024-09-11 23:44:54 公開日:2024-09-10
# フェルミオン型ニューラルネットワーク量子状態の統一的視点:ニューラルネットワークのバックフローから隠れフェルミオン決定状態へ

Unifying view of fermionic neural network quantum states: From neural network backflow to hidden fermion determinant states ( http://arxiv.org/abs/2311.09450v3 )

ライセンス: Link先を確認
Zejun Liu, Bryan K. Clark, (参考訳) フェルミオンハミルトニアンに対する変動波動関数のうち、ニューラルネットワーク逆流(NNBF)と隠れフェルミオン行列式(HFDS)は、基底状態に正確な近似を与える2つの顕著なクラスである。 ここでは、これら全てをNNBFの枠組みでキャストするフェルミオン性神経量子状態の統一的なビューを開発する。 NNBF波動関数は、ニューラルネットワークによってパラメータ化される構成依存の単一粒子軌道(SPO)を持つ。 我々は、$r$の隠れフェルミオンを持つHFDSを、$r \times r$ determinant Jastrowと制限付き低ランク$r$加法補正を備えたNNBFとして書けることを示す。 さらに、NNBF波動関数では、付加的なSPO補正をさらに複雑にすることで、そのような行列ジャストロウの値が$r$になるようにして一般化されることを示す。 2つの行列の内次元$r$の積から生成される加法的SPO補正を数値的に解析的に比較する。 より大きい$r$の波動関数はより大きな空間にまたがり、より単純で直接的なSPOの更新はより表現力があり、よりエネルギッシュなものであることを示す。 これらのことは、NNBFの標準的なアプローチが他の関連する選択肢に好まれていることを示唆している。 最後に, 単粒子軌道の選択に使用する行選択により, 近接配置間の有意な符号と振幅変調が可能であり, NNBFとHFDSの波動関数の品質に部分的に責任があることを明らかにする。

Among the variational wave functions for Fermionic Hamiltonians, neural network backflow (NNBF) and hidden fermion determinant states (HFDS) are two prominent classes to provide accurate approximations to the ground state. Here we develop a unifying view of fermionic neural quantum states casting them all in the framework of NNBF. NNBF wave-functions have configuration-dependent single-particle orbitals (SPO) which are parameterized by a neural network. We show that HFDS with $r$ hidden fermions can be written as a NNBF with an $r \times r$ determinant Jastrow and a restricted low-rank $r$ additive correction to the SPO. Furthermore, we show that in NNBF wave-functions, such determinant Jastrow's can generically be removed at the cost of further complicating the additive SPO correction increasing its rank by $r$. We numerically and analytically compare additive SPO corrections generated by the product of two matrices with inner dimension $r$. We find that larger $r$ wave-functions span a larger space and give evidence that simpler and more direct updates to the SPO's tend to be more expressive and better energetically. These suggest the standard NNBF approach is preferred amongst other related choices. Finally, we uncover that the row-selection used to select single-particle orbitals allows significant sign and amplitude modulation between nearby configurations and is partially responsible for the quality of NNBF and HFDS wave-functions.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 解釈可能な行動表現のための多意図逆Q-ラーニング

Multi-intention Inverse Q-learning for Interpretable Behavior Representation ( http://arxiv.org/abs/2311.13870v4 )

ライセンス: Link先を確認
Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria Kalweit, Ilka Diester, Joschka Boedecker, (参考訳) 自然意思決定プロセスの理解を深める過程で、逆強化学習(IRL)法は、複雑な行動に基づく動物の意図の再構築に役立っていることが証明されている。 近年、連続的マルチインテンションIRLフレームワークが開発されていることから、IRLによる個別の時間変化報酬を推測する調査が続けられている。 この課題に対処するために、階層的逆Q-ラーニング(HIQL)アルゴリズムのクラスを導入する。 HIQLは教師なしの学習プロセスを通じて、専門家の軌跡を複数の意図セグメントに分割し、それぞれ独立してIRL問題を解決する。 実験のシミュレーションと実際の動物行動データセットにHIQLを適用することで、動作予測の現在のベンチマークを上回り、解釈可能な報酬関数を生成する。 この結果から, 複雑な意思決定行動に基づく意図遷移のダイナミクスは, 滑らかに変化する関数ではなく, ステップ関数によってモデル化されることが示唆された。 この進歩は神経科学と認知科学の約束を守り、意思決定の深い理解と基礎となる脳機構の解明に寄与する。

In advancing the understanding of natural decision-making processes, inverse reinforcement learning (IRL) methods have proven instrumental in reconstructing animal's intentions underlying complex behaviors. Given the recent development of a continuous-time multi-intention IRL framework, there has been persistent inquiry into inferring discrete time-varying rewards with IRL. To address this challenge, we introduce the class of hierarchical inverse Q-learning (HIQL) algorithms. Through an unsupervised learning process, HIQL divides expert trajectories into multiple intention segments, and solves the IRL problem independently for each. Applying HIQL to simulated experiments and several real animal behavior datasets, our approach outperforms current benchmarks in behavior prediction and produces interpretable reward functions. Our results suggest that the intention transition dynamics underlying complex decision-making behavior is better modeled by a step function instead of a smoothly varying function. This advancement holds promise for neuroscience and cognitive science, contributing to a deeper understanding of decision-making and uncovering underlying brain mechanisms.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 反対スコア蒸留:スコア蒸留がGANに合うとき

Adversarial Score Distillation: When score distillation meets GAN ( http://arxiv.org/abs/2312.00739v2 )

ライセンス: Link先を確認
Min Wei, Jingkai Zhou, Junyao Sun, Xuesong Zhang, (参考訳) 既存のスコア蒸留法は,小さなCFGスケールで過度なスムーズ性や不安定性を示すとともに,大規模なCFGでは過飽和性を示す分類器フリーガイダンス(CFG)尺度に敏感である。 これらの問題を解析するために、スコア蒸留サンプリング(SDS)の導出を再検討し、既存のスコア蒸留をWasserstein Generative Adversarial Network(WGAN)パラダイムで解読する。 WGANのパラダイムでは、既存のスコア蒸留は固定された準最適判別器を使用するか、不完全判別器の最適化を行うかのいずれかで、スケールセンシティブな問題が発生する。 本稿では、最適な判別器を維持し、完全な最適化目標を用いて更新するASD(Adversarial Score Distillation)を提案する。 実験の結果,提案したASDは既存の方法に対して2次元蒸留およびテキスト・ツー・3次元タスクで良好に動作することがわかった。 さらに、WGANパラダイムの一般化能力を探求するため、画像編集タスクにASDを拡張し、競合する結果を得る。 プロジェクトページとコードはhttps://github.com/2y7c3/ASD。

Existing score distillation methods are sensitive to classifier-free guidance (CFG) scale: manifested as over-smoothness or instability at small CFG scales, while over-saturation at large ones. To explain and analyze these issues, we revisit the derivation of Score Distillation Sampling (SDS) and decipher existing score distillation with the Wasserstein Generative Adversarial Network (WGAN) paradigm. With the WGAN paradigm, we find that existing score distillation either employs a fixed sub-optimal discriminator or conducts incomplete discriminator optimization, resulting in the scale-sensitive issue. We propose the Adversarial Score Distillation (ASD), which maintains an optimizable discriminator and updates it using the complete optimization objective. Experiments show that the proposed ASD performs favorably in 2D distillation and text-to-3D tasks against existing methods. Furthermore, to explore the generalization ability of our WGAN paradigm, we extend ASD to the image editing task, which achieves competitive results. The project page and code are at https://github.com/2y7c3/ASD.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# ドメイン特化コード生成における大規模言語モデルの有効性について

On the Effectiveness of Large Language Models in Domain-Specific Code Generation ( http://arxiv.org/abs/2312.01639v5 )

ライセンス: Link先を確認
Xiaodong Gu, Meng Chen, Yalan Lin, Yuhan Hu, Hongyu Zhang, Chengcheng Wan, Zhao Wei, Yong Xu, Juhong Wang, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。 大きな成果にもかかわらず、彼らは広い範囲のオープンドメイン知識を取得するために巨大なトレーニングデータに依存している。 彼らの評価は、主にプログラミングコンテストで構成されるHumanEvalのようなオープンドメインベンチマークを中心に展開されている。 したがって、特定の領域(例えば、ウェブ、ゲーム、数学)に関連する複雑さと課題を完全に特徴づけるのは困難である。 本稿では,ドメイン固有コード生成におけるLLMの詳細な研究を行う。 その結果, LLMは, ドメイン固有ライブラリの利用能力に限界があるため, ドメイン固有コードの生成において, サブ最適性能を示すことがわかった。 さらに、API知識をプロンプトとして組み込むことで、LCMがよりプロフェッショナルなコードを生成することができることを観察する。 これらの知見に基づいて,コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。 ドメイン知識、すなわち外部知識の問い合わせ、思考の連鎖、思考の連鎖、微調整の3つの戦略を実験的に検討した。 私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。 実験結果から,DomCoderのすべての戦略が,特定の設定下でのドメイン固有コード生成の有効性の向上につながることが示された。

Large language models (LLMs) such as ChatGPT have shown remarkable capabilities in code generation. Despite significant achievements, they rely on enormous training data to acquire a broad spectrum of open-domain knowledge. Besides, their evaluation revolves around open-domain benchmarks like HumanEval, which primarily consist of programming contests. Therefore, it is hard to fully characterize the intricacies and challenges associated with particular domains (e.g., web, game, and math). In this paper, we conduct an in-depth study of the LLMs in domain-specific code generation. Our results demonstrate that LLMs exhibit sub-optimal performance in generating domain-specific code, due to their limited proficiency in utilizing domain-specific libraries. We further observe that incorporating API knowledge as prompts can empower LLMs to generate more professional code. Based on these findings, we further investigate how to effectively incorporate API knowledge into the code generation process. We experiment with three strategies for incorporating domain knowledge, namely, external knowledge inquirer, chain-of-thought prompting, and chain-of-thought fine-tuning. We refer to these strategies as a new code generation approach called DomCoder. Experimental results show that all strategies of DomCoder lead to improvement in the effectiveness of domain-specific code generation under certain settings.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v6 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Anh Tran, (参考訳) テキストプロンプトから高解像度で多様な画像を生成する能力があるにもかかわらず、テキストから画像への拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。 モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。 しかし, 従来の蒸留法では, 実際のデータから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。 この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。 入力プロンプトと整合する3次元ニューラルラディアンス場を,任意の3次元データ基底構造を使わずに,事前に2次元のテキスト・ツー・イメージ拡散から得ることができるテキスト・トゥ・3D合成からインスピレーションを得て,本手法では,事前学習した複数ステップのテキスト・ツー・イメージモデルを,単一の推論ステップで高忠実度画像を生成することができる学生ネットワークに抽出するのと同じ損失を生かした。 その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。 注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# vTrain: コスト効率とコンピュータ最適大言語モデルトレーニングを評価するためのシミュレーションフレームワーク

vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training ( http://arxiv.org/abs/2312.12391v2 )

ライセンス: Link先を確認
Jehyeon Bang, Yujeong Choi, Myeongwoo Kim, Yongdeok Kim, Minsoo Rhu, (参考訳) 大規模言語モデル(LLM)がさまざまなアプリケーションドメインで普及するにつれ、AIコミュニティが直面している重要な課題は、これらの大きなAIモデルをコスト効率のよい方法でトレーニングする方法である。 既存のLLM訓練計画では、LLM並列化の探索空間を徹底的に検討するよりも、経験的観察に基づくヒューリスティックな並列訓練戦略が一般的である。 このような制限は、既存のシステムに大きなパフォーマンスを残し、数百万ドル相当のトレーニングコストを無駄にします。 本稿では、プロファイリング駆動シミュレータvTrainを提案し、AI実践者が高速かつ正確なソフトウェアフレームワークを提供し、効率よく費用対効果の高いLCMトレーニングシステム構成を決定する。 例えば、トレーニング時間と関連するトレーニングコストのバランスをとる最適なトレーニング並列化戦略を効果的に評価し、複数のLLMトレーニングジョブをターゲットにした効率的なマルチテナントGPUクラスタスケジューラ、固定された計算予算を与えられた計算最適LLMモデルアーキテクチャを決定する。

As large language models (LLMs) become widespread in various application domains, a critical challenge the AI community is facing is how to train these large AI models in a cost-effective manner. Existing LLM training plans typically employ a heuristic based parallel training strategy which is based on empirical observations rather than grounded upon a thorough examination of the search space of LLM parallelization. Such limitation renders existing systems to leave significant performance left on the table, wasting millions of dollars worth of training cost. This paper presents our profiling-driven simulator called vTrain, providing AI practitioners a fast yet accurate software framework to determine an efficient and cost-effective LLM training system configuration. We demonstrate vTrain's practicality through several case studies, e.g., effectively evaluating optimal training parallelization strategies that balances training time and its associated training cost, efficient multi-tenant GPU cluster schedulers targeting multiple LLM training jobs, and determining a compute-optimal LLM model architecture given a fixed compute budget.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 単純再正規化戦略によるシャープネス認識最小化の安定化

Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy ( http://arxiv.org/abs/2401.07250v2 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, Junmin Liu, Yicheng Wang, Yunda Hao, (参考訳) 近年,一般化性能の向上に驚くべき効果があるため,シャープネス認識最小化(SAM)が注目されている。 しかし、確率勾配降下 (SGD) に比べ、サドル点で立ち往生する傾向が強く、結果として性能劣化につながる可能性がある。 この問題に対処するため,SSAM (Stable SAM) と呼ばれる単純な再正規化戦略を提案する。 我々の戦略は実装が容易で、SAMとその変種と統合するのに十分な柔軟性があり、ほとんど計算コストがかからない。 凸最適化と学習理論の基本的なツールを用いて、シャープネスを意識した学習の理論的解析を行い、SGDと比較してSAMの有効性は学習率の限られた条件下でのみ保証されることを示した。 対照的に、SSAMは、この学習率の仕組みをいかに拡張し、小さな修正でSAMよりも一貫して性能を向上するかを示す。 最後に,複数の代表的データセットとタスクにおけるSSAMの性能向上を示す。

Recently, sharpness-aware minimization (SAM) has attracted much attention because of its surprising effectiveness in improving generalization performance. However, compared to stochastic gradient descent (SGD), it is more prone to getting stuck at the saddle points, which as a result may lead to performance degradation. To address this issue, we propose a simple renormalization strategy, dubbed Stable SAM (SSAM), so that the gradient norm of the descent step maintains the same as that of the ascent step. Our strategy is easy to implement and flexible enough to integrate with SAM and its variants, almost at no computational cost. With elementary tools from convex optimization and learning theory, we also conduct a theoretical analysis of sharpness-aware training, revealing that compared to SGD, the effectiveness of SAM is only assured in a limited regime of learning rate. In contrast, we show how SSAM extends this regime of learning rate and then it can consistently perform better than SAM with the minor modification. Finally, we demonstrate the improved performance of SSAM on several representative data sets and tasks.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 文脈感性モデルのアンサンブルを用いた画像類似性

Image Similarity using An Ensemble of Context-Sensitive Models ( http://arxiv.org/abs/2401.07951v2 )

ライセンス: Link先を確認
Zukang Liao, Min Chen, (参考訳) 画像の類似性はコンピュータビジョンで広く研究されている。 近年、機械学習モデルは、従来の多変量メトリクスよりも多くの意味論をエンコードする能力を示している。 しかし、セマンティック類似性のラベル付けでは、数値スコアを一対のイメージに割り当てるのは現実的ではないため、タスクの改善と比較が困難になる。 本研究では,A:R対B:Rというラベル付きデータに基づく画像類似性モデルの構築と比較を行う,より直感的なアプローチを提案する。すなわち,画像Aが参照画像Rに近づくかどうかを判断する。 実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも約5%高い性能を示した。 また、混合画像データと既存のディープ埋め込み(例えば、CLIP、DINO)を使って直接微調整されたモデルよりも優れたパフォーマンスを実現した。 この研究は、スパースサンプリングによる制限を緩和するために適切なアンサンブルアプローチを用いる場合、コンテキストベースのラベリングとモデルトレーニングが有効であることを示す。

Image similarity has been extensively studied in computer vision. In recent years, machine-learned models have shown their ability to encode more semantics than traditional multivariate metrics. However, in labelling semantic similarity, assigning a numerical score to a pair of images is impractical, making the improvement and comparisons on the task difficult. In this work, we present a more intuitive approach to build and compare image similarity models based on labelled data in the form of A:R vs B:R, i.e., determining if an image A is closer to a reference image R than another image B. We address the challenges of sparse sampling in the image space (R, A, B) and biases in the models trained with context-based data by using an ensemble model. Our testing results show that the ensemble model constructed performs ~5% better than the best individual context-sensitive models. They also performed better than the models that were directly fine-tuned using mixed imagery data as well as existing deep embeddings, e.g., CLIP and DINO. This work demonstrates that context-based labelling and model training can be effective when an appropriate ensemble approach is used to alleviate the limitation due to sparse sampling.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# Make-A-Shape:10ミリスケール3次元形状モデル

Make-A-Shape: a Ten-Million-scale 3D Shape Model ( http://arxiv.org/abs/2401.11067v2 )

ライセンス: Link先を確認
Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu, (参考訳) 自然言語と画像の大規模な生成モデルの訓練において重要な進展が見られた。 しかし、3D生成モデルの進歩は、非効率性、非コンパクト性、表現力の低い表現とともに、トレーニングのための実質的なリソース要求によって妨げられている。 本稿では,1000万個の公用形状を有効活用できる3D生成モデルであるMake-A-Shapeを紹介する。 技術的には、我々はまずウェーブレットツリー表現を革新してコンパクトに形状を符号化し、サブバンド係数フィルタリングスキームを定式化し、係数関係を効率的に活用する。 次に,低分解能グリッドで表現をレイアウトするサブバンド係数パッキング方式を考案し,拡散モデルにより表現を生成可能とする。 さらに,粗いウェーブレット係数と細かなウェーブレット係数を効果的に学習するために,サブバンド適応型トレーニング戦略を導出する。 最後に、追加の入力条件でフレームワークを制御できるように拡張し、例えば、単一/複数ビューの画像、点雲、低解像度のボクセルから形状を生成できるようにします。 広範に実験を行った結果,無条件生成,形状完備化,条件生成など,様々な応用を多岐にわたるモダリティで実証した。 われわれの手法は、高品質な結果を提供するための最先端技術を上回るだけでなく、数秒で効率的に形状を生成でき、ほとんどの条件でたった2秒で達成できる。 ソースコードはhttps://github.com/AutodeskAILab/Make-a-Shape.comで公開されています。

Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions. Our source code is available at https://github.com/AutodeskAILab/Make-a-Shape.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 事前認識復号化によるLMにおけるディトラクタタスクの影響の緩和

Mitigating the Influence of Distractor Tasks in LMs with Prior-Aware Decoding ( http://arxiv.org/abs/2401.17692v2 )

ライセンス: Link先を確認
Raymond Douglas, Andis Draguns, Tomáš Gavenčiak, (参考訳) 言語モデル(LM)の幅広い能力は、邪魔なタスクに対する感受性によって制限することができる: LMは、意図したタスクに加えてプロンプトから二次的なタスクを推測することができ、望ましくない出力をもたらす。 例えば、プロンプトインジェクション攻撃は、モデルを明示的な指示から逸脱させる可能性がある。 いくつかの'逆スケーリング'ケースでは、モデルが少なくとも540Bパラメータまでスケールするにつれて、この望ましくない振る舞いが実際に悪化します。 本稿では,複数のデータ生成プロセスを組み合わせた専門家の積として,LMを解釈する理論的枠組みを提案する。 このフレームワークをベースとして,注意散らしタスクの影響を低減するための単純なコントラスト推論手法である事前認識復号法(PAD)を実証する。 PADを4つのデータセットにわたる11のモデルに適用し、44のタスクモデル組み合わせのうち41の改善点を見つけ、タスク完了率の中央値が40%向上した。 この結果は、より信頼性の高い言語モデルに向けたさらなる開発に向けての有望な方向性を示唆している。

The broad capabilities of Language Models (LMs) can be limited by their sensitivity to distractor tasks: LMs can infer secondary tasks from the prompt in addition to the intended one, leading to unwanted outputs. For example, prompt injection attacks can cause models to deviate from explicit directives. In some 'inverse scaling' cases, this unwanted behaviour actually worsens as models scale up to at least 540B parameters. We present a theoretical framework that interprets LMs as a product of experts that combine multiple data generation processes. Based on this framework, we demonstrate prior-aware decoding (PAD) - a simple contrastive inference method to reduce the influence of distractor tasks. We apply PAD to eleven models, across four datasets, and find improvements in 41 out of 44 task-model combinations, with a median increase in task completion proportion of 40%. The results suggest a promising direction for further development towards more reliable language models.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 動的ポートフォリオリスク管理のための深層強化学習によるマルチエージェント・自己適応型フレームワークの開発

Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management ( http://arxiv.org/abs/2402.00515v4 )

ライセンス: Link先を確認
Zhenglong Li, Vincent Tam, Kwan L. Yeung, (参考訳) 近年、高度に乱暴な金融市場環境下で、ポートフォリオ管理のための新たな投資戦略を迅速に学習し、対応するために、Deep or reinforcement Learning(RL)アプローチがリアクティブエージェントとして採用されている。 金融セクター間の非常に複雑な相関関係や、異なる金融市場の変動傾向により、グローバルまたは地域セクターの様々な市場条件の混乱の下で潜在的なリスクを無視しつつ、新たに構成された投資ポートフォリオの総リターンを最大化する際に、深層学習又は強化学習に基づくエージェントに偏りが生じることが多い。 したがって、マルチエージェントで自己適応的なフレームワークであるMASAは、2つの協調および反応性エージェントを通じて洗練されたマルチエージェント強化学習(RL)アプローチを採用し、ポートフォリオ全体のリターンと潜在的なリスクの間のトレードオフを慎重に動的にバランスさせる。 さらに、市場オブザーバとしての非常にフレキシブルで積極的なエージェントがMASAフレームワークに統合され、市場状況の変化に迅速に適応するために、マルチエージェントRLアプローチの貴重なフィードバックとして、市場動向に関する追加情報を提供する。 その結果,過去10年間のCSI 300, Dow Jones Industrial Average, S&P 500 インデックスの挑戦的データセットに対する多くの有名な RL アプローチに対するマルチエージェント RL アプローチに基づいて,提案した MASA フレームワークの潜在的強みを明らかにした。 さらに重要なことは、我々の提案したMASAフレームワークが将来の調査のために多くの可能性の方向を明かしたことです。

Deep or reinforcement learning (RL) approaches have been adapted as reactive agents to quickly learn and respond with new investment strategies for portfolio management under the highly turbulent financial market environments in recent years. In many cases, due to the very complex correlations among various financial sectors, and the fluctuating trends in different financial markets, a deep or reinforcement learning based agent can be biased in maximising the total returns of the newly formulated investment portfolio while neglecting its potential risks under the turmoil of various market conditions in the global or regional sectors. Accordingly, a multi-agent and self-adaptive framework namely the MASA is proposed in which a sophisticated multi-agent reinforcement learning (RL) approach is adopted through two cooperating and reactive agents to carefully and dynamically balance the trade-off between the overall portfolio returns and their potential risks. Besides, a very flexible and proactive agent as the market observer is integrated into the MASA framework to provide some additional information on the estimated market trends as valuable feedbacks for multi-agent RL approach to quickly adapt to the ever-changing market conditions. The obtained empirical results clearly reveal the potential strengths of our proposed MASA framework based on the multi-agent RL approach against many well-known RL-based approaches on the challenging data sets of the CSI 300, Dow Jones Industrial Average and S&P 500 indexes over the past 10 years. More importantly, our proposed MASA framework shed lights on many possible directions for future investigation.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 大規模言語モデルは独立因果メカニズムを学習できるか?

Can Large Language Models Learn Independent Causal Mechanisms? ( http://arxiv.org/abs/2402.02636v2 )

ライセンス: Link先を確認
Gaël Gendron, Bao Trung Nguyen, Alex Yuxuan Peng, Michael Witbrock, Gillian Dobbie, (参考訳) 言語モデリングと複雑な推論タスクにおける優れたパフォーマンスにもかかわらず、Large Language Models(LLM)は、一般的でない設定や分散シフトで同じタスクに不足しており、一般化能力の欠如を示している。 対照的に、抽象変数や因果関係を学習する因果モデルのようなシステムは、分布の変化に対するロバスト性を高めることができる。 この成功の1つの理由は、独立因果メカニズム(ICMs)の存在と使用であり、緩やかな相互作用しか持たない高レベルの概念である。 本研究では、因果性から2つの概念を適用し、LCM内でICMを学習する。 我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。 このような因果的制約は、抽象的および因果的推論タスクにおけるアウト・オブ・ディストリビューション性能を向上させることができることを示す。 また、独立性とドメインの特殊化のレベルについても検討し、LLMが微調整に耐性のある事前訓練された部分的ドメイン不変機構に依存していることを示す。

Despite impressive performance on language modelling and complex reasoning tasks, Large Language Models (LLMs) fall short on the same tasks in uncommon settings or with distribution shifts, exhibiting a lack of generalisation ability. By contrast, systems such as causal models, that learn abstract variables and causal relationships, can demonstrate increased robustness against changes in the distribution. One reason for this success is the existence and use of Independent Causal Mechanisms (ICMs) representing high-level concepts that only sparsely interact. In this work, we apply two concepts from causality to learn ICMs within LLMs. We develop a new LLM architecture composed of multiple sparsely interacting language modelling modules. We show that such causal constraints can improve out-of-distribution performance on abstract and causal reasoning tasks. We also investigate the level of independence and domain specialisation and show that LLMs rely on pre-trained partially domain-invariant mechanisms resilient to fine-tuning.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# 分散秘密データに対する条件平均処理効果の推定

Estimation of conditional average treatment effects on distributed confidential data ( http://arxiv.org/abs/2402.02672v3 )

ライセンス: Link先を確認
Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai, (参考訳) 条件付き平均治療効果(CATE)の推定は、科学において重要なトピックである。 複数のパーティにわたる分散データが集中できる場合、CATEは高い精度で推定できる。 しかし、機密やプライバシー上の懸念から、このようなデータを集約することは困難である。 この問題に対処するために、分散データから構築されたプライバシー保護融合データからCATEモデルを推定する手法であるデータコラボレーションダブル機械学習を提案し、シミュレーションにより評価した。 私たちの貢献は以下の3つの点で要約されている。 まず,分散データ上で反復的な通信を行うことなく,半パラメトリックCATEモデルの推定とテストを可能にする。 我々の半パラメトリックCATE法は、パラメトリック法よりも誤特定をモデル化する上で堅牢な推定と試験を可能にする。 第2に,知識ベースを蓄積することにより,複数時点間の協調的推定を可能にする。 第3に,本手法は,合成,半合成,実世界のデータセットを用いたシミュレーションにおいて,他の手法と等しくあるいは同等に動作する。

Estimation of conditional average treatment effects (CATEs) is an important topic in sciences. CATEs can be estimated with high accuracy if distributed data across multiple parties can be centralized. However, it is difficult to aggregate such data owing to confidential or privacy concerns. To address this issue, we proposed data collaboration double machine learning, a method that can estimate CATE models from privacy-preserving fusion data constructed from distributed data, and evaluated our method through simulations. Our contributions are summarized in the following three points. First, our method enables estimation and testing of semi-parametric CATE models without iterative communication on distributed data. Our semi-parametric CATE method enable estimation and testing that is more robust to model mis-specification than parametric methods. Second, our method enables collaborative estimation between multiple time points and different parties through the accumulation of a knowledge base. Third, our method performed equally or better than other methods in simulations using synthetic, semi-synthetic and real-world datasets.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# コヒーレント衝突デコヒーレンス

Coherent collisional decoherence ( http://arxiv.org/abs/2402.03421v2 )

ライセンス: Link先を確認
Leonardo Badurina, Clara Murgui, Ryan Plestid, (参考訳) バックグラウンドガスとのコヒーレント散乱による非相互作用重粒子(原子)系のデコヒーレンスについて検討した。 我々は、$N$粒子量子状態の任意の準備のために、誘導位相シフトとコントラストの損失を計算するためのフレームワークを導入する。 我々は本質的に$(N\geq 2)$-body効果であり、将来の実験で探索される相転移を見つける。 干渉計の2モード近似を含む簡単な設定を解析する。 物質干渉計の相関位置に類似した完全絡み合った$N00N$状態と、原子干渉計の典型的な状態を表す全く相関のない生成状態について検討する。 その結果,コヒーレント強化の程度がデコヒーレンス率を増加させる程度は,関心の観測可能性,状態準備,実験設計の詳細に依存することがわかった。 将来のウルトラロー・リコイル(e.g.軽暗黒物質)は原子干渉計で探索すると、次のように結論する: 標準(コントラスト/可視性と位相)干渉計を用いて探索できるコヒーレントに強化された散乱位相が存在する; ワンボディ観測器のデコヒーレンス速度はコヒーレントに強化されているが、コントラストの連続的に強化された損失は相反から生じ得る; 高い統計モーメント(計数実験ですぐにアクセス可能)はコヒーレントに強化され、また実験室で非破壊的な散乱を探索するための新しいツールを提供する。

We study the decoherence of a system of $N$ non-interacting heavy particles (atoms) due to coherent scattering with a background gas. We introduce a framework for computing the induced phase shift and loss of contrast for arbitrary preparations of $N$-particle quantum states. We find phase shifts that are inherently $(N\geq 2)$-body effects and may be searched for in future experiments. We analyze simple setups, including a two-mode approximation of an interferometer. We study fully entangled $N00N$ states, which resemble the correlated positions in a matter interferometer, as well as totally uncorrelated product states that are representative of a typical state in an atom interferometer. We find that the extent to which coherent enhancements increase the rate of decoherence depends on the observable of interest, state preparation, and details of the experimental design. In the context of future ultralow-recoil (e.g., light dark matter) searches with atom interferometers we conclude that: {\it i}) there exists a coherently enhanced scattering phase which can be searched for using standard (i.e., contrast/visibility and phase) interferometer observables; {\it ii}) although decoherence rates of one-body observables are {\it not} coherently enhanced, a coherently enhanced loss of contrast can still arise from dephasing; and {\it iii}) higher statistical moments (which are immediately accessible in a counting experiment) {\it are} coherently enhanced and may offer a new tool with which to probe the soft scattering of otherwise undetectable particles in the laboratory.
翻訳日:2024-09-11 23:35:05 公開日:2024-09-10
# ステレオビジョンのための6次元オブジェクト空間推定器の拡張

Extending 6D Object Pose Estimators for Stereo Vision ( http://arxiv.org/abs/2402.05610v2 )

ライセンス: Link先を確認
Thomas Pöllabauer, Jan Emrich, Volker Knauthe, Arjan Kuijper, (参考訳) オブジェクトの6Dポーズを正確に、素早く、頑健に見積もるのは難しい作業です。 しかし,RGB画像からのポーズを高密度特徴量で直接退避させる手法は,最先端の成果を上げている。 オブジェクトに対する追加的な視点を提供するステレオビジョンは、ポーズのあいまいさとオクルージョンを減らすのに役立つ。 さらに、ステレオはオブジェクトの距離を直接推測することができ、一方モノビジョンはオブジェクトのサイズに関する内部知識を必要とする。 6Dオブジェクトにおける最先端のポーズ推定をステレオに拡張するために,YCB-VデータセットのBOP互換ステレオバージョンを作成した。 本手法はステレオビジョンを利用して最先端の6Dポーズ推定アルゴリズムより優れており,他の高密度特徴ベースアルゴリズムにも容易に適用できる。

Estimating the 6D pose of objects accurately, quickly, and robustly remains a difficult task. However, recent methods for directly regressing poses from RGB images using dense features have achieved state-of-the-art results. Stereo vision, which provides an additional perspective on the object, can help reduce pose ambiguity and occlusion. Moreover, stereo can directly infer the distance of an object, while mono-vision requires internalized knowledge of the object's size. To extend the state-of-the-art in 6D object pose estimation to stereo, we created a BOP compatible stereo version of the YCB-V dataset. Our method outperforms state-of-the-art 6D pose estimation algorithms by utilizing stereo vision and can easily be adopted for other dense feature-based algorithms.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# Robertson, Maccone-Pati, Robertson-Schrödinger不確実性関係による開量子力学のトレードオフ関係

Tradeoff relations in open quantum dynamics via Robertson, Maccone-Pati, and Robertson-Schrödinger uncertainty relations ( http://arxiv.org/abs/2402.09680v2 )

ライセンス: Link先を確認
Tomohiro Nishiyama, Yoshihiko Hasegawa, (参考訳) ハイゼンベルクの不確実性関係は、ロバートソンの一般化とともに、量子力学の基本的な概念として機能し、可観測物の非可換対を正確に測定することはできないことを示す。 本研究では,オープン量子力学における一連の熱力学的不確実性関係と量子速度制限の確立において,ロバートソン型不確実性関係が有効であることを示す。 この導出は、量子連続測定の時間進化を系と場の時間進化にマッピングするスケールした連続行列積状態表現を利用する。 具体的には、ロバーソンの不確実性関係の洗練であるマッコーネ・パティの不確実性関係を熱力学的不確実性関係と量子速度制限を導出する。 これらの新たに導出された関係は、初期状態に直交する状態を使い、以前に知られていた境界よりも厳密な境界を生じる。 さらに、Robertson-Schr\"odingerの不確実性を考える。 我々の発見は、ロバートソン型不確実性関係の重要性を補強するだけでなく、開量子力学における不確実性関係の同定にも適用性を広げた。

The Heisenberg uncertainty relation, together with Robertson's generalisation, serves as a fundamental concept in quantum mechanics, showing that noncommutative pairs of observables cannot be measured precisely. In this study, we explore the Robertson-type uncertainty relations to demonstrate their effectiveness in establishing a series of thermodynamic uncertainty relations and quantum speed limits in open quantum dynamics. The derivation utilises a scaled continuous matrix product state representation that maps the time evolution of the quantum continuous measurement to the time evolution of the system and field. Specifically, we consider the Maccone-Pati uncertainty relation, a refinement of the Robertson uncertainty relation, to derive thermodynamic uncertainty relations and quantum speed limits. These newly derived relations, which use a state orthogonal to the initial state, yield bounds that are tighter than previously known bounds. Moreover, we consider the Robertson-Schr\"odinger uncertainty, which extends the Robertson uncertainty relation. Our findings not only reinforce the significance of the Robertson-type uncertainty relations, but also expand its applicability in identifying uncertainty relations in open quantum dynamics.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# 低照度インスタンスセグメンテーションのための特徴空間におけるマルチスケールDenoising

Multi-Scale Denoising in the Feature Space for Low-Light Instance Segmentation ( http://arxiv.org/abs/2402.18307v2 )

ライセンス: Link先を確認
Joanne Lin, Nantheera Anantrasirichai, David Bull, (参考訳) 低光度画像のインスタンスセグメンテーションは、例えば、低光子数、色歪み、コントラストの減少によるショットノイズなど、そのような条件によって課される課題により、ほとんど未解明のままである。 本稿では,この課題に対処するエンド・ツー・エンドのソリューションを提案する。 提案手法は特徴抽出器に重み付けされた非局所ブロック(wNLB)を実装する。 この統合により、機能レベルで固有のデノベーションプロセスが可能になる。 その結果,本手法は,実世界の低照度データセットのトレーニングを支援するため,トレーニング中の地上の真実画像の整合性を排除した。 ネットワークの現実的なノイズ特性への適応性を高めるために,各層に学習可能な重みを導入する。 いくつかの物体検出器による実験結果から、提案手法は、平均精度(AP)が少なくとも7.6以上向上し、さらに最大+1.3までAPを向上することを示した。

Instance segmentation for low-light imagery remains largely unexplored due to the challenges imposed by such conditions, for example shot noise due to low photon count, color distortions and reduced contrast. In this paper, we propose an end-to-end solution to address this challenging task. Our proposed method implements weighted non-local blocks (wNLB) in the feature extractor. This integration enables an inherent denoising process at the feature level. As a result, our method eliminates the need for aligned ground truth images during training, thus supporting training on real-world low-light datasets. We introduce additional learnable weights at each layer in order to enhance the network's adaptability to real-world noise characteristics, which affect different feature scales in different ways. Experimental results on several object detectors show that the proposed method outperforms the pretrained networks with an Average Precision (AP) improvement of at least +7.6, with the introduction of wNLB further enhancing AP by upto +1.3.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# 大域フェルミオン対称性を持つれんが壁量子回路

Brick Wall Quantum Circuits with Global Fermionic Symmetry ( http://arxiv.org/abs/2402.18440v4 )

ライセンス: Link先を確認
Pietro Richelli, Kareljan Schoutens, Alberto Zorzato, (参考訳) 大域フェルミオン対称性を享受するレンガ壁量子回路について検討する。 構成2量子ゲートとそのフェルミオン対称性は、1+1次元の可積分超対称性量子場理論における2粒子散乱行列に由来する。 我々の2量子ゲートは3つの自由パラメータの関数として、いわゆるフリーフェルミオンあるいはマッチゲート形式であり、レンガの壁のユニタリ$U_F$とその非自明なハミルトニアン極限$H_{\gamma}$のスペクトル構造を閉形式で導出することができる。 フェルミオン対称性は臨界点の曲面に$H_{\gamma}$をピンするのに対して、対称性を破ると非自明な位相となる。 本稿では,この回路のクエンチダイナミクスについて概説する。

We study brick wall quantum circuits enjoying a global fermionic symmetry. The constituent 2-qubit gate, and its fermionic symmetry, derive from a 2-particle scattering matrix in integrable, supersymmetric quantum field theory in 1+1 dimensions. Our 2-qubit gate, as a function of three free parameters, is of so-called free fermionic or matchgate form, allowing us to derive the spectral structure of both the brick wall unitary $U_F$ and its, non-trivial, hamiltonian limit $H_{\gamma}$ in closed form. We find that the fermionic symmetry pins $H_{\gamma}$ to a surface of critical points, whereas breaking that symmetry leads to non-trivial topological phases. We briefly explore quench dynamics for this class of circuits.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# 局所想像時間プロパゲータの量子テンソルトレイン表現のコンパクト性

Compactness of quantics tensor train representations of local imaginary-time propagators ( http://arxiv.org/abs/2403.09161v2 )

ライセンス: Link先を確認
Haruto Takahashi, Rihito Sakurai, Hiroshi Shinaoka, (参考訳) 量子テンソルトレイン (QTT) [Phys] を用いて, 実時間プロパゲータの時空間依存性と, 量子場理論に基づく多体計算が可能であることを明らかにした。 X {\bf 13}, 021015 (2023)] しかし、温度などのシステムパラメータがデータサイズに与える影響は未調査のままである。 本稿では,1時間/周波数オブジェクトと2時間/周波数オブジェクトに対するQTTにおける局所的想像時間プロパゲータのコンパクト性について,フロベニウスや最大ノルムの点数を考慮した総合的数値解析を行う。 最悪の場合のシナリオを調査するために、逆温度と係数がランダムで、極の数が対数的に増加するランダムポールモデルを用いる。 これらのモデルによって生成されたグリーン関数は、物理系のものよりも圧縮が難しいと期待されている。 数値解析により、これらのプロパゲータはQTTにおいて高い圧縮性を示し、中間表現や離散リーマン表現のような最先端のアプローチよりも優れていることが示された。 1時間/周波数オブジェクトと2時間/周波数オブジェクトの場合、結合次元は低温で飽和する。 単時間/周波数オブジェクトに対する結合次元の飽和に関するカウント数論証を提供するが、この飽和の起源は明らかになっていない。 本研究は, 提案手法の選択, 許容度, 虚構時間と虚構周波数の表現の選択について, さらなる研究の必要性を明らかにするものである。

Space-time dependence of imaginary-time propagators, vital for \textit{ab initio} and many-body calculations based on quantum field theories, has been revealed to be compressible using Quantum Tensor Trains (QTTs) [Phys. Rev. X {\bf 13}, 021015 (2023)]. However, the impact of system parameters, like temperature, on data size remains underexplored. This paper provides a comprehensive numerical analysis of the compactness of local imaginary-time propagators in QTT for one-time/-frequency objects and two-time/-frequency objects, considering truncation in terms of the Frobenius and maximum norms. To study worst-case scenarios, we employ random pole models, where the number of poles grows logarithmically with the inverse temperature and coefficients are random. The Green's functions generated by these models are expected to be more difficult to compress than those from physical systems. The numerical analysis reveals that these propagators are highly compressible in QTT, outperforming the state-of-the-art approaches such as intermediate representation and discrete Lehmann representation. For one-time/-frequency objects and two-time/-frequency objects, the bond dimensions saturate at low temperatures, especially for truncation in terms of the Frobenius norm. We provide counting-number arguments for the saturation of bond dimensions for the one-time/-frequency objects, while the origin of this saturation for two-time/-frequency objects remains to be clarified. This paper's findings highlight the critical need for further research on the selection of truncation methods, tolerance levels, and the choice between imaginary-time and imaginary-frequency representations in practical applications.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# RangeLDM: 高速リアルなLiDARポイントクラウド生成

RangeLDM: Fast Realistic LiDAR Point Cloud Generation ( http://arxiv.org/abs/2403.10094v2 )

ライセンス: Link先を確認
Qianjiang Hu, Zhimin Zhang, Wei Hu, (参考訳) 自動運転は高品質なLiDARデータを必要とするが、物理的LiDARセンサーのコストは、大きなスケールアップ課題をもたらす。 近年、この問題に対処するための深層生成モデルの研究が行われているが、現実主義の欠如に悩まされながら、生成速度の遅い計算資源をしばしば消費している。 これらの制約に対処するために、潜伏拡散モデルを用いて高品質のLiDAR点雲を高速に生成するための新しいアプローチであるRangeLDMを導入する。 本研究では,点雲からHough投票による範囲画像への正確な投影のための範囲ビューデータ分布を補正し,生成学習に重要な影響を及ぼす。 次に、変分オートエンコーダを用いてレンジ画像を潜在空間に圧縮し、拡散モデルを利用して表現性を高める。 さらに、レンジ誘導型判別器を考案し、3次元構造的忠実性を維持するようモデルに指示する。 KITTI-360とnuScenesデータセットの実験結果は、当社のLiDAR点雲生成の堅牢性および高速性を実証している。

Autonomous driving demands high-quality LiDAR data, yet the cost of physical LiDAR sensors presents a significant scaling-up challenge. While recent efforts have explored deep generative models to address this issue, they often consume substantial computational resources with slow generation speeds while suffering from a lack of realism. To address these limitations, we introduce RangeLDM, a novel approach for rapidly generating high-quality range-view LiDAR point clouds via latent diffusion models. We achieve this by correcting range-view data distribution for accurate projection from point clouds to range images via Hough voting, which has a critical impact on generative learning. We then compress the range images into a latent space with a variational autoencoder, and leverage a diffusion model to enhance expressivity. Additionally, we instruct the model to preserve 3D structural fidelity by devising a range-guided discriminator. Experimental results on KITTI-360 and nuScenes datasets demonstrate both the robust expressiveness and fast speed of our LiDAR point cloud generation.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# ViSaRL:人力による視覚強化学習

ViSaRL: Visual Reinforcement Learning Guided by Human Saliency ( http://arxiv.org/abs/2403.10940v2 )

ライセンス: Link先を確認
Anthony Liang, Jesse Thomason, Erdem Bıyık, (参考訳) 強化学習(RL)を用いた高次元画素入力から複雑な制御タスクを行うための訓練ロボットは、画像観察が主にタスク非関連情報から成り立っているため、サンプル非効率である。 対照的に、人間は視覚的にタスク関連物や領域に出席することができる。 この知見に基づき,ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。 ViSaRLを用いて視覚表現を学習することで、DeepMind Controlベンチマーク、シミュレーションでのロボット操作、実際のロボットでのRLエージェントの成功率、サンプル効率、一般化が大幅に向上する。 我々はCNNとTransformerベースのエンコーダの両方にサリエンシを組み込むアプローチを提案する。 ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。 ViSaRLは、サリエンシを使用しないベースラインと比較して、実際のロボットタスクの成功率をほぼ2倍にします。

Training robots to perform complex control tasks from high-dimensional pixel input using reinforcement learning (RL) is sample-inefficient, because image observations are comprised primarily of task-irrelevant information. By contrast, humans are able to visually attend to task-relevant objects and areas. Based on this insight, we introduce Visual Saliency-Guided Reinforcement Learning (ViSaRL). Using ViSaRL to learn visual representations significantly improves the success rate, sample efficiency, and generalization of an RL agent on diverse tasks including DeepMind Control benchmark, robot manipulation in simulation and on a real robot. We present approaches for incorporating saliency into both CNN and Transformer-based encoders. We show that visual representations learned using ViSaRL are robust to various sources of visual perturbations including perceptual noise and scene variations. ViSaRL nearly doubles success rate on the real-robot tasks compared to the baseline which does not use saliency.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# Cath Flow:光流と変圧器を用いたインターベンショナル超音波におけるカテーテルの自己監督セグメンテーション

CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers ( http://arxiv.org/abs/2403.14465v2 )

ライセンス: Link先を確認
Alex Ranne, Liming Kuang, Yordanka Velikova, Nassir Navab, Ferdinando Rodriguez y Baena, (参考訳) 最小侵襲の血管内手術では,造影造影造影が最も堅牢な画像診断法である。 しかし、放射線曝露の長期化により、患者と臨床医の健康を犠牲にしている。 代替として、干渉超音波は、放射線のない、展開が速い、手術室の足跡が小さいといった顕著な利点がある。 しかし、超音波は解釈が困難で、人工物やノイズに強く依存する。 さらに、介入放射線科医は、患者を効果的に診断し治療する資格を得る前に、広範な訓練を受けなければならない。 本研究では,縦型超音波画像中のカテーテルをラベル付きデータなしでセグメント化するために,自己教師付きディープラーニングアーキテクチャを導入することにより,両課題に対処する。 ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマーであるAiAReSeg上に構築されており、時間と空間にわたって機能変更を学習することができる。 トレーニングを容易にするために,物理駆動カテーテル挿入シミュレーションに基づく合成超音波データを用いて,データを独自のCT-Ultrasound共通ドメインであるCACTUSSに変換し,セグメンテーション性能を向上した。 本研究では,FlowNet2を用いて隣接するフレーム間の光学的流れを計算し,しきい値を用いて2値マップ推定を行うことにより,地中真理セグメンテーションマスクを生成する。 最後に,シリコンオルタファントムから収集した合成データと画像からなるテストデータセットを用いて本モデルを検証し,将来臨床データに適用する可能性を示した。

In minimally invasive endovascular procedures, contrast-enhanced angiography remains the most robust imaging technique. However, it is at the expense of the patient and clinician's health due to prolonged radiation exposure. As an alternative, interventional ultrasound has notable benefits such as being radiation-free, fast to deploy, and having a small footprint in the operating room. Yet, ultrasound is hard to interpret, and highly prone to artifacts and noise. Additionally, interventional radiologists must undergo extensive training before they become qualified to diagnose and treat patients effectively, leading to a shortage of staff, and a lack of open-source datasets. In this work, we seek to address both problems by introducing a self-supervised deep learning architecture to segment catheters in longitudinal ultrasound images, without demanding any labeled data. The network architecture builds upon AiAReSeg, a segmentation transformer built with the Attention in Attention mechanism, and is capable of learning feature changes across time and space. To facilitate training, we used synthetic ultrasound data based on physics-driven catheter insertion simulations, and translated the data into a unique CT-Ultrasound common domain, CACTUSS, to improve the segmentation performance. We generated ground truth segmentation masks by computing the optical flow between adjacent frames using FlowNet2, and performed thresholding to obtain a binary map estimate. Finally, we validated our model on a test dataset, consisting of unseen synthetic data and images collected from silicon aorta phantoms, thus demonstrating its potential for applications to clinical data in the future.
翻訳日:2024-09-11 23:25:16 公開日:2024-09-10
# 解析性とウンルー効果--局所モジュラフローの研究

Analyticity and the Unruh effect: a study of local modular flow ( http://arxiv.org/abs/2403.18937v3 )

ライセンス: Link先を確認
Jonathan Sorce, (参考訳) ウンルー効果は、リンドラーのくさびの中のミンコフスキー真空がそのモジュラーフローとしてブーストを持つという言明として定式化することができる。 近年、幾何学的に局所的なモジュラーフローを持つ状態の他の例は、場の量子論や量子重力におけるエネルギーとエントロピーを理解する上で重要な役割を果たしている。 ここでは、幾何的モジュラーフローが生じる可能性のある設定に関する一般的な研究を開始します。 i)任意の幾何学的モジュラフローが背景時空の共形対称性でなければならないこと、 (II)「弱解析的」状態のよく振る舞うクラスでは、幾何学的モジュラフローは将来的な方向で行わなければならない。 さらに、幾何変換が共形であるが等方的でないならば、共形体論におけるモジュラフローとしてしか実現できないと論じる。 最後に、コンバース結果を示すことができるいくつかの設定、すなわち、モジュラフローが与えられたベクトル場を再現する状態を構築することができる設定について論じる。

The Unruh effect can be formulated as the statement that the Minkowski vacuum in a Rindler wedge has a boost as its modular flow. In recent years, other examples of states with geometrically local modular flow have played important roles in understanding energy and entropy in quantum field theory and quantum gravity. Here I initiate a general study of the settings in which geometric modular flow can arise, showing (i) that any geometric modular flow must be a conformal symmetry of the background spacetime, and (ii) that in a well behaved class of "weakly analytic" states, geometric modular flow must be future-directed. I further argue that if a geometric transformation is conformal but not isometric, then it can only be realized as modular flow in a conformal field theory. Finally, I discuss a few settings in which converse results can be shown -- i.e., settings in which a state can be constructed whose modular flow reproduces a given vector field.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 遠心性海馬形状変化:メッシュ変分オートエンコーダとコントラスト学習を用いた神経障害の研究

Disentangling Hippocampal Shape Variations: A Study of Neurological Disorders Using Mesh Variational Autoencoder with Contrastive Learning ( http://arxiv.org/abs/2404.00785v2 )

ライセンス: Link先を確認
Jakaria Rabbi, Johannes Kiechle, Christian Beaulieu, Nilanjan Ray, Dana Cobzas, (参考訳) 本稿では、神経疾患の文脈における拡散テンソルイメージング(DTI)データセットからの海馬形状変化の遠ざかることに焦点を当てた総合的研究について述べる。 教師付きコントラスト学習で強化されたグラフ変分オートエンコーダ(VAE)を活用することで,年齢と疾患の有無に応じた2つの異なる潜伏変数を識別し,解釈性を向上させることを目的とする。 アブレーション研究では,VAEアーキテクチャとコントラスト損失関数について検討し,その拡張的アンタングル化能力を示す。 この評価はDTI海馬データセットから得られた合成3Dトーラスメッシュデータと実3D海馬メッシュデータセットを用いる。 教師付きアンタングルメントモデルでは,アトリビュートやガイド付きVAEといったいくつかの最先端(SOTA)手法よりも,アンタングルメントスコアが優れている。 海馬データを用いて,多発性硬化症(MS)患者の年齢群と疾患状態の鑑別を行った。 我々のグラフVAE with Supervised Contrastive Learningは、年齢の異なるMS人口の海馬の体積変化を示し、その結果は現在の神経画像学の文献と一致している。 本研究は, 神経疾患と海馬形状変化との関連性について, グラフVAEを用いた検討を行った。

This paper presents a comprehensive study focused on disentangling hippocampal shape variations from diffusion tensor imaging (DTI) datasets within the context of neurological disorders. Leveraging a Graph Variational Autoencoder (VAE) enhanced with Supervised Contrastive Learning, our approach aims to improve interpretability by disentangling two distinct latent variables corresponding to age and the presence of diseases. In our ablation study, we investigate a range of VAE architectures and contrastive loss functions, showcasing the enhanced disentanglement capabilities of our approach. This evaluation uses synthetic 3D torus mesh data and real 3D hippocampal mesh datasets derived from the DTI hippocampal dataset. Our supervised disentanglement model outperforms several state-of-the-art (SOTA) methods like attribute and guided VAEs in terms of disentanglement scores. Our model distinguishes between age groups and disease status in patients with Multiple Sclerosis (MS) using the hippocampus data. Our Graph VAE with Supervised Contrastive Learning shows the volume changes of the hippocampus of MS populations at different ages, and the result is consistent with the current neuroimaging literature. This research provides valuable insights into the relationship between neurological disorder and hippocampal shape changes in different age groups of MS populations using a Graph VAE with Supervised Contrastive loss.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# SPMamba: ステートスペースモデルは音声分離に必要なもの

SPMamba: State-space model is all you need in speech separation ( http://arxiv.org/abs/2404.02063v2 )

ライセンス: Link先を確認
Kai Li, Guo Chen, Runxuan Yang, Xiaolin Hu, (参考訳) 既存のCNNベースの音声分離モデルは、局所的な受容的場制限に直面しており、長期間の依存関係を効果的にキャプチャできない。 LSTMとトランスフォーマーに基づく音声分離モデルはこの問題を回避することができるが、その複雑さが高いため、長い音声を扱う際の計算資源と推論効率の課題に直面している。 この課題に対処するために,SPMambaと呼ばれる革新的な音声分離手法を提案する。 このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。 これらのモジュールは時間と周波数次元の時空間関係を効果的にモデル化し、SPMambaは線形計算複雑性で長距離依存を捉えることができる。 具体的には,Mambaモジュール内の双方向処理により,過去のコンテキスト情報と将来のコンテキスト情報の両方を利用することが可能となり,分離性能が向上する。 WSJ0-2Mix、WHAM!、Libri2Mixなどの公開データセットと、新たに構築されたEcho2Mixデータセットを含む大規模な実験は、SPMambaが既存の最先端モデルを大幅に上回っており、計算複雑性を低減しつつ、優れた結果を達成することを実証した。 これらの結果は,複雑な環境下での音声分離の難しさに対処する上で,SPMambaの有効性を浮き彫りにした。

Existing CNN-based speech separation models face local receptive field limitations and cannot effectively capture long time dependencies. Although LSTM and Transformer-based speech separation models can avoid this problem, their high complexity makes them face the challenge of computational resources and inference efficiency when dealing with long audio. To address this challenge, we introduce an innovative speech separation method called SPMamba. This model builds upon the robust TF-GridNet architecture, replacing its traditional BLSTM modules with bidirectional Mamba modules. These modules effectively model the spatiotemporal relationships between the time and frequency dimensions, allowing SPMamba to capture long-range dependencies with linear computational complexity. Specifically, the bidirectional processing within the Mamba modules enables the model to utilize both past and future contextual information, thereby enhancing separation performance. Extensive experiments conducted on public datasets, including WSJ0-2Mix, WHAM!, and Libri2Mix, as well as the newly constructed Echo2Mix dataset, demonstrated that SPMamba significantly outperformed existing state-of-the-art models, achieving superior results while also reducing computational complexity. These findings highlighted the effectiveness of SPMamba in tackling the intricate challenges of speech separation in complex environments.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# MuPT: 再生可能なシンボリック音楽事前学習トランス

MuPT: A Generative Symbolic Music Pretrained Transformer ( http://arxiv.org/abs/2404.06393v3 )

ライセンス: Link先を確認
Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Jie Fu, Ge Zhang, (参考訳) 本稿では,Large Language Models (LLM) の事前学習への応用について検討する。 音楽モデリングにおけるMIDIの利用は確立されているが,本研究の結果から,LLMは本質的にABC Notationとの互換性が強く,その設計と強みがより密に一致し,楽曲におけるモデルの性能が向上することが示唆された。 本研究では,複数トラック間のコヒーレンスを維持することを目的としたSMT-ABC Notation(Synchronized Multi-Track ABC Notation)の開発を提案する。 私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。 さらに,シンボリック・ミュージック・スケーリング法(SMS法)がモデル性能に与える影響についても検討した。 この結果は,コミュニティ主導のコミュニティ主導の研究に,我々のオープンソースコントリビューションを通じて幅広いリソースを提供する,音楽生成における将来的な研究の方向性を示すものである。

In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a Synchronized Multi-Track ABC Notation (SMT-ABC Notation), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90% of the symbolic music data in our training set. Furthermore, we explore the implications of the Symbolic Music Scaling Law (SMS Law) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# リレーショナル・プロンプトに基づく社会的事象検出のための事前学習言語モデル

Relational Prompt-based Pre-trained Language Models for Social Event Detection ( http://arxiv.org/abs/2404.08263v2 )

ライセンス: Link先を確認
Pu Li, Xiaoyan Yu, Hao Peng, Yantuan Xian, Linqin Wang, Li Sun, Jingyun Zhang, Philip S. Yu, (参考訳) ソーシャルイベント検出(SED)は、社会的ストリームから重要なイベントを識別することを目的としており、世論分析からリスク管理まで幅広い応用がある。 近年、グラフニューラルネットワーク(GNN)ベースのソリューションは最先端のパフォーマンスを実現している。 しかし、GNNベースの手法は、しばしばメッセージ間の欠落とノイズの多いエッジに悩まされ、学習されたメッセージの埋め込みの品質に影響を及ぼす。 さらに、これらの手法は訓練前にノード埋め込みを静的に初期化し、メッセージテキストと関係から同時に学習する能力を制限する。 本稿では,事前学習言語モデル(PLM)に基づく新たな視点から,社会的事象検出とRPLM_SED(Relational prompt-based Pre-trained Language Models for Social Event Detection)を提案する。 まず,マルチリレーショナル・シーケンスを持つメッセージ・ペアにソーシャル・メッセージを構築するためのペアワイズ・メッセージ・モデリング手法を提案する。 第2に,PLMを用いたマルチリレーショナルプロンプトを用いたメッセージペアから,より包括的なメッセージ表現を学習するための,新しいマルチリレーショナルプロンプトベースのペアワイドメッセージ学習機構を提案する。 第3に、クラスタ内コンパクト性とクラスタ間分散性を高め、メッセージ表現をより区別しやすくすることで、符号化プロセスを最適化する新しいクラスタリング制約を設計する。 実世界の3つのデータセット上でRPLM_SEDを評価し、RPLM_SEDモデルが、ソーシャルイベント検出タスクにおけるオフライン、オンライン、低リソース、ロングテールの分散シナリオにおける最先端のパフォーマンスを達成することを実証した。

Social Event Detection (SED) aims to identify significant events from social streams, and has a wide application ranging from public opinion analysis to risk management. In recent years, Graph Neural Network (GNN) based solutions have achieved state-of-the-art performance. However, GNN-based methods often struggle with missing and noisy edges between messages, affecting the quality of learned message embedding. Moreover, these methods statically initialize node embedding before training, which, in turn, limits the ability to learn from message texts and relations simultaneously. In this paper, we approach social event detection from a new perspective based on Pre-trained Language Models (PLMs), and present RPLM_SED (Relational prompt-based Pre-trained Language Models for Social Event Detection). We first propose a new pairwise message modeling strategy to construct social messages into message pairs with multi-relational sequences. Secondly, a new multi-relational prompt-based pairwise message learning mechanism is proposed to learn more comprehensive message representation from message pairs with multi-relational prompts using PLMs. Thirdly, we design a new clustering constraint to optimize the encoding process by enhancing intra-cluster compactness and inter-cluster dispersion, making the message representation more distinguishable. We evaluate the RPLM_SED on three real-world datasets, demonstrating that the RPLM_SED model achieves state-of-the-art performance in offline, online, low-resource, and long-tail distribution scenarios for social event detection tasks.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 電子スピン浴に結合したダイヤモンド中のNV中心アンサンブルのコヒーレンス特性

Coherence properties of NV-center ensembles in diamond coupled to an electron-spin bath ( http://arxiv.org/abs/2404.08388v2 )

ライセンス: Link先を確認
Reyhaneh Ghassemizadeh, Wolfgang Körner, Daniel F. Urban, Christian Elsässer, (参考訳) 強相関電子スピン浴によるダイヤモンド中の窒素空孔中心(NV)アンサンブルについて検討した。 クラスタ相関展開法 (CCE) を用いて, NV中心スピンの脱コヒーレンス特性を0.1-100ppmの浴中濃度で完全に計算した。 文献で報告された$T_2$コヒーレンス時間における有意なずれの原因を系統的に分析した。 本研究は,アンサンブル平均に使用する平均的・適合的な手順の選択に起因し,様々な理論的研究を比較する際に考慮すべき諸側面を指摘する。 我々の研究は、読者が中央スピン問題に対して信頼性と高速なシミュレーションを行うのを容易にするかもしれない。 これは、局所的な浴室スピンのダイナミクスを記述する結果パラメータの理解と解釈を提供する。

We investigate nitrogen-vacancy center (NV) ensembles in diamond under the influence of strongly-correlated electron-spin baths. We thoroughly calculate the decoherence properties of the NV central spin for bath concentrations of 0.1-100 ppm using the cluster-correlation expansion (CCE) method. We systematically analyze possible origins of the significant deviations in the values of the $T_2$ coherence time reported in literature. We demonstrate that significant variations can originate from the choice of averaging and fitting procedures used for the ensemble average and we point out the respective aspects that need to be considered, when comparing the various theoretical studies. Our study may ease readers to perform reliable and fast simulations on the central spin problem. It provides an understanding and interpretation of the outcome parameters describing the dynamics of the local bath spins.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# LLMは視覚異常を理解するか? ゼロショット異常検出におけるLCMの能力を明らかにする

Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection ( http://arxiv.org/abs/2404.09654v2 )

ライセンス: Link先を確認
Jiaqi Zhu, Shaofeng Cai, Fang Deng, Beng Chin Ooi, Junran Wu, (参考訳) 大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現を導出するのに非常に有能である。 近年の研究では、異常プロンプトと呼ばれる正常および異常な状態を示すテキスト記述と画像をペアリングすることで、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを活用している。 しかし、既存のアプローチは、セマンティックな曖昧さを伴わない静的な異常なプロンプトに依存し、正確な異常なローカライゼーションに必要な重要な局所画素レベルの画像-テキストアライメントよりもグローバルな画像レベルの表現を優先する。 本稿では,これらの課題に統一モデルを用いて対処するためのトレーニングフリーアプローチであるALFAを提案する。 本稿では,大言語モデル(LLM)の機能を活用するために,まず情報的異常を発生させる実行時プロンプト適応戦略を提案する。 この戦略は、画像ごとの異常な適応と横断的あいまいさ軽減のための文脈的スコアリング機構によって強化される。 さらに,局所的意味空間から局所的意味空間へ画像テキストのアライメントを投影することにより,局所的画素レベルのセマンティクスを融合する新たな微粒化アライメント器を導入する。 MVTec と VisA データセットの大規模な評価により、ALFA がゼロショット VAD に言語の可能性を活用する上で有効であることが確認され、MVTec では 12.1% 、VisA では 8.9% の大幅な改善が達成された。

Large vision-language models (LVLMs) are markedly proficient in deriving visual representations guided by natural language. Recent explorations have utilized LVLMs to tackle zero-shot visual anomaly detection (VAD) challenges by pairing images with textual descriptions indicative of normal and abnormal conditions, referred to as anomaly prompts. However, existing approaches depend on static anomaly prompts that are prone to cross-semantic ambiguity, and prioritize global image-level representations over crucial local pixel-level image-to-text alignment that is necessary for accurate anomaly localization. In this paper, we present ALFA, a training-free approach designed to address these challenges via a unified model. We propose a run-time prompt adaptation strategy, which first generates informative anomaly prompts to leverage the capabilities of a large language model (LLM). This strategy is enhanced by a contextual scoring mechanism for per-image anomaly prompt adaptation and cross-semantic ambiguity mitigation. We further introduce a novel fine-grained aligner to fuse local pixel-level semantics for precise anomaly localization, by projecting the image-text alignment from global to local semantic spaces. Extensive evaluations on MVTec and VisA datasets confirm ALFA's effectiveness in harnessing the language potential for zero-shot VAD, achieving significant PRO improvements of 12.1% on MVTec and 8.9% on VisA compared to state-of-the-art approaches.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# Ummasoを用いたスパークアテンション回帰ネットワークによる土壌肥大予測

Sparse Attention Regression Network Based Soil Fertility Prediction With Ummaso ( http://arxiv.org/abs/2404.10274v2 )

ライセンス: Link先を確認
R V Raghavendra Rao, U Srinivasulu Reddy, (参考訳) 不均衡な土壌栄養データセットの課題は、土壌の肥育率の正確な予測を著しく妨げている。 そこで本研究では,一様多様体近似と投影(UMAP)と最小絶対収縮・選択演算子(LASSO)を組み合わせた新しい手法を提案する。 主な目的は、不均一なデータ分布の影響を克服し、土壌肥育モデルの予測精度を改善することである。 導入されたモデルはスパースアテンションレグレッションを使用しており、不均衡なデータセットから関連する機能を効果的に取り入れている。 UMAPは最初、データ複雑さを減らし、隠れた構造と重要なパターンを明らかにするために使われる。 その後、LASSOは特徴を洗練し、モデルの解釈可能性を高める。 実験結果は、UMAPとLASSOハイブリッドアプローチの有効性を強調している。 提案モデルでは,土壌肥大度予測の精度を98%に向上し,土壌肥大度予測の精度を示す。 さらに、91.25%の精度を示し、肥料土壌のインスタンスを正確に識別する能力を示している。 リコール計量は90.90%であり、モデルが正のケースを効果的に捉える能力を強調している。

The challenge of imbalanced soil nutrient datasets significantly hampers accurate predictions of soil fertility. To tackle this, a new method is suggested in this research, combining Uniform Manifold Approximation and Projection (UMAP) with Least Absolute Shrinkage and Selection Operator (LASSO). The main aim is to counter the impact of uneven data distribution and improve soil fertility models' predictive precision. The model introduced uses Sparse Attention Regression, effectively incorporating pertinent features from the imbalanced dataset. UMAP is utilized initially to reduce data complexity, unveiling hidden structures and important patterns. Following this, LASSO is applied to refine features and enhance the model's interpretability. The experimental outcomes highlight the effectiveness of the UMAP and LASSO hybrid approach. The proposed model achieves outstanding performance metrics, reaching a predictive accuracy of 98%, demonstrating its capability in accurate soil fertility predictions. Additionally, it showcases a Precision of 91.25%, indicating its adeptness in identifying fertile soil instances accurately. The Recall metric stands at 90.90%, emphasizing the model's ability to capture true positive cases effectively.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 欠陥(レ)予測がソフトウェアテストに及ぼす影響

The Impact of Defect (Re) Prediction on Software Testing ( http://arxiv.org/abs/2404.11040v2 )

ライセンス: Link先を確認
Yukasa Murakami, Yuta Yamasaki, Masateru Tsunoda, Akito Monden, Amjed Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai, (参考訳) クロスプロジェクト欠陥予測(CPDP)は、同じプロジェクトから過去のデータが入手できない可能性があるため、外部プロジェクトからのデータを使用することを目的としている。 CPDPでは、トレーニングモデルを構築するための特定の歴史的プロジェクトを決定することは困難である。 この決定を支援するために、Bandit Algorithm (BA) ベースのアプローチが先行研究で提案され、最も適切な学習プロジェクトを選択する。 しかし、このBA手法は、BAの初期イテレーション(すなわち、ソフトウェアテストの初期段階)において、不適切なデータの選択につながる可能性がある。 不適切なモデルを選択することで、予測精度が低下し、潜在的な欠陥を見落としてしまう可能性がある。 本研究の目的は,特に早期試験において,見渡す欠陥を減らすため,BA法を改善することである。 一度すべてのモジュールがテストされると、初期段階でテストされたモジュールは再予測され、いくつかのモジュールは再予測に基づいて再テストされる。 再予測と再テストの効果を評価するため,8,16,32のOSSプロジェクトを学習データとして,5種類のBA手法を適用した。 その結果,新たに提案した手法は,予測精度の劣化を伴わずに,見渡す欠陥の確率を着実に低減することを示した。

Cross-project defect prediction (CPDP) aims to use data from external projects as historical data may not be available from the same project. In CPDP, deciding on a particular historical project to build a training model can be difficult. To help with this decision, a Bandit Algorithm (BA) based approach has been proposed in prior research to select the most suitable learning project. However, this BA method could lead to the selection of unsuitable data during the early iteration of BA (i.e., early stage of software testing). Selecting an unsuitable model can reduce the prediction accuracy, leading to potential defect overlooking. This study aims to improve the BA method to reduce defects overlooking, especially during the early testing stages. Once all modules have been tested, modules tested in the early stage are re-predicted, and some modules are retested based on the re-prediction. To assess the impact of re-prediction and retesting, we applied five kinds of BA methods, using 8, 16, and 32 OSS projects as learning data. The results show that the newly proposed approach steadily reduced the probability of defect overlooking without degradation of prediction accuracy.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# ボース・アインシュタイン凝縮体における荷電ポーラロンに対する修正平均場アンサッツ

Modified mean field ansatz for charged polarons in a Bose-Einstein condensate ( http://arxiv.org/abs/2404.11387v2 )

ライセンス: Link先を確認
Ubaldo Cavazos Olivas, Luis A. Peña Ardila, Krzysztof Jachymski, (参考訳) イオン・ボース・ポーラロン(Ionic Bose polaron)は、イオンとボース・アインシュタイン凝縮体(BEC)の間の相互作用から生じる量子物質であり、ガス治癒長と競合する長距離相互作用を特徴とする。 これは強い粒子間相関とイオンの周囲の気体密度の増大をもたらす。 この複雑なシステムを高精度に記述するための1つの可能なアプローチは、量子モンテカルロ法(QMC)のような数値処理に依存している。 それでも計算は非常に高価であり、システム力学の研究は容易ではない。 一方、共動フレームにおける平均場に基づく変分アンザッツは、ガス密度の大きな変化を捉えることができる。 正則化イオン原子ポテンシャルの場合に適用し、その全数値結果を定性的に再現することを示した。 また, 入浴による効果的な相互作用に着目し, 2本のピン付きイオンの系についても検討した。 このアプローチは、凝縮媒質中の荷電(bi)ポラロンの輸送と非平衡ダイナミクスを研究する上で有望であると考えられる。

Ionic Bose polarons are quantum entities emerging from the interaction between an ion and a Bose-Einstein condensate (BEC), featuring long-ranged interactions that can compete with the gas healing length. This can result in strong interparticle correlations and enhancement of gas density around the ion. One possible approach to describe this complex system with high accuracy relies on numerical treatment such as the quantum Monte Carlo (QMC) techniques. Nevertheless, it is computationally very expensive and does not easily allow to study the system dynamics. On the other hand, a mean-field based variational ansatz in the co-moving frame can capture a sizeable change in the gas density. We apply it to the case of regularized ion-atom potential and find that it qualitatively reproduces the full numerical results. In addition, we also study the system of two pinned ions, focusing on their effective interaction induced by the bath. This approach seems to be promising for studying transport and nonequilibrium dynamics of charged (bi)polarons in condensed media.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 極低視認性条件下における不均一照明画像強調

Inhomogeneous illumination image enhancement under ex-tremely low visibility condition ( http://arxiv.org/abs/2404.17503v2 )

ライセンス: Link先を確認
Libang Chen, Jinyan Lin, Qihang Bian, Yikun Liu, Jianying Zhou, (参考訳) 濃霧を通した画像は、物体の検出や認識の曖昧化といったアプリケーションに不可欠な視覚情報を欠いているため、従来の画像処理手法を妨げている。 ニューラルネットワークベースのアプローチによる改善にもかかわらず、これらの手法は、不均一な信号強度によってディープラーニング性能が低下する不均一照明により、非常に低い可視性条件下でファルターする。 本稿では,SDIF(Structure Differential and Integral Filtering)に基づく背景照明を適応的にフィルタし,信号情報のみを向上させる手法を提案する。 画像勾配に基づく視覚的最適化戦略を取り入れることで、グレースケールのバンドリングを解消する。 最大ヒストグラム等化(MHE)は、原内容への忠実さを維持しつつ高いコントラストを達成するために用いられる。 フォグチャンバーと屋外環境の両方から収集したデータを用いてアルゴリズムの評価を行い,既存手法との比較分析を行った。 提案手法は, 極めて低視認性条件下で信号の明瞭度を著しく向上し, 既存の技術より優れており, 深部フォグイメージングにはかなり改善されている。

Imaging through dense fog presents unique challenges, with essential visual information crucial for applications like object detection and recognition obscured, thereby hindering conventional image processing methods. Despite improvements through neural network-based approaches, these techniques falter under extremely low visibility conditions exacerbated by inhomogeneous illumination, which degrades deep learning performance due to inconsistent signal intensities. We introduce in this paper a novel method that adaptively filters background illumination based on Structural Differential and Integral Filtering (SDIF) to enhance only vital signal information. The grayscale banding is eliminated by incorporating a visual optimization strategy based on image gradients. Maximum Histogram Equalization (MHE) is used to achieve high contrast while maintaining fidelity to the original content. We evaluated our algorithm using data collected from both a fog chamber and outdoor environments, and performed comparative analyses with existing methods. Our findings demonstrate that our proposed method significantly enhances signal clarity under extremely low visibility conditions and out-performs existing techniques, offering substantial improvements for deep fog imaging applications.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 整合影を用いた量子古典量子モンテカルロアルゴリズムの評価

Evaluating a quantum-classical quantum Monte Carlo algorithm with Matchgate shadows ( http://arxiv.org/abs/2404.18303v2 )

ライセンス: Link先を確認
Benchen Huang, Yi-Ting Chen, Brajesh Gupt, Martin Suchara, Anh Tran, Sam McArdle, Giulia Galli, (参考訳) 分子や固体の電子構造問題を高精度に解くことは、量子化学と凝縮物質物理学の大きな課題である。 量子コンピュータの急速な出現と発展は、この問題を体系的に解決するための有望な経路を提供する。 Hugginsらによる最近の研究は、クリフォード影を用いた量子古典量子モンテカルロ(QC-QMC)アルゴリズムを提案し、フェルミオンハミルトニアンの基礎状態を決定する。 このアプローチでは、固有のノイズレジリエンスと、純粋に古典的な手法に比べて精度が向上する可能性を示した。 それでもクリフォードシャドウの使用は、指数関数的にスケールした後処理コストをもたらす。 本研究では,最近開発されたMatchgateシャドウ技術 [2] を利用したQC-QMCの改良手法について検討する。 量子ハードウェアの実験から、QC-QMCにおけるMatchgateシャドーの使用は本質的にノイズが強いことが観察された。 このノイズレジリエンスはクリフォードシャドーよりも微妙な起源を持つことを示す。 それにもかかわらず、古典的な後処理は漸近的に効率的であるが、最小の化学システムでさえも数千の古典的なCPU上で何時間も実行する必要があることが判明し、アルゴリズムのスケーラビリティに大きな課題が浮かび上がっている。

Solving the electronic structure problem of molecules and solids to high accuracy is a major challenge in quantum chemistry and condensed matter physics. The rapid emergence and development of quantum computers offer a promising route to systematically tackle this problem. Recent work by Huggins et al.[1] proposed a hybrid quantum-classical quantum Monte Carlo (QC-QMC) algorithm using Clifford shadows to determine the ground state of a Fermionic Hamiltonian. This approach displayed inherent noise resilience and the potential for improved accuracy compared to its purely classical counterpart. Nevertheless, the use of Clifford shadows introduces an exponentially scaling post-processing cost. In this work, we investigate an improved QC-QMC scheme utilizing the recently developed Matchgate shadows technique [2], which removes the aforementioned exponential bottleneck. We observe from experiments on quantum hardware that the use of Matchgate shadows in QC-QMC is inherently noise robust. We show that this noise resilience has a more subtle origin than in the case of Clifford shadows. Nevertheless, we find that classical post-processing, while asymptotically efficient, requires hours of runtime on thousands of classical CPUs for even the smallest chemical systems, presenting a major challenge to the scalability of the algorithm.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# マルチマージンコサイン損失:レコメンダシステムにおける提案と応用

Multi-Margin Cosine Loss: Proposal and Application in Recommender Systems ( http://arxiv.org/abs/2405.04614v3 )

ライセンス: Link先を確認
Makbule Gulcin Ozsoy, (参考訳) レコメンダシステムは、予測された嗜好に基づいてアイテムを提案することで、大量の情報を通じてユーザーを誘導する。 協調フィルタリングに基づくディープラーニング技術は、ユーザとイテムのインタラクションにのみ依存して、その直接的な性質から、人気を取り戻している。 通常、これらのシステムは3つの主要なコンポーネント(相互作用モジュール、損失関数、負のサンプリング戦略)から構成される。 当初、研究者は複雑な相互作用モジュールを開発することでパフォーマンスを向上させることに重点を置いていた。 しかし、近年、損失関数の精細化と負のサンプリング戦略へのシフトが起きている。 このシフトにより、対照的な学習への関心が高まり、類似したペアを近くに引き寄せながら、異なるペアを分割するようになる。 対照的な学習は、高いメモリ要求やいくつかの負のサンプルの未使用といった課題をもたらす可能性がある。 提案したMulti-Margin Cosine Loss (MMCL)は、負のサンプルに対して複数のマージンと様々な重みを導入することで、これらの課題に対処する。 最も難しい陰性だけでなく、他の非自明な陰性も効率的に利用し、特に資源が限られている場合に、より複雑な方法より優れるより単純で効果的な損失関数を提供する。 2つのよく知られたデータセットの実験により、MMCLは、負のサンプルが少ない場合のベースライン損失関数と比較して最大20倍の性能向上を達成した。

Recommender systems guide users through vast amounts of information by suggesting items based on their predicted preferences. Collaborative filtering-based deep learning techniques have regained popularity due to their straightforward nature, relying only on user-item interactions. Typically, these systems consist of three main components: an interaction module, a loss function, and a negative sampling strategy. Initially, researchers focused on enhancing performance by developing complex interaction modules. However, there has been a recent shift toward refining loss functions and negative sampling strategies. This shift has led to an increased interest in contrastive learning, which pulls similar pairs closer while pushing dissimilar ones apart. Contrastive learning may bring challenges like high memory demands and under-utilization of some negative samples. The proposed Multi-Margin Cosine Loss (MMCL) addresses these challenges by introducing multiple margins and varying weights for negative samples. It efficiently utilizes not only the hardest negatives but also other non-trivial negatives, offers a simpler yet effective loss function that outperforms more complex methods, especially when resources are limited. Experiments on two well-known datasets demonstrated that MMCL achieved up to a 20\% performance improvement compared to a baseline loss function when fewer number of negative samples are used.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# 透かしとしての説明:透かし特徴属性による無害・多ビットモデルオーナーシップ検証に向けて

Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution ( http://arxiv.org/abs/2405.04825v2 )

ライセンス: Link先を確認
Shuo Shao, Yiming Li, Hongwei Yao, Yiling He, Zhan Qin, Kui Ren, (参考訳) 現在、オーナーシップ検証は、モデル著作権を保護する最も重要で広く採用されているポストホック法である。 一般的に、モデル所有者は、ある疑わしいサードパーティモデルがそれらから盗まれているかどうかを、リリースしたモデルから‘引き継がれた’特性があるかどうかを調べるためにこれを利用します。 現在、バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む主要な方法と最先端の方法である。 しかし、バックドアベースの手法には、有害性とあいまいさの2つの致命的な欠点がある。 前者は、悪質に制御可能な誤分類行動(すなわち、バックドア)をウォーターマークされたリリースモデルに導入していることを示している。 後者は、悪意のあるユーザーが他の誤分類サンプルを見つけることによって容易に検証に合格でき、オーナーシップの曖昧さにつながることを示している。 本稿では,これらの制約は既存の透かし方式の「ゼロビット」の性質に起因していると論じる。 この理解により、モデル予測の代わりに特徴属性の説明に検証動作を埋め込む新しい透かしパラダイム、$i.e.$, Explanation as a Watermark (EaaW)を設計する。 具体的には、EaaWはオリジナルの予測を変更することなく、特定のトリガサンプルの特徴属性説明に‘multi-bit’の透かしを埋め込む。 我々は、説明可能な人工知能にインスパイアされた透かしの埋め込みと抽出アルゴリズムを設計する。 特に、我々のアプローチは異なるタスク(例:$、画像分類、テキスト生成)に使用できる。 大規模な実験により、EaaWの有効性と無害性、および潜在的攻撃に対する耐性が検証された。

Ownership verification is currently the most critical and widely adopted post-hoc method to safeguard model copyright. In general, model owners exploit it to identify whether a given suspicious third-party model is stolen from them by examining whether it has particular properties `inherited' from their released models. Currently, backdoor-based model watermarks are the primary and cutting-edge methods to implant such properties in the released models. However, backdoor-based methods have two fatal drawbacks, including harmfulness and ambiguity. The former indicates that they introduce maliciously controllable misclassification behaviors ($i.e.$, backdoor) to the watermarked released models. The latter denotes that malicious users can easily pass the verification by finding other misclassified samples, leading to ownership ambiguity. In this paper, we argue that both limitations stem from the `zero-bit' nature of existing watermarking schemes, where they exploit the status ($i.e.$, misclassified) of predictions for verification. Motivated by this understanding, we design a new watermarking paradigm, $i.e.$, Explanation as a Watermark (EaaW), that implants verification behaviors into the explanation of feature attribution instead of model predictions. Specifically, EaaW embeds a `multi-bit' watermark into the feature attribution explanation of specific trigger samples without changing the original prediction. We correspondingly design the watermark embedding and extraction algorithms inspired by explainable artificial intelligence. In particular, our approach can be used for different tasks ($e.g.$, image classification and text generation). Extensive experiments verify the effectiveness and harmlessness of our EaaW and its resistance to potential attacks.
翻訳日:2024-09-11 23:13:57 公開日:2024-09-10
# MGS-SLAM:Depth Smooth Regularizationによる単眼スパース追跡とガウスマッピング

MGS-SLAM: Monocular Sparse Tracking and Gaussian Mapping with Depth Smooth Regularization ( http://arxiv.org/abs/2405.06241v2 )

ライセンス: Link先を確認
Pengcheng Zhu, Yaoming Zhuang, Baoquan Chen, Li Li, Chengdong Wu, Zhanlin Liu, (参考訳) 本文では,ガウススプラッティングに基づく高密度視覚同時局在マッピング(VSLAM)のための新しいフレームワークを紹介する。 近年,ガウススプラッティングに基づくSLAMは有望な結果を示した。 しかし、単分子のシナリオでは、ガウス写像は幾何的精度に欠け、より弱い追跡能力を示した。 これらの制約に対処するため, 疎視度追跡と3次元ガウススプラッティングのシーン表現を共同で最適化した。 ガウス写像の幾何的監督のために,高速なマルチビューステレオ(MVS)ネットワークを用いて,視覚的ドメトリ・キーフレームウィンドウの奥行きマップを得る。 さらに、推定深度マップの負の効果を低減し、視覚計測とガウス地図のスケールの一貫性を維持するために、深度スムーズロスとスパース・デンス調整リング(SDAR)を提案する。 我々は、様々な合成および実世界のデータセットでシステムを評価した。 ポーズ推定の精度は既存の手法を超越し,最先端化を実現している。 さらに、新しいビュー合成と幾何学的再構成フィデリティの観点から、従来の単分子的手法よりも優れていた。

This letter introduces a novel framework for dense Visual Simultaneous Localization and Mapping (VSLAM) based on Gaussian Splatting. Recently, SLAM based on Gaussian Splatting has shown promising results. However, in monocular scenarios, the Gaussian maps reconstructed lack geometric accuracy and exhibit weaker tracking capability. To address these limitations, we jointly optimize sparse visual odometry tracking and 3D Gaussian Splatting scene representation for the first time. We obtain depth maps on visual odometry keyframe windows using a fast Multi-View Stereo (MVS) network for the geometric supervision of Gaussian maps. Furthermore, we propose a depth smooth loss and Sparse-Dense Adjustment Ring (SDAR) to reduce the negative effect of estimated depth maps and preserve the consistency in scale between the visual odometry and Gaussian maps. We have evaluated our system across various synthetic and real-world datasets. The accuracy of our pose estimation surpasses existing methods and achieves state-of-the-art. Additionally, it outperforms previous monocular methods in terms of novel view synthesis and geometric reconstruction fidelities.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# DispaRisk: 利用可能な情報による公正さの監査

DispaRisk: Auditing Fairness Through Usable Information ( http://arxiv.org/abs/2405.12372v2 )

ライセンス: Link先を確認
Jonathan Vasquez, Carlotta Domeniconi, Huzefa Rangwala, (参考訳) 機械学習アルゴリズム(ML)は、人間の生活のあらゆる側面に影響を与え、医療、金融、教育など様々な分野で利用されてきた。 多くの場合、MLアルゴリズムはデータセットに存在する社会的バイアスを悪化させ、個人のサブセットやグループ、多くの場合はマイノリティグループに敵対的な影響をもたらす。 これらの不適切な効果を効果的に軽減するためには、MLパイプラインの早期に格差/バイアスを特定することが重要である。 このプロアクティブなアプローチは、バイアスの増幅を防ぎ、モデル開発の後期段階で複雑さを減らすために、タイムリーな介入を促進する。 本稿では、MLパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを積極的に評価する新しいフレームワークであるDispaRiskを導入するために、使用可能な情報理論の最近の進歩を活用する。 フェアネス研究においてよく使われるデータセットに対して、DispaRiskの有効性をベンチマークすることで評価する。 以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。 この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。 実験用のコードは以下のリポジトリで利用可能です。

Machine Learning algorithms (ML) impact virtually every aspect of human lives and have found use across diverse sectors including healthcare, finance, and education. Often, ML algorithms have been found to exacerbate societal biases present in datasets leading to adversarial impacts on subsets/groups of individuals and in many cases on minority groups. To effectively mitigate these untoward effects, it is crucial that disparities/biases are identified early in a ML pipeline. This proactive approach facilitates timely interventions to prevent bias amplification and reduce complexity at later stages of model development. In this paper, we leverage recent advancements in usable information theory to introduce DispaRisk, a novel framework designed to proactively assess the potential risks of disparities in datasets during the initial stages of the ML pipeline. We evaluate DispaRisk's effectiveness by benchmarking it against commonly used datasets in fairness research. Our findings demonstrate DispaRisk's capabilities to identify datasets with a high risk of discrimination, detect model families prone to biases within an ML pipeline, and enhance the explainability of these bias risks. This work contributes to the development of fairer ML systems by providing a robust tool for early bias detection and mitigation. The code for our experiments is available in the following repository: https://github.com/jovasque156/disparisk
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# 中性原子の超低温気体の量子混合物

Quantum mixtures of ultracold gases of neutral atoms ( http://arxiv.org/abs/2405.14562v2 )

ライセンス: Link先を確認
Cosetta Baroni, Giacomo Lamporesi, Matteo Zaccanti, (参考訳) 数種の原子種の冷却技術の改善と安定な量子混合物の達成方法の発見の後、この分野は様々な物理問題を研究するためにこのような汎用的な実験プラットフォームを広範囲に活用する準備が整った。 関連する例としては、量子気体中の不純物の力学、異なる気体の混入状態、エキゾチックなトポロジカル構造の研究、磁性と超流動性の間の相互作用、人工分子の形成、新しい少数体状態などがある。 量子混合物の相違、例えば同核スピン混合物やヘテロ核混合物の相違について説明し、少数体から多体状態へのトピックの多元性を調べるためにどのように利用することができるかを示す。 特に、いくつかの異なる種類の原子からなる系、宿主の量子ガスに浸漬された単一の不純物、相互作用する2つの気体の量子混合物の3つの異なる視点で超低温気体の量子混合物について議論する。 議論は、主に3次元構成で、単一のハーモニックトラップまたはフラットトラップに限定する。 最近の実験結果の選択と今後の興味深い方向性について述べる。

After decades of improvements in cooling techniques of several atomic species and in finding methods for the achievement of stable quantum mixtures, the field is now ready for an extensive use of such a versatile experimental platform for the investigation of a variety of physical problems. Among them, relevant examples are the dynamics of impurities in a quantum gas, the miscibility condition of different gases, the study of exotic topological structures, the interplay between magnetism and superfluidity, the formation of artificial molecules, or new few-body states. We illustrate the differences among possible quantum mixtures, be they homonuclear spin mixtures or heteronuclear ones, and show how they can be exploited to investigate a plethora of topics from the few-body to the many-body regime. In particular, we discuss quantum mixtures of ultracold gases under three different perspectives: systems made of a few atoms of different kinds, single impurities immersed in a host quantum gas, and quantum mixtures of two interacting gases. We restrict the discussion to single harmonic or flat traps, predominantly in a three-dimensional configuration. A selection of results on recent experiments and possible interesting future directions are given.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# HCIにおけるCitation Practicesの過去・現在・未来

Past, Present, and Future of Citation Practices in HCI ( http://arxiv.org/abs/2405.16526v4 )

ライセンス: Link先を確認
Jonas Oppenlaender, (参考訳) 科学は、学術システムのサイズと性質により、システム全体にはほとんど影響を与えない、個別に集団決定を行う多くの科学者からなる複雑なシステムである。 しかし、HCI(Human-Computer Interaction)コミュニティのようなメソレベルの研究コミュニティにおける決定は、科学者の深い、長期にわたる行動変化をもたらす可能性がある。 本稿では,2016 年の ACM CHI 会議で導入された編集方針の変更が,CHI 記事に含まれる参照件数の平均が年々増加して,CHI コミュニティが拡大する過程でどのように展開されたかを示す。 もしこのほぼ直線的な傾向が相変わらず続くなら、CHI 2030の記事には平均130の参照が含まれている。 より多くの引用の傾向は、品質よりも量の方が優先される引用文化を反映しており、著者と査読者の双方の疲労に寄与している。 本稿は、メソレベルの政策調整が科学分野や規律の進化にもたらす深い影響を、利害関係者に対して、こうした変化の広範な影響を慎重に検討するよう促すものである。

Science is a complex system comprised of many scientists who individually make collective decisions that, due to the size and nature of the academic system, largely do not affect the system as a whole. However, certain decisions at the meso-level of research communities, such as the Human-Computer Interaction (HCI) community, may result in deep and long-lasting behavioral changes in scientists. In this article, we provide evidence on how a change in editorial policies introduced at the ACM CHI Conference in 2016 launched the CHI community on an expansive path, denoted by a year-by-year increase in the mean number of references included in CHI articles. If this near-linear trend continues undisrupted, an article in CHI 2030 will include on average almost 130 references. The trend towards more citations reflects a citation culture where quantity is prioritized over quality, contributing to both author and peer reviewer fatigue. This article underscores the profound impact that meso-level policy adjustments have on the evolution of scientific fields and disciplines, urging stakeholders to carefully consider the broader implications of such changes.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# HFGS : 内視鏡的シーン再構成のための空間的および時間的高周波成分に着目した4次元ガウス切削術

HFGS: 4D Gaussian Splatting with Emphasis on Spatial and Temporal High-Frequency Components for Endoscopic Scene Reconstruction ( http://arxiv.org/abs/2405.17872v3 )

ライセンス: Link先を確認
Haoyu Zhao, Xingyue Zhao, Lingting Zhu, Weixi Zheng, Yongchao Xu, (参考訳) ロボット支援による最小侵襲手術は、手術結果を改善するため、動的シーン再構築の強化による恩恵を受ける。 ニューラル・ラジアンス・フィールド(NeRF)はシーン再構成に有効であるが、推論速度は遅く、トレーニング期間も長いため適用性が制限されている。 これらの制限を克服するため、3Dガウススプラッティング(3D-GS)ベースの手法が最近のトレンドとして登場し、高速な推論機能と優れた3D品質を提供する。 しかし、これらの手法は静的シーンと動的シーンの両方において過度な再構成に苦慮している。 本稿では,空間的および時間的周波数の観点からこれらの課題に対処する,変形可能な内視鏡再構成のための新しいアプローチであるHFGSを提案する。 提案手法では,動的シーンの処理に変形場を導入し,空間周波数強調再構成(Spatial High-Frequency Emphasis Reconstruction, SHF)を導入し, レンダリング画像と地上真実との空間周波数スペクトルの差を最小化する。 さらに,時間的高周波強調再建(THF)を導入し,流れの先行を生かし,動き集約的な部分の最適化に焦点をあてることで,ニューラルレンダリングのダイナミックな認識を高める。 広く使われている2つのベンチマークの大規模な実験は、HFGSが優れたレンダリング品質を達成することを示した。

Robot-assisted minimally invasive surgery benefits from enhancing dynamic scene reconstruction, as it improves surgical outcomes. While Neural Radiance Fields (NeRF) have been effective in scene reconstruction, their slow inference speeds and lengthy training durations limit their applicability. To overcome these limitations, 3D Gaussian Splatting (3D-GS) based methods have emerged as a recent trend, offering rapid inference capabilities and superior 3D quality. However, these methods still struggle with under-reconstruction in both static and dynamic scenes. In this paper, we propose HFGS, a novel approach for deformable endoscopic reconstruction that addresses these challenges from spatial and temporal frequency perspectives. Our approach incorporates deformation fields to better handle dynamic scenes and introduces Spatial High-Frequency Emphasis Reconstruction (SHF) to minimize discrepancies in spatial frequency spectra between the rendered image and its ground truth. Additionally, we introduce Temporal High-Frequency Emphasis Reconstruction (THF) to enhance dynamic awareness in neural rendering by leveraging flow priors, focusing optimization on motion-intensive parts. Extensive experiments on two widely used benchmarks demonstrate that HFGS achieves superior rendering quality.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# グラフインストラクションチューニングのための共同埋め込み

Joint Embeddings for Graph Instruction Tuning ( http://arxiv.org/abs/2405.20684v2 )

ライセンス: Link先を確認
Aaron Haag, Vlad Argatu, Oliver Lohse, (参考訳) 大規模言語モデル(LLM)は、テキスト理解において優れたパフォーマンスを達成し、スマートアシスタントを構築する上で不可欠なツールとなった。 元々はテキストに焦点を合わせていたが、近年の作業ではマルチモーダル機能によって強化され、視覚的な指示を後続するアシスタントの構築に成功している。 しかし、グラフのモジュラリティに関しては、そのようなアシスタントはまだ開発されていない。 グラフ構造は、異なる特徴間の関係を表現し、置換不変であるという点で複雑である。 さらに、それらを純粋にテキスト形式で表現することは、微調整されたモデルであっても、必ずしも優れたLCM性能をもたらすとは限らない。 その結果,汎用的なグラフ理解のために,LLMにグラフを統合する新しい手法を開発する必要がある。 本研究は,LLMにおけるグラフのモダリティの統合について検討する。 グラフ埋め込みで基礎となるLLMを強化し、それらを理解できるように訓練し、グラフ表現に基礎を置く命令を与えられた答えを生成する、深層学習モデルを作成することを目的としている。 このアプローチは、グラフからテキストへのアプローチよりもはるかに優れており、大きなグラフであっても一貫性が保たれている。

Large Language Models (LLMs) have achieved impressive performance in text understanding and have become an essential tool for building smart assistants. Originally focusing on text, they have been enhanced with multimodal capabilities in recent works that successfully built visual instruction following assistants. As far as the graph modality goes, however, no such assistants have yet been developed. Graph structures are complex in that they represent relation between different features and are permutation invariant. Moreover, representing them in purely textual form does not always lead to good LLM performance even for finetuned models. As a result, there is a need to develop a new method to integrate graphs in LLMs for general graph understanding. This work explores the integration of the graph modality in LLM for general graph instruction following tasks. It aims at producing a deep learning model that enhances an underlying LLM with graph embeddings and trains it to understand them and to produce, given an instruction, an answer grounded in the graph representation. The approach performs significantly better than a graph to text approach and remains consistent even for larger graphs.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# ADESSE:複雑反復意思決定環境におけるアドバイス説明

ADESSE: Advice Explanations in Complex Repeated Decision-Making Environments ( http://arxiv.org/abs/2405.20705v2 )

ライセンス: Link先を確認
Sören Schleibaum, Lu Feng, Sarit Kraus, Jörg P. Müller, (参考訳) 人間中心AIの進化する状況において、意思決定プロセスにおける人間とAIエージェントの相乗的関係を育むことは、最重要課題である。 本研究は、ニューラルネットワークベースの予測コンポーネントと深層強化学習コンポーネントからなるインテリジェントエージェントが、複雑な意思決定環境において、人間の意思決定者にアドバイスを提供する、という問題設定を考察する。 人間の意思決定者がエージェントのアドバイスに従うかどうかは、エージェントに対する信念と信頼、そしてアドバイス自体に対する理解に依存する。 そこで我々は,人的信頼と意思決定を改善するために,アドバイザーエージェントに関する説明を生成するためのADESSEというアプローチを開発した。 様々なモデルサイズを持つ様々な環境における計算実験は、ADESSEの適用性と拡張性を示している。 さらに,対話型ゲームを用いたユーザスタディでは,参加者の満足度が大きく向上し,ゲームにおける報酬が向上し,ADESSEが生成した説明を提示した場合の行動選択に要する時間が短縮された。 これらの知見は、AIによる意思決定における調整された人間中心の説明の重要性を浮き彫りにしている。

In the evolving landscape of human-centered AI, fostering a synergistic relationship between humans and AI agents in decision-making processes stands as a paramount challenge. This work considers a problem setup where an intelligent agent comprising a neural network-based prediction component and a deep reinforcement learning component provides advice to a human decision-maker in complex repeated decision-making environments. Whether the human decision-maker would follow the agent's advice depends on their beliefs and trust in the agent and on their understanding of the advice itself. To this end, we developed an approach named ADESSE to generate explanations about the adviser agent to improve human trust and decision-making. Computational experiments on a range of environments with varying model sizes demonstrate the applicability and scalability of ADESSE. Furthermore, an interactive game-based user study shows that participants were significantly more satisfied, achieved a higher reward in the game, and took less time to select an action when presented with explanations generated by ADESSE. These findings illuminate the critical role of tailored, human-centered explanations in AI-assisted decision-making.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# 遺伝的プログラミングによる動的シンボリック・ポリシーの発見

Discovering Dynamic Symbolic Policies with Genetic Programming ( http://arxiv.org/abs/2406.02765v4 )

ライセンス: Link先を確認
Sigur de Vries, Sander Keemink, Marcel van Gerven, (参考訳) 人工知能技術は制御問題の解決にますます応用されているが、しばしば透明な出力生成のないブラックボックス方式に依存している。 制御系における解釈可能性と透明性を改善するために、モデルは数学的表現によって記述されたホワイトボックスのシンボルポリシーとして定義することができる。 シンボリックポリシーを学ぶための現在のアプローチは、観測を直接制御信号にマッピングする静的ポリシーに焦点を当てているが、これらは部分的に観測可能で不安定な環境で失敗する可能性がある。 代わりに、遺伝的プログラミングで最適化されたメモリによる動的な象徴的ポリシーを考える。 結果として得られるポリシーは堅牢であり、結合された微分方程式を容易に解釈できる。 この結果から, 動的シンボルポリシは, 様々な制御タスクにおけるブラックボックスポリシと比較できることがわかった。 さらに、静的ポリシーが不足している実験では、動的ポリシーにおけるメモリの利点が示される。 全体として,ブラックボックスモデルに欠けている解釈可能性と透明性を提供する,高性能なシンボルポリシーを進化させる手法を提案する。

Artificial intelligence techniques are increasingly being applied to solve control problems, but often rely on black-box methods without transparent output generation. To improve the interpretability and transparency in control systems, models can be defined as white-box symbolic policies described by mathematical expressions. While current approaches to learn symbolic policies focus on static policies that directly map observations to control signals, these may fail in partially observable and volatile environments. We instead consider dynamic symbolic policies with memory, optimised with genetic programming. The resulting policies are robust, and consist of easy to interpret coupled differential equations. Our results show that dynamic symbolic policies compare with black-box policies on a variety of control tasks. Furthermore, the benefit of the memory in dynamic policies is demonstrated on experiments where static policies fall short. Overall, we present a method for evolving high-performing symbolic policies that offer interpretability and transparency, which lacks in black-box models.
翻訳日:2024-09-11 23:03:57 公開日:2024-09-10
# Deeper-PINN: 要素的乗算に基づく物理インフォームドニューラルネットワーク

Deeper-PINNs: Element-wise Multiplication Based Physics-informed Neural Networks ( http://arxiv.org/abs/2406.04170v3 )

ライセンス: Link先を確認
Feilong Jiang, Xiaonan Hou, Min Xia, (参考訳) 偏微分方程式(PDE)を解くための有望な枠組みとして、物理情報ニューラルネットワーク(PINN)は産業や科学分野から広く注目を集めている。 しかし、表現力の欠如や初期化病理の問題点は、複雑なPDEにPINNを適用するのを妨げている。 本研究では,これらの問題を解決するために,より深い物理インフォームドニューラルネットワーク(Deeper-PINN)を提案する。 要素ワイド乗算演算は、特徴を高次元の非線形空間に変換するために用いられる。 Deeper-PINNは、要素の乗算操作から恩恵を受け、PINNの初期化病理を緩和し、PINNの表現能力を高める。 提案手法は様々なベンチマークで検証される。 以上の結果から,Deeper-PINNは初期化病理を効果的に解決し,強力な表現能力を示すことが示唆された。

As a promising framework for resolving partial differential equations (PDEs), physics-informed neural networks (PINNs) have received widespread attention from industrial and scientific fields. However, lack of expressive ability and initialization pathology issues are found to prevent the application of PINNs in complex PDEs. In this work, we propose Deeper Physics-Informed Neural Network (Deeper-PINN) to resolve these issues. The element-wise multiplication operation is adopted to transform features into high-dimensional, non-linear spaces. Benefiting from element-wise multiplication operation, Deeper-PINNs can alleviate the initialization pathologies of PINNs and enhance the expressive capability of PINNs. The proposed structure is verified on various benchmarks. The results show that Deeper-PINNs can effectively resolve the initialization pathology and exhibit strong expressive ability.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# グラフニューラルネットワークの統計的一般化に関する多様体的考察

A Manifold Perspective on the Statistical Generalization of Graph Neural Networks ( http://arxiv.org/abs/2406.05225v3 )

ライセンス: Link先を確認
Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, (参考訳) 畳み込みニューラルネットワークはグラフ上での動作に成功し、グラフニューラルネットワーク(GNN)が誕生した。 GNNはグラフ畳み込みの連続的な応用によって隣接ノードからの情報を結合する。 GNNは様々な学習タスクでうまく実装されているが、その一般化能力に関する理論的理解はまだ進行中である。 本稿では, GNN の統計一般化ギャップを解析するために, 多様体理論を活用する。 ノードレベルとグラフレベルの両方のタスクにおけるGNNの一般化ギャップについて検討する。 学習グラフのノード数によって一般化のギャップが減少し、GNNの多様体上の点への一般化が保証されることを示す。 複数の実世界のデータセットで理論的結果を検証する。

Convolutional neural networks have been successfully extended to operate on graphs, giving rise to Graph Neural Networks (GNNs). GNNs combine information from adjacent nodes by successive applications of graph convolutions. GNNs have been implemented successfully in various learning tasks while the theoretical understanding of their generalization capability is still in progress. In this paper, we leverage manifold theory to analyze the statistical generalization gap of GNNs operating on graphs constructed on sampled points from manifolds. We study the generalization gaps of GNNs on both node-level and graph-level tasks. We show that the generalization gaps decrease with the number of nodes in the training graphs, which guarantees the generalization of GNNs to unseen points over manifolds. We validate our theoretical results in multiple real-world datasets.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# SAMM:Sharded Automated Market Maker

SAMM: Sharded Automated Market Maker ( http://arxiv.org/abs/2406.05568v4 )

ライセンス: Link先を確認
Hongyin Chen, Amit Vaisman, Ittay Eyal, (参考訳) AMM(Automated Market Makers)は、分散型金融の基盤である。 ブロックチェーン上で動作するスマートコントラクト(ステートフルプログラム)である。 トレーダーはAMMとトークンを交換し、流動性プロバイダは流動性を提供し、これらの手数料を得る。 AMMの需要は急速に増加しているが、我々の実験に基づく推計では、現在のアーキテクチャは2029年までに予測された需要を満たすことができない。 これは、既存のAMMの実行が並列化できないためである。 複数のシャードからなるAMMであるSAMMを提案する。 すべてのシャードは同じチェーン上で実行されるAMMだが、独立性は並列実行を可能にする。 古典的なシャーディングソリューションとは異なり、このセキュリティはインセンティブの互換性に依存している。 そのため、SAMMは新たな料金設計を導入している。 サブゲーム・パーフェクト・ナッシュ均衡(SPNE)の分析により,SAMMは望ましい行動のインセンティブを与えることを示す: 流動性プロバイダはすべてのシャード間で流動性をバランスさせ,不安定化攻撃を克服し,取引を均等に分散する。 実世界のデータを用いたシミュレーションによりゲーム理論解析を検証する。 我々は,ShuブロックチェーンとSolanaブロックチェーンのローカルテストネット上に実装し,デプロイすることでSAMMを評価する。 私たちの知る限りでは、これは `hot-contract'' のパフォーマンスの最初の定量化です。 SAMMはスループットをそれぞれ5倍と16倍改善し、基盤となるブロックチェーンの並列化を向上する可能性がある。 直接デプロイ可能で、今後のスケーリングボトルネックを軽減する。

Automated Market Makers (AMMs) are a cornerstone of decentralized finance. They are smart contracts (stateful programs) running on blockchains. They enable virtual token exchange: Traders swap tokens with the AMM for a fee, while liquidity providers supply liquidity and earn these fees. Demand for AMMs is growing rapidly, but our experiment-based estimates show that current architectures cannot meet the projected demand by 2029. This is because the execution of existing AMMs is non-parallelizable. We present SAMM, an AMM comprising multiple shards. All shards are AMMs running on the same chain, but their independence enables parallel execution. Unlike classical sharding solutions, here security relies on incentive compatibility. Therefore, SAMM introduces a novel fee design. Through analysis of Subgame-Perfect Nash Equilibria (SPNE), we show that SAMM incentivizes the desired behavior: Liquidity providers balance liquidity among all shards, overcoming destabilization attacks, and trades are evenly distributed. We validate our game-theoretic analysis with a simulation using real-world data. We evaluate SAMM by implementing and deploying it on local testnets of the Sui and Solana blockchains. To our knowledge, this is the first quantification of ``hot-contract'' performance. SAMM improves throughput by 5x and 16x, respectively, potentially more with better parallelization of the underlying blockchains. It is directly deployable, mitigating the upcoming scaling bottleneck.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# CAMS: コンボリューションと無注意マンバ型心臓画像の分離

CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation ( http://arxiv.org/abs/2406.05786v2 )

ライセンス: Link先を確認
Abbas Khan, Muhammad Asad, Martin Benning, Caroline Roney, Gregory Slabaugh, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの自己アテンションモデルは、医療画像セグメンテーションの標準となっている。 本稿では、畳み込みと自己意識が、広く使われているが、セグメンテーションに有効な方法ではないことを実証する。 コンベンションを破って,CAMS-Netというマンバに基づくセマンティックセマンティックセグメンテーションネットワークを提案する。 具体的には、各エンコーダ・デコーダ段階で独立して適用されるMambaベースのチャネルアグリゲータと空間アグリゲータを設計する。 Channel Aggregatorは異なるチャネルにまたがる情報を抽出し、Spatial Aggregatorは異なる空間位置にわたる特徴を学習する。 また、2つの因子化マンバブロック間の非線形性を導入することにより、マンバブロックの計算複雑性を低減し、その決定機能を向上させるために、線形連結係数化マンバブロック(LIFM)を提案する。 我々のモデルは、CMRとM&Ms-2の心臓セグメンテーションデータセットにおける既存のCNN、自己アテンション、およびMambaベースの手法よりも優れており、この革新的な、畳み込み、自己アテンションのない手法が、CNNやTransformerのパラダイムを超えてさらなる研究を刺激し、線形複雑性を達成し、パラメータの数を減少させる方法を示している。 ソースコードと事前訓練されたモデルは、受理時に公開される。

Convolutional Neural Networks (CNNs) and Transformer-based self-attention models have become the standard for medical image segmentation. This paper demonstrates that convolution and self-attention, while widely used, are not the only effective methods for segmentation. Breaking with convention, we present a Convolution and self-Attention-free Mamba-based semantic Segmentation Network named CAMS-Net. Specifically, we design Mamba-based Channel Aggregator and Spatial Aggregator, which are applied independently in each encoder-decoder stage. The Channel Aggregator extracts information across different channels, and the Spatial Aggregator learns features across different spatial locations. We also propose a Linearly Interconnected Factorized Mamba (LIFM) block to reduce the computational complexity of a Mamba block and to enhance its decision function by introducing a non-linearity between two factorized Mamba blocks. Our model outperforms the existing state-of-the-art CNN, self-attention, and Mamba-based methods on CMR and M&Ms-2 Cardiac segmentation datasets, showing how this innovative, convolution, and self-attention-free method can inspire further research beyond CNN and Transformer paradigms, achieving linear complexity and reducing the number of parameters. Source code and pre-trained models will be publicly available upon acceptance.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# Valeo4Cast: エンドツーエンドの予測に対するモジュール的アプローチ

Valeo4Cast: A Modular Approach to End-to-End Forecasting ( http://arxiv.org/abs/2406.08113v2 )

ライセンス: Link先を確認
Yihong Xu, Éloi Zablocki, Alexandre Boulch, Gilles Puy, Mickael Chen, Florent Bartoccioni, Nermin Samet, Oriane Siméoni, Spyros Gidaris, Tuan-Hung Vu, Andrei Bursuc, Eduardo Valle, Renaud Marlet, Matthieu Cord, (参考訳) 運動予測は、歩行者、車両、交通信号などの周辺エージェントの将来の軌道を予測するために、自律運転システムにおいて不可欠である。 エンドツーエンドの予測では、モデルはシーンの異なる要素の過去の軌跡をセンサーデータ(カメラまたはLiDAR)から共同で検出し、追跡し、将来の位置を予測する必要がある。 私たちは、知覚から予測までエンドツーエンドのトレーニングを通じて、このタスクに取り組む現在のトレンドから離れ、代わりにモジュラーアプローチを使用します。 検出、追跡、予測モジュールを個別に構築し、トレーニングします。 その後、モジュールをよりよく統合し、複雑なエラーを軽減するために、連続的な微調整ステップのみを使用します。 ファインタニング戦略の詳細な研究を行い、我々の単純で効果的なアプローチは、エンドツーエンドの予測ベンチマークの性能を著しく向上させることを示した。 その結果、我々の解法はArgoverse 2 end-to-end Forecasting Challengeに63.82 mAPfでランクインした。 私たちは、昨年の優勝者より+17.1ポイント、今年の優勝者より+13.3ポイント、予測結果を+17.1ポイント上回る。 予測におけるこの顕著なパフォーマンスは、微調整戦略を統合したモジュールパラダイムによって説明できます。

Motion forecasting is crucial in autonomous driving systems to anticipate the future trajectories of surrounding agents such as pedestrians, vehicles, and traffic signals. In end-to-end forecasting, the model must jointly detect and track from sensor data (cameras or LiDARs) the past trajectories of the different elements of the scene and predict their future locations. We depart from the current trend of tackling this task via end-to-end training from perception to forecasting, and instead use a modular approach. We individually build and train detection, tracking and forecasting modules. We then only use consecutive finetuning steps to integrate the modules better and alleviate compounding errors. We conduct an in-depth study on the finetuning strategies and it reveals that our simple yet effective approach significantly improves performance on the end-to-end forecasting benchmark. Consequently, our solution ranks first in the Argoverse 2 End-to-end Forecasting Challenge, with 63.82 mAPf. We surpass forecasting results by +17.1 points over last year's winner and by +13.3 points over this year's runner-up. This remarkable performance in forecasting can be explained by our modular paradigm, which integrates finetuning strategies and significantly outperforms the end-to-end-trained counterparts.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# マルチメディアネットワークにおけるQoE評価のための機械学習駆動オープンソースフレームワーク

Machine Learning-Driven Open-Source Framework for Assessing QoE in Multimedia Networks ( http://arxiv.org/abs/2406.08564v2 )

ライセンス: Link先を確認
Parsa Hassani Shariat Panahi, Amir Hossein Jalilvand, Abolfazl Diyanat, (参考訳) インターネットは現代の生活に不可欠なものであり、コミュニケーション、ビジネス、ライフスタイルに影響を与えている。 インターネットサービスへの依存が高まるにつれ、高品質なサービス提供の需要が高まっている。 サービスプロバイダは、ユーザの満足度を確保するために、サービスの品質とエクスペリエンスの質(QoE)の高水準を維持しなければなりません。 サービス品質に対するユーザの満足度を反映したQoEは、マルチメディアサービスにとって重要な指標であるが、その主観的性質とリアルタイムフィードバックの複雑さのために測定することは困難である。 本稿では,マルチメディアネットワークにおけるQoEを客観的に評価するための機械学習ベースのフレームワークを提案する。 オープンソースフレームワークはITU-T P.1203標準に準拠している。 遅延、ジッタ、パケット損失、ビットレート、スループットといった重要なネットワークパラメータを使用して、データ収集とユーザの満足度予測を自動化する。 様々なネットワーク条件から2万以上のデータセットを用いて、ランダムフォレストモデルは平均スコアスコアを95.8%の精度で予測する。 我々のフレームワークは、リアルタイムデータ収集、機械学習予測、国際標準への準拠を統合することで、既存のQoEモデルの限界に対処する。 このアプローチはQoE評価の精度を高め、動的ネットワークリソース管理を可能にし、性能とコスト効率を最適化する。 オープンソースの性質は、様々なマルチメディアサービスの適応と拡張を促進する。 この結果は、マルチメディアサービスの管理と最適化において、電気通信産業に大きな影響を及ぼす。 このフレームワークのネットワーク中心のQoE予測は、コンテンツ固有のデータを必要としない、ユーザ満足度を改善するスケーラブルなソリューションを提供する。 今後の拡張には、高度な機械学習モデルと、デジタルサービスへの広範な適用性が含まれる。 本研究は,多種多様なネットワークおよびプラットフォームを対象としたQoE評価のための,実用的で標準化されたツールを提供する。

The Internet is integral to modern life, influencing communication, business, and lifestyles globally. As dependence on Internet services grows, the demand for high-quality service delivery increases. Service providers must maintain high standards of quality of service and quality of experience (QoE) to ensure user satisfaction. QoE, which reflects user satisfaction with service quality, is a key metric for multimedia services, yet it is challenging to measure due to its subjective nature and the complexities of real-time feedback. This paper introduces a machine learning-based framework for objectively assessing QoE in multimedia networks. The open-source framework complies with the ITU-T P.1203 standard. It automates data collection and user satisfaction prediction using key network parameters such as delay, jitter, packet loss, bitrate, and throughput. Using a dataset of over 20,000 records from various network conditions, the Random Forest model predicts the mean opinion score with 95.8% accuracy. Our framework addresses the limitations of existing QoE models by integrating real-time data collection, machine learning predictions, and adherence to international standards. This approach enhances QoE evaluation accuracy and allows dynamic network resource management, optimizing performance and cost-efficiency. Its open-source nature encourages adaptation and extension for various multimedia services. The findings significantly affect the telecommunications industry in managing and optimizing multimedia services. The network centric QoE prediction of the framework offers a scalable solution to improve user satisfaction without the need for content-specific data. Future enhancements could include advanced machine learning models and broader applicability to digital services. This research contributes a practical, standardized tool for QoE assessment across diverse networks and platforms.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# ワンダーワールド:1枚の画像からインタラクティブな3Dシーン生成

WonderWorld: Interactive 3D Scene Generation from a Single Image ( http://arxiv.org/abs/2406.09394v3 )

ライセンス: Link先を確認
Hong-Xing Yu, Haoyi Duan, Charles Herrmann, William T. Freeman, Jiajun Wu, (参考訳) 我々は,インタラクティブな3Dシーン生成のための新しいフレームワークであるWonderWorldを紹介した。 最大の課題は、3Dシーンを高速に生成することである。 既存のシーン生成手法は,(1)多くのビューや深度マップを段階的に生成し,(2)シーン幾何学表現の時間を要する最適化を行う。 我々は,FLAGS(Fast Layered Gaussian Surfels)をシーン表現として紹介し,それを単一ビューから生成するアルゴリズムを提案する。 提案手法は複数のビューを必要としないため,最適化時間を大幅に短縮する幾何ベースの初期化を利用する。 もうひとつの課題は、すべてのシーンを接続するコヒーレントな幾何学を生成することだ。 本稿では,深度推定の部分的条件付けを可能にするガイド付き深度拡散法を提案する。 WonderWorldは、1つのA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成し、リアルタイムのユーザインタラクションと探索を可能にする。 仮想環境におけるユーザ主導型コンテンツ作成と探索におけるWonderWorldの可能性を示す。 再現性のための完全なコードとソフトウェアをリリースします。 プロジェクトWebサイト: https://kovenyu.com/WonderWorld/.com

We present WonderWorld, a novel framework for interactive 3D scene generation that enables users to interactively specify scene contents and layout and see the created scenes in low latency. The major challenge lies in achieving fast generation of 3D scenes. Existing scene generation approaches fall short of speed as they often require (1) progressively generating many views and depth maps, and (2) time-consuming optimization of the scene geometry representations. We introduce the Fast Layered Gaussian Surfels (FLAGS) as our scene representation and an algorithm to generate it from a single view. Our approach does not need multiple views, and it leverages a geometry-based initialization that significantly reduces optimization time. Another challenge is generating coherent geometry that allows all scenes to be connected. We introduce the guided depth diffusion that allows partial conditioning of depth estimation. WonderWorld generates connected and diverse 3D scenes in less than 10 seconds on a single A6000 GPU, enabling real-time user interaction and exploration. We demonstrate the potential of WonderWorld for user-driven content creation and exploration in virtual environments. We will release full code and software for reproducibility. Project website: https://kovenyu.com/WonderWorld/.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# WaDec: 大規模言語モデルを使用したWebAssemblyの逆コンパイル

WaDec: Decompiling WebAssembly Using Large Language Model ( http://arxiv.org/abs/2406.11346v2 )

ライセンス: Link先を確認
Xinyu She, Yanjie Zhao, Haoyu Wang, (参考訳) WebAssembly(略してWasm)はWeb開発の基礎として現れ、Webブラウザでほぼネイティブに近い速度で実行可能な、コンパクトなバイナリフォーマットを提供する。 その利点にもかかわらず、Wasmのバイナリの性質は、特にWebアプリケーションのデバッグや解析における可読性に関して、開発者や研究者にとって大きな課題をもたらしている。 そのため、効率的な逆コンパイルが重要となる。 残念ながら、従来の逆コンパイラは可読性のある出力を生成するのに苦労することが多い。 いくつかの大きな言語モデル(LLM)ベースのデコンパイラは、一般的なバイナリファイルとの互換性が良いことを示しているが、Wasmを扱う際には、特別な問題に直面している。 本稿では、Wasmバイナリコードをより高レベルでより理解しやすいソースコード表現に解釈・デコンパイルするための微調整LDMの最初の使用である、新しいアプローチ、WaDecを紹介する。 LLMは、Wat-Cコードスニペットの特別なデータセットを使用して、綿密に微調整され、自己教師付き学習技術を用いている。 これにより、WaDecは完全なWat関数だけでなく、よりきめ細かいWatコードスニペットを効果的に分解できる。 我々の実験は、WaDecが現在の最先端ツールを著しく上回り、いくつかのメトリクスで大幅に改善されていることを実証した。 コードインフレーション率はわずか3.34%であり、最先端の116.94%と比べて97%も劇的に減少している。 直接コンパイルまたは実行できないベースラインの出力とは異なり、WaDecは52.11%、再実行率43.55%、出力一貫性27.15%を維持している。 さらに、AST編集距離の最先端性能を185%、サイクロマティック複雑性を8%、コサイン類似度を41%、平均コード類似度を50%以上達成している。

WebAssembly (abbreviated Wasm) has emerged as a cornerstone of web development, offering a compact binary format that allows high-performance applications to run at near-native speeds in web browsers. Despite its advantages, Wasm's binary nature presents significant challenges for developers and researchers, particularly regarding readability when debugging or analyzing web applications. Therefore, effective decompilation becomes crucial. Unfortunately, traditional decompilers often struggle with producing readable outputs. While some large language model (LLM)-based decompilers have shown good compatibility with general binary files, they still face specific challenges when dealing with Wasm. In this paper, we introduce a novel approach, WaDec, which is the first use of a fine-tuned LLM to interpret and decompile Wasm binary code into a higher-level, more comprehensible source code representation. The LLM was meticulously fine-tuned using a specialized dataset of wat-c code snippets, employing self-supervised learning techniques. This enables WaDec to effectively decompile not only complete wat functions but also finer-grained wat code snippets. Our experiments demonstrate that WaDec markedly outperforms current state-of-the-art tools, offering substantial improvements across several metrics. It achieves a code inflation rate of only 3.34%, a dramatic 97% reduction compared to the state-of-the-art's 116.94%. Unlike baselines' output that cannot be directly compiled or executed, WaDec maintains a recompilability rate of 52.11%, a re-execution rate of 43.55%, and an output consistency of 27.15%. Additionally, it significantly exceeds state-of-the-art performance in AST edit distance by 185%, cyclomatic complexity by 8%, and cosine similarity by 41%, achieving an average code similarity above 50%.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# オーバー・ザ・エア・フェデレーション・メタラーニングによる事前学習とパーソナライズされたファインチューニング:収束・一般化貿易

Pre-Training and Personalized Fine-Tuning via Over-the-Air Federated Meta-Learning: Convergence-Generalization Trade-Offs ( http://arxiv.org/abs/2406.11569v2 )

ライセンス: Link先を確認
Haifeng Wen, Hong Xing, Osvaldo Simeone, (参考訳) 大規模言語モデル(LLM)のような現代の人工知能(AI)アプリケーションでは、トレーニングパラダイムは、最近、事前トレーニングに移行し、微調整されている。 さらに、データのオープンリポジトリの縮小や、AIモデルへのアクセスを民主化する努力のおかげで、事前トレーニングは、現在の集中型デプロイメントからフェデレートドラーニング(FL)実装への移行がますます進むことが期待されている。 メタラーニングは、事前学習と微調整を形式化するための一般的なフレームワークを提供する。 メタラーニングに基づくパーソナライズFL(meta-pFL)は、新しいエージェントやタスクへの一般化を目標にすることで、基本的なパーソナライズ以上のものとなる。 本稿では、学習前段階(メタラーニング)に参加するエージェントが共有無線チャンネルを介してサーバに接続される無線環境におけるメタpFLの一般化性能について検討する。 オーバー・ザ・エア・コンピューティングを採用することで,新しいエージェントやタスクへの一般化と,一方で収束のトレードオフについて検討する。 このトレードオフは、チャネル障害が収束を低下させながら一般化を促進するという事実から生じる。 膨大な数値が理論を検証している。

For modern artificial intelligence (AI) applications such as large language models (LLMs), the training paradigm has recently shifted to pre-training followed by fine-tuning. Furthermore, owing to dwindling open repositories of data and thanks to efforts to democratize access to AI models, pre-training is expected to increasingly migrate from the current centralized deployments to federated learning (FL) implementations. Meta-learning provides a general framework in which pre-training and fine-tuning can be formalized. Meta-learning-based personalized FL (meta-pFL) moves beyond basic personalization by targeting generalization to new agents and tasks. This paper studies the generalization performance of meta-pFL for a wireless setting in which the agents participating in the pre-training phase, i.e., meta-learning, are connected via a shared wireless channel to the server. Adopting over-the-air computing, we study the trade-off between generalization to new agents and tasks, on the one hand, and convergence, on the other hand. The trade-off arises from the fact that channel impairments may enhance generalization, while degrading convergence. Extensive numerical results validate the theory.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# ALiiCE: 位置決めきめ細粒化生成の評価

ALiiCE: Evaluating Positional Fine-grained Citation Generation ( http://arxiv.org/abs/2406.13375v2 )

ライセンス: Link先を確認
Yilong Xu, Jinhua Gao, Xiaoming Yu, Baolong Bi, Huawei Shen, Xueqi Cheng, (参考訳) LLM(Large Language Models)は、引用文を生成することによって、信頼性と妥当性を高めることができる。 しかし、既存のタスクや評価方法は文レベルの文に限られており、文のどこにでも現れるような位置的きめ細かい引用の重要性を無視している。 そこで本研究では,このタスクのための最初の自動評価フレームワークであるALiiCEを提案する。 我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。 ALiiCEは3つの新しい測定基準を導入し、位置きめのきめのきめのきめのきめの参照と精度、引用位置のばらつきの係数を含む、位置きめのきめのきめのきめのきめのきめのきめのきめのきめのきめのきめのきめ細やかさの評価を行った。 2つの長周期QAデータセット上で,数個のLCMの位置的きめ細かな励起生成性能を評価する。 実験と分析により,ALiiCEの有効性と妥当性が示された。 また, 既存のLLMでは, 位置の微粒化に苦慮していることが示唆された。

Large Language Models (LLMs) can enhance the credibility and verifiability by generating text with citations. However, existing tasks and evaluation methods are predominantly limited to sentence-level statement, neglecting the significance of positional fine-grained citations that can appear anywhere within sentences. To facilitate further exploration of the fine-grained citation generation, we propose ALiiCE, the first automatic evaluation framework for this task. Our framework first parses the sentence claim into atomic claims via dependency analysis and then calculates citation quality at the atomic claim level. ALiiCE introduces three novel metrics for positional fined-grained citation quality assessment, including positional fine-grained citation recall and precision, and coefficient of variation of citation positions. We evaluate the positional fine-grained citation generation performance of several LLMs on two long-form QA datasets. Our experiments and analyses demonstrate the effectiveness and reasonableness of ALiiCE. The results also indicate that existing LLMs still struggle to provide positional fine-grained citations.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# 超伝導量子ビットのためのマグノンを介する量子ゲート

Magnon-mediated quantum gates for superconducting qubits ( http://arxiv.org/abs/2406.14967v2 )

ライセンス: Link先を確認
Martijn Dols, Sanchar Sharma, Lenos Bechara, Yaroslav M. Blanter, Marios Kounalakis, Silvia Viola Kusminskiy, (参考訳) 2つの超伝導トランスモン量子ビットに誘導結合した磁性粒子からなるハイブリッド量子系を提案し、量子ビット-量子ビット相互作用はマグノンを介して媒介される。 このシステムは,3種類の実効量子ビット相互作用,すなわち横(XX+YY$),縦(ZZ$),非自明な$ZX$相互作用に調整可能であることを示す。 また, 楕円形磁石を用いて異方性磁気揺らぎを発生させることにより, 結合性の向上を図っている。 本研究では,2量子ゲートの実現手法を提案し,現実的な実験条件下での性能をシミュレートする。 iSWAP と CZ ゲートは平均フィデリティ $\gtrsim 99 \% $ で、iCNOT ゲートは平均フィデリティ $\gtrsim 88 \%$で適用できる。 提案するハイブリッド回路アーキテクチャは,超伝導量子ビット間の2量子ゲートを実現するための代替プラットフォームを提供し,マグノンをメディエータとする量子ビットネットワークの構築に利用することができる。

We propose a hybrid quantum system consisting of a magnetic particle inductively coupled to two superconducting transmon qubits, where qubit-qubit interactions are mediated via magnons. We show that the system can be tuned into three different regimes of effective qubit-qubit interactions, namely a transverse ($XX + YY$), a longitudinal ($ZZ$) and a non-trivial $ZX$ interaction. In addition, we show that an enhanced coupling can be achieved by employing an ellipsoidal magnet, carrying anisotropic magnetic fluctuations. We propose a scheme for realizing two-qubit gates, and simulate their performance under realistic experimental conditions. We find that iSWAP and CZ gates can be performed in this setup with an average fidelity $\gtrsim 99 \% $ , while an iCNOT gate can be applied with an average fidelity $\gtrsim 88 \%$. Our proposed hybrid circuit architecture offers an alternative platform for realizing two-qubit gates between superconducting qubits and could be employed for constructing qubit networks using magnons as mediators.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# 視覚言語異常検出のための人間の自由な自動プロンプト:メタガイド型プロンプトスキームによるプロンプト最適化

Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme ( http://arxiv.org/abs/2406.18197v3 )

ライセンス: Link先を確認
Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Zih-Ching Chen, Chao-Chun Chen, (参考訳) 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて様々な下流タスクに高度に適用可能であり、プロンプトベースの異常検出は有望なアプローチである。 従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。 我々のゴールは、データ駆動方式でプロンプトを最適に学習し、人間の介入の必要性をなくす、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。 このアプローチの主な課題は、トレーニングフェーズにおける異常サンプルの欠如である。 さらに、VLMにおけるビジョントランスフォーマー(ViT)ベースの画像エンコーダは、元の画像と出力特徴マップとの局所性特徴ミスマッチによる画素ワイド異常セグメンテーションには理想的ではない。 最初の課題に取り組むため、我々は、トレーニング用異常サンプルを合成するオブジェクト指向異常生成モジュール(OAGM)を開発した。 さらに、MPTS(Meta-Guiding Prompt-Tuning Scheme)は、学習可能なプロンプトの勾配に基づく最適化方向を反復的に調整し、合成された異常に過度に適合しないようにする。 第2の課題として,ローカル性意識(Locality-Aware Attention)を提案する。各ローカルパッチ機能は,近傍のパッチ機能にのみ対応し,元のロケーションに対応するローカリティ機能を保持する。 このフレームワークは、人間の意味的な制約なしに、バックプロパゲーションを通じて連続的な潜伏空間を探索することで、最適なプロンプト埋め込みを可能にする。 さらに、修正された局所性認識アテンションにより、画素単位の異常セグメンテーションの精度が向上する。

Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation.
翻訳日:2024-09-11 22:52:03 公開日:2024-09-10
# 物理にヒントを得た橋梁せん断予測のためのDeep LearningとTransferable Model

Physics-Inspired Deep Learning and Transferable Models for Bridge Scour Prediction ( http://arxiv.org/abs/2407.01258v3 )

ライセンス: Link先を確認
Negin Yousefpour, Bo Wang, (参考訳) 本稿では,深層学習を用いたせん断予測のためのハイブリッド物理データ駆動型フレームワークSPINNを紹介する。 SPINNは物理に基づく経験的方程式をディープニューラルネットワークに統合し、サイト固有の履歴監視データを用いてトレーニングする。 Long-Short Term Memory Network (LSTM) とConvolutional Neural Network (CNN) はベースディープラーニング(DL)モデルと考えられている。 また、ブリッジのクラスタからデータセットを集約することでトレーニングされた転送可能/汎用モデルと、サイト/ブリッジ固有のモデルについても検討する。 性能の変動にもかかわらず、SPINNは、ほとんどのケースで純粋なデータ駆動モデルよりも優れていた。 いくつかの橋梁の場合、SPINNは予測エラーを最大50%削減した。 純粋なデータ駆動モデルでは、ハイブリッドモデルと比較して転送性が向上した。 転送可能なDLモデルは、限られたデータを持つブリッジに特に有効であることが証明された。 さらに,SPINNから導出される時間依存経験方程式は最大せん断深度推定に大きな可能性を示し,HEC-18モデルと比較して精度の高い予測が可能となった。 SPINNと従来の経験的モデルを比較すると、せん断予測精度が大幅に向上したことがわかる。 この研究は、物理学に着想を得た機械学習手法のさらなる探索の道を開くことができる。

This paper introduces scour physics-inspired neural networks (SPINNs), a hybrid physics-data-driven framework for bridge scour prediction using deep learning. SPINNs integrate physics-based, empirical equations into deep neural networks and are trained using site-specific historical scour monitoring data. Long-short Term Memory Network (LSTM) and Convolutional Neural Network (CNN) are considered as the base deep learning (DL) models. We also explore transferable/general models, trained by aggregating datasets from a cluster of bridges, versus the site/bridge-specific models. Despite variation in performance, SPINNs outperformed pure data-driven models in the majority of cases. In some bridge cases, SPINN reduced forecasting errors by up to 50 percent. The pure data-driven models showed better transferability compared to hybrid models. The transferable DL models particularly proved effective for bridges with limited data. In addition, the calibrated time-dependent empirical equations derived from SPINNs showed great potential for maximum scour depth estimation, providing more accurate predictions compared to commonly used HEC-18 model. Comparing SPINNs with traditional empirical models indicates substantial improvements in scour prediction accuracy. This study can pave the way for further exploration of physics-inspired machine learning methods for scour prediction.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# エネルギーモデルにおけるロバスト分類器への光の入射

Shedding More Light on Robust Classifiers under the lens of Energy-based Models ( http://arxiv.org/abs/2407.06315v3 )

ライセンス: Link先を確認
Mujtaba Hussain Mirza, Maria Rosaria Briglia, Senad Beadini, Iacopo Masi, (参考訳) 頑健な識別型分類器をエネルギーベースモデル (EBM) として再解釈することにより, 対人訓練 (AT) の力学に新たな視点を与える。 ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。 逆に、ターゲット攻撃の反対を観察する。 本研究は,ATエネルギー力学の解釈が3相に支配され,第3相に強大なオーバーフィッティングが発生すること,第2相にTRadeoff-inspired Adversarial Defenseの損失をSurrogate-loss minimization (TRADES) に書き換えること,TRADESが自然エネルギーと対向エネルギーを整合させることによって過度フィッティングを暗黙的に緩和すること,第3相に強大なオーバーフィッティングが生じること,及び第3相に強大なオーバーフィッティングが生じることを実証的に示す。 CIFAR-10 や SVHN などの複数のベンチマークに適合し,CIFAR-100 や Tiny-ImageNet を超越した精度の高い試料重み付け手法である Weighted Energy Adversarial Training (WEAT) を提案する。 さらに、ロバストな分類器は、その生成能力の強度と品質に変化があることを示し、生成モデリングの訓練を受けずにロバストな分類器を用いて、優れたインセプションスコア(IS)とFIDに到達した。 結果を再現するコードは http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ で公開されている。

By reinterpreting a robust discriminative classifier as Energy-based Model (EBM), we offer a new take on the dynamics of adversarial training (AT). Our analysis of the energy landscape during AT reveals that untargeted attacks generate adversarial images much more in-distribution (lower energy) than the original data from the point of view of the model. Conversely, we observe the opposite for targeted attacks. On the ground of our thorough analysis, we present new theoretical and practical results that show how interpreting AT energy dynamics unlocks a better understanding: (1) AT dynamic is governed by three phases and robust overfitting occurs in the third phase with a drastic divergence between natural and adversarial energies (2) by rewriting the loss of TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization (TRADES) in terms of energies, we show that TRADES implicitly alleviates overfitting by means of aligning the natural energy with the adversarial one (3) we empirically show that all recent state-of-the-art robust classifiers are smoothing the energy landscape and we reconcile a variety of studies about understanding AT and weighting the loss function under the umbrella of EBMs. Motivated by rigorous evidence, we propose Weighted Energy Adversarial Training (WEAT), a novel sample weighting scheme that yields robust accuracy matching the state-of-the-art on multiple benchmarks such as CIFAR-10 and SVHN and going beyond in CIFAR-100 and Tiny-ImageNet. We further show that robust classifiers vary in the intensity and quality of their generative capabilities, and offer a simple method to push this capability, reaching a remarkable Inception Score (IS) and FID using a robust classifier without training for generative modeling. The code to reproduce our results is available at http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ .
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# SUMix: セマンティック情報と不確実情報との混成

SUMix: Mixup with Semantic and Uncertain Information ( http://arxiv.org/abs/2407.07805v4 )

ライセンス: Link先を確認
Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo Gao, (参考訳) ディープニューラルネットワークの一般化能力を改善するために、様々なディープラーニングタスクにミックスアップデータ拡張アプローチが適用されている。 CutMixやSaliencyMixなど、既存のアプローチでは、あるイメージのパッチを別のイメージのパッチにランダムに置き換えて、混合イメージを生成する。 同様に、対応するラベルは、固定比$\lambda$ by lで線形に結合される。 2つの画像中のオブジェクトは混合プロセス中に重複する可能性があるため、混合サンプルで意味情報が破損する。 この場合、混合画像は混合ラベル情報と一致しない。 さらに、このようなラベルはディープラーニングモデルのトレーニングを誤解させ、結果としてパフォーマンスが低下する可能性がある。 そこで我々は,SUMixという新しい手法を提案し,混合率と混合試料の不確かさを学習した。 まず、正確な混合比を計算するために、学習可能な類似度関数を設計する。 第2に,混合試料の不確かさをモデル化するための正規化用語としてアプローチを検討する。 我々は5つの画像ベンチマーク実験を行い、その実験結果から、異なるカットベース混合手法による分類器の性能向上が可能であることが示唆された。 ソースコードはhttps://github.com/JinXins/SUMix.comで入手できる。

Mixup data augmentation approaches have been applied for various tasks of deep learning to improve the generalization ability of deep neural networks. Some existing approaches CutMix, SaliencyMix, etc. randomly replace a patch in one image with patches from another to generate the mixed image. Similarly, the corresponding labels are linearly combined by a fixed ratio $\lambda$ by l. The objects in two images may be overlapped during the mixing process, so some semantic information is corrupted in the mixed samples. In this case, the mixed image does not match the mixed label information. Besides, such a label may mislead the deep learning model training, which results in poor performance. To solve this problem, we proposed a novel approach named SUMix to learn the mixing ratio as well as the uncertainty for the mixed samples during the training process. First, we design a learnable similarity function to compute an accurate mix ratio. Second, an approach is investigated as a regularized term to model the uncertainty of the mixed samples. We conduct experiments on five image benchmarks, and extensive experimental results imply that our method is capable of improving the performance of classifiers with different cutting-based mixup approaches. The source code is available at https://github.com/JinXins/SUMix.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# 視覚障害者向けのアクセシビリティ・コミック

Toward accessible comics for blind and low vision readers ( http://arxiv.org/abs/2407.08248v2 )

ライセンス: Link先を確認
Christophe Rigaud, Jean-Christophe Burie, Samuel Petit, (参考訳) 本研究は,全ストーリーの正確なテキスト記述を生成するために,文脈情報を用いた素早い工学的手法を用いて,大規模言語モデルを微調整する方法を探求する。 本稿では,既存のコンピュータビジョンと光学文字認識技術を用いて,パネル,文字,テキスト,読み順,バブルと文字の関連性など,漫画のストリップ画像コンテンツから背景となるコンテキストを構築することを提案する。 そして、文字識別を推論し、文字の外観、姿勢、気分、対話などを含む文脈対応パネル記述による漫画の脚本を生成する。 このようなリッチなコンテンツ記述は、文字、キャプション、演奏効果の様々な声でオーディオブックや電子書籍を作成するのに容易に利用できると信じている。

This work explores how to fine-tune large language models using prompt engineering techniques with contextual information for generating an accurate text description of the full story, ready to be forwarded to off-the-shelve speech synthesis tools. We propose to use existing computer vision and optical character recognition techniques to build a grounded context from the comic strip image content, such as panels, characters, text, reading order and the association of bubbles and characters. Then we infer character identification and generate comic book script with context-aware panel description including character's appearance, posture, mood, dialogues etc. We believe that such enriched content description can be easily used to produce audiobook and eBook with various voices for characters, captions and playing sound effects.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# STD-PLM:PLMを用いた時空間データの空間的・時間的特性の理解

STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM ( http://arxiv.org/abs/2407.09096v3 )

ライセンス: Link先を確認
YiHeng Huang, Xiaowei Mao, Shengnan Guo, Yubin Chen, Junfeng Shen, Tiankuo Li, Youfang Lin, Huaiyu Wan, (参考訳) 時空間予測と計算は現実世界のインテリジェントシステムにとって重要である。 既存のほとんどの手法は個々の予測や計算作業に向いているが、どちらも設計されていない。 さらに、ゼロショット学習や少数ショット学習では効果が低い。 プレトレーニング言語モデル (PLM) は, ほとんどショット学習やゼロショット学習など様々なタスクにおいて強いパターン認識と推論能力を示してきたが, 時間的相関, 空間的接続性, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係, 時間的相関関係など, 空間的時間的データ理解におけるそれらの応用は不十分なモデリングによって制約されてきた。 本稿では,空間的時間的予測タスクとインプットタスクの両方を実装可能なSTD-PLMを提案する。 STD-PLMは、明示的に設計された空間的および時間的トークン化器を通して空間的時間的相関を理解する。 トポロジ対応ノード埋め込みは、PLMがデータのトポロジ構造を帰納的に理解し、活用するために設計されている。 さらに, PLM が導入した効率問題を緩和するため, 砂時計注意モジュール (SGA) と特定の制約損失関数を組み合わせて設計し, 性能を確保しつつモデルの効率を著しく向上する。 大規模な実験により、STD-PLMは様々なデータセット上の予測および計算タスクにまたがる競争性能と一般化能力を示すことが示された。 コードは \href{https://anonymous.4open.science/r/STD-PLM-F3BA}{https://anonymous.4open.science/r/STD-PLM-F3BA} で公開されている。

Spatial-temporal forecasting and imputation are important for real-world intelligent systems. Most existing methods are tailored for individual forecasting or imputation tasks but are not designed for both. Additionally, they are less effective for zero-shot and few-shot learning. While pre-trained language model (PLM) have exhibited strong pattern recognition and reasoning abilities across various tasks, including few-shot and zero-shot learning, their applications in spatial-temporal data understanding has been constrained by insufficient modeling of complex correlations such as the temporal correlations, spatial connectivity, non-pairwise and high-order spatial-temporal correlations within data. In this paper, we propose STD-PLM for understanding both spatial and temporal properties of \underline{S}patial-\underline{T}emporal \underline{D}ata with \underline{PLM}, which is capable of implementing both spatial-temporal forecasting and imputation tasks. STD-PLM understands spatial-temporal correlations via explicitly designed spatial and temporal tokenizers. Topology-aware node embeddings are designed for PLM to comprehend and exploit the topology structure of data in inductive manner. Furthermore, to mitigate the efficiency issues introduced by the PLM, we design a sandglass attention module (SGA) combined with a specific constrained loss function, which significantly improves the model's efficiency while ensuring performance. Extensive experiments demonstrate that STD-PLM exhibits competitive performance and generalization capabilities across the forecasting and imputation tasks on various datasets. Moreover, STD-PLM achieves promising results on both few-shot and zero-shot tasks.The code is made available at \href{https://anonymous.4open.science/r/STD-PLM-F3BA}{https://anonymous.4open.science/r/STD-PLM-F3BA}
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# OT-VP:テスト時間適応のための最適輸送誘導ビジュアルプロンプト

OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation ( http://arxiv.org/abs/2407.09498v2 )

ライセンス: Link先を確認
Yunbei Zhang, Akshay Mehra, Jihun Hamm, (参考訳) 視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。 以前の手法では、トレーニングフェーズ中に迅速な学習を行うか、エントロピーの最小化を通じてテスト時にモデルパラメータを変更するかのいずれかであった。 前者はラベルなしのターゲットデータを見落としていることが多いが、後者はドメインシフトを完全に解決していない。 本研究では, 最適輸送誘導型テストタイムビジュアル・プロンプティング(OT-VP)を用いて, テスト時の迅速な学習を活用して, トレーニングプロセスにアクセスしたり, 事前学習したモデルパラメータを変更することなく, ターゲットドメインとソースドメインを整列させることにより, これらの問題に対処する。 この方法は、最適輸送距離を最適化することで、ターゲット領域の普遍的な視覚的プロンプトを学習することを含む。OT-VPは、4つの学習されたプロンプトトークンだけで、3つのスタイリスティックデータセット(PACS、VLCS、OfficeHome、および1つの破損したデータセット ImageNet-C)で最先端のパフォーマンスを超える。 さらに、OT-VPはメモリと計算の両方で効率的に動作し、オンライン設定の拡張にも適応できる。

Vision Transformers (ViTs) have demonstrated remarkable capabilities in learning representations, but their performance is compromised when applied to unseen domains. Previous methods either engage in prompt learning during the training phase or modify model parameters at test time through entropy minimization. The former often overlooks unlabeled target data, while the latter doesn't fully address domain shifts. In this work, our approach, Optimal Transport-guided Test-Time Visual Prompting (OT-VP), handles these problems by leveraging prompt learning at test time to align the target and source domains without accessing the training process or altering pre-trained model parameters. This method involves learning a universal visual prompt for the target domain by optimizing the Optimal Transport distance.OT-VP, with only four learned prompt tokens, exceeds state-of-the-art performance across three stylistic datasets-PACS, VLCS, OfficeHome, and one corrupted dataset ImageNet-C. Additionally, OT-VP operates efficiently, both in terms of memory and computation, and is adaptable for extension to online settings.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# テクスチャ-GS:空間的に定義された色と平和を持つガウススプラッティング

Textured-GS: Gaussian Splatting with Spatially Defined Color and Opacity ( http://arxiv.org/abs/2407.09733v2 )

ライセンス: Link先を確認
Zhentao Huang, Minglun Gong, (参考訳) 本稿では,Spherical Harmonics (SH) を用いた空間的に定義された色と不透明度の変化を取り入れたガウススプラッティングの手法である Textured-GS を紹介する。 このアプローチにより、各ガウス語は、様々な色や不透明度を表面にわたって調節することで、よりリッチな表現を表現できるようになり、従来の手法に比べてレンダリング品質が著しく向上する。 提案手法のメリットを実証するため,我々はミニ・スプレイティング・アーキテクチャを応用し,ガウスの数を増大させることなくテクスチャ化されたガウスを統合した。 複数の実世界のデータセットを対象とした実験では、Textured-GSがベースラインのMini-Splattingと標準の3DGSの両方を視覚的忠実度で一貫して上回っていることが示された。 その結果、Textured-GSがガウスベースのレンダリング技術を進歩させ、より効率的で高品質なシーン再構築を約束する可能性を浮き彫りにした。

In this paper, we introduce Textured-GS, an innovative method for rendering Gaussian splatting that incorporates spatially defined color and opacity variations using Spherical Harmonics (SH). This approach enables each Gaussian to exhibit a richer representation by accommodating varying colors and opacities across its surface, significantly enhancing rendering quality compared to traditional methods. To demonstrate the merits of our approach, we have adapted the Mini-Splatting architecture to integrate textured Gaussians without increasing the number of Gaussians. Our experiments across multiple real-world datasets show that Textured-GS consistently outperforms both the baseline Mini-Splatting and standard 3DGS in terms of visual fidelity. The results highlight the potential of Textured-GS to advance Gaussian-based rendering technologies, promising more efficient and high-quality scene reconstructions.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# Qwen2テクニカルレポート

Qwen2 Technical Report ( http://arxiv.org/abs/2407.10671v4 )

ライセンス: Link先を確認
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, Zhihao Fan, (参考訳) 本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。 我々は、0.5から72億までのパラメータを包含し、高密度モデルとMixture-of-Expertsモデルを備えた、基礎的および命令調整型言語モデルの包括的スイートをリリースする。 Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超えており、言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して競争力のある性能を示している。 フラッグシップモデルであるQwen2-72Bは、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで84.2、ベース言語モデルで82.4など、優れた性能を発揮した。 命令調整型であるQwen2-72B-InstructはMT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7に達した。 さらにQwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。 コミュニティのイノベーションとアクセシビリティを促進するため、私たちは、Hugging FaceとModelScopeのQwen2モデルウェイトと、GitHubのサンプルコードを含む追加資料を公開しました。 これらのプラットフォームには、量子化、微調整、デプロイメントのためのリソースが含まれており、幅広いアプリケーションや研究の取り組みを容易にしている。

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face and ModelScope, and the supplementary materials including example code on GitHub. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# 位相制御のない準決定論的量子探索アルゴリズム

Near-deterministic quantum search algorithm without phase control ( http://arxiv.org/abs/2407.10748v3 )

ライセンス: Link先を確認
Zhen Wang, Kun Zhang, Vladimir Korepin, (参考訳) グロバーのアルゴリズムは、構造化されていない探索問題を解く。 グローバーのアルゴリズムは、4つのうち1つを検索した場合にのみ、ターゲット項目を確実に見つけることができる。 グローバーのアルゴリズムは、オラクルまたは拡散作用素の位相が微妙に設計されている場合、決定論的である。 位相の精度は問題になるかもしれない。 位相制御のないほぼ決定論的量子探索アルゴリズムを提案する。 我々のアルゴリズムはGroverのアルゴリズムと同じオラクルと拡散演算子を持つ。 さらに1つのコンポーネントは、再スケール拡散演算子である。 部分的にはデータベース上で動作します。 部分拡散演算子によるグローバーのアルゴリズムの成功確率を2つの異なる方法で改善する方法を示す。 可能なコストは、オラクルへの1つまたは2つ以上のクエリである。 また,8,16,32のうち1つを探索する場合に決定論的探索アルゴリズムを設計する。

Grover's algorithm solves the unstructured search problem. Grover's algorithm can find the target item with certainty only if searching one out of four. Grover's algorithm can be deterministic if the phase of the oracle or the diffusion operator is delicately designed. The precision of the phases could be a problem. We propose a near-deterministic quantum search algorithm without the phase control. Our algorithm has the same oracle and diffusion operators as Grover's algorithm. One additional component is the rescaled diffusion operator. It acts partially on the database. We show how to improve the success probability of Grover's algorithm by the partial diffusion operator in two different ways. The possible cost is one or two more queries to the oracle. We also design the deterministic search algorithm when searching one out of eight, sixteen, and thirty-two.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# 古典的量子チャネルの信頼性関数

Reliability Function of Classical-Quantum Channels ( http://arxiv.org/abs/2407.12403v2 )

ライセンス: Link先を確認
Ke Li, Dong Yang, (参考訳) 通信速度がキャパシティ以下である場合にデコードエラーの減衰の最適指数を記述した古典量子チャネルの信頼性関数について検討する。 主な結果として、信頼性関数に対するペッツ形式における量子レニー情報の観点から、下界を証明する。 これは2000年に提唱されたホレヴォの予想を解決し、量子情報理論における長年の未解決問題である。 得られた下界は2013年にダライが導いた上界と一致し、通信速度は臨界値を超える。 したがって、このハイレートの場合の信頼性関数を決定した。 われわれのアプローチは、2022年に行われたRenesのブレークスルーに頼っている。これは古典的量子チャネルのコーディングとプライバシーの増幅とを関連付け、新しいRenyi情報のキャラクタリゼーションである。

We study the reliability function of general classical-quantum channels, which describes the optimal exponent of the decay of decoding error when the communication rate is below the capacity. As main result, we prove a lower bound, in terms of the quantum Renyi information in Petz's form, for the reliability function. This resolves Holevo's conjecture proposed in 2000, a long-standing open problem in quantum information theory. It turns out that the obtained lower bound matches the upper bound derived by Dalai in 2013, when the communication rate is above a critical value. Thus we have determined the reliability function in this high-rate case. Our approach relies on Renes' breakthrough made in 2022, which relates classical-quantum channel coding to that of privacy amplification, as well as our new characterization of the channel Renyi information.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# 3次元点雲からのニューラルサイン付き距離関数学習のためのインプリシットフィルタ

Implicit Filtering for Learning Neural Signed Distance Functions from 3D Point Clouds ( http://arxiv.org/abs/2407.13342v2 )

ライセンス: Link先を確認
Shengtao Li, Ge Gao, Yudong Liu, Ming Gu, Yu-Shen Liu, (参考訳) ニューラルサイン付き距離関数(SDF)は形状幾何学に適合する強力な能力を示している。 しかし、離散的無向点雲から連続符号付き距離場を推論することは依然として困難である。 ニューラルネットワークは通常、粗い表面で形状に適合し、形状の端や角といった細かい幾何学的詳細を省略する。 本稿では,高周波幾何の詳細を保存しながら,暗黙の場を滑らかにするための非線形暗黙フィルタを提案する。 我々の新規性は、符号付き距離場の勾配で隣接する入力点によって曲面(ゼロレベル集合)をフィルタリングできることにある。 入力された原点雲を勾配に沿って移動させることで、提案した暗黙のフィルタリングを非ゼロレベル集合に拡張し、異なるレベル集合間の約束の整合性を維持することができ、結果としてゼロレベル集合の規則化がより良くなる。 対象物および複雑なシーンポイント雲の表面再構成に関する総合的な実験を行い、数値的および視覚的比較により、広く使用されているベンチマークの下での最先端手法に対する改善を実証する。

Neural signed distance functions (SDFs) have shown powerful ability in fitting the shape geometry. However, inferring continuous signed distance fields from discrete unoriented point clouds still remains a challenge. The neural network typically fits the shape with a rough surface and omits fine-grained geometric details such as shape edges and corners. In this paper, we propose a novel non-linear implicit filter to smooth the implicit field while preserving high-frequency geometry details. Our novelty lies in that we can filter the surface (zero level set) by the neighbor input points with gradients of the signed distance field. By moving the input raw point clouds along the gradient, our proposed implicit filtering can be extended to non-zero level sets to keep the promise consistency between different level sets, which consequently results in a better regularization of the zero level set. We conduct comprehensive experiments in surface reconstruction from objects and complex scene point clouds, the numerical and visual comparisons demonstrate our improvements over the state-of-the-art methods under the widely used benchmarks.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# Check-Eval: テキストの品質評価のためのチェックリストベースのアプローチ

Check-Eval: A Checklist-based Approach for Evaluating Text Quality ( http://arxiv.org/abs/2407.14467v2 )

ライセンス: Link先を確認
Jayr Pereira, Andre Assumpcao, Roberto Lotufo, (参考訳) 大規模言語モデル(LLM)が生成するテキストの品質を評価することは、依然として大きな課題である。 伝統的なメトリクスは、創造性やニュアンスを必要とするタスクにおいて、人間の判断とうまく一致しないことが多い。 本稿では,チェックリストに基づく手法を用いて,LLMを用いて生成されたテキストの品質を評価する新しい評価フレームワークであるtextsc{Check-Eval}を提案する。 \textsc{Check-Eval} は、参照なしと参照依存の両方の評価方法として利用でき、構造化され、解釈可能なテキスト品質の評価を提供する。 このフレームワークは、チェックリスト生成とチェックリスト評価の2つの主要なステージで構成されている。 ポルトガルの法定意味的テクスチャ類似度と \textsc{SummEval} という2つのベンチマークデータセット上で, \textsc{Check-Eval} を検証した。 以上の結果から,<textsc{Check-Eval} は,従来の指標である \textsc{G-Eval} や \textsc{GPTScore} と比較して,人間の判断と高い相関性を示し,自然言語生成タスクの信頼性と効果的な評価フレームワークとしての可能性を示している。 実験のコードは \url{https://anonymous.4open.science/r/check-eval-0DB4} で公開されている。

Evaluating the quality of text generated by large language models (LLMs) remains a significant challenge. Traditional metrics often fail to align well with human judgments, particularly in tasks requiring creativity and nuance. In this paper, we propose \textsc{Check-Eval}, a novel evaluation framework leveraging LLMs to assess the quality of generated text through a checklist-based approach. \textsc{Check-Eval} can be employed as both a reference-free and reference-dependent evaluation method, providing a structured and interpretable assessment of text quality. The framework consists of two main stages: checklist generation and checklist evaluation. We validate \textsc{Check-Eval} on two benchmark datasets: Portuguese Legal Semantic Textual Similarity and \textsc{SummEval}. Our results demonstrate that \textsc{Check-Eval} achieves higher correlations with human judgments compared to existing metrics, such as \textsc{G-Eval} and \textsc{GPTScore}, underscoring its potential as a more reliable and effective evaluation framework for natural language generation tasks. The code for our experiments is available at \url{https://anonymous.4open.science/r/check-eval-0DB4}
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# 逆粒子フィルタ

Inverse Particle Filter ( http://arxiv.org/abs/2407.16623v2 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay, Kumar Vijay Mishra, (参考訳) 認知システムでは、行動が認知反応の主焦点であった被験者の認知過程を研究することが近年強調されている。 このアプローチは逆認識(inverse cognition)と呼ばれ、逆逆の応用に現れ、逆ベイズフィルタの開発を動機付けている。 この文脈では、レーダーのような認知的敵はフォワードベイズフィルタを使って関心の対象を追跡する。 次に、逆フィルタを用いて、敵のターゲットの状態またはディフェンダーの状態の推定を推測する。 従来の研究では、逆カルマンフィルタ(I-KF)、逆拡張KF(I-EKF)、逆非セント付きKF(I-UKF)などの手法を導入して、この逆フィルタリング問題に対処してきた。 しかし、これらのフィルタは通常、加法的なガウス雑音モデルや/または状態推定における非線形力学の局所近似に依存し、実用的応用を制限していると仮定する。 一方,本論文では,大域的フィルタリング手法を採用し,逆粒子フィルタ(I-PF)の開発について述べる。 粒子フィルタフレームワークは、任意の後部分布を近似するためにモンテカルロ法(MC)を用いる。 さらに, システムレベルの低い条件下では, 提案したI-PFは最適逆フィルタへの収束を示す。 さらに,システム情報が不明なシナリオに対処するために,識別可能なI-PFを提案する。 NCI(Recursive Cramer-Rao lower bound and non-credibility index)を用いて,提案したフィルタの性能と時間的複雑さについて数値実験を行った。

In cognitive systems, recent emphasis has been placed on studying the cognitive processes of the subject whose behavior was the primary focus of the system's cognitive response. This approach, known as inverse cognition, arises in counter-adversarial applications and has motivated the development of inverse Bayesian filters. In this context, a cognitive adversary, such as a radar, uses a forward Bayesian filter to track its target of interest. An inverse filter is then employed to infer the adversary's estimate of the target's or defender's state. Previous studies have addressed this inverse filtering problem by introducing methods like the inverse Kalman filter (I-KF), inverse extended KF (I-EKF), and inverse unscented KF (I-UKF). However, these filters typically assume additive Gaussian noise models and/or rely on local approximations of non-linear dynamics at the state estimates, limiting their practical application. In contrast, this paper adopts a global filtering approach and presents the development of an inverse particle filter (I-PF). The particle filter framework employs Monte Carlo (MC) methods to approximate arbitrary posterior distributions. Moreover, under mild system-level conditions, the proposed I-PF demonstrates convergence to the optimal inverse filter. Additionally, we propose the differentiable I-PF to address scenarios where system information is unknown to the defender. Using the recursive Cramer-Rao lower bound and non-credibility index (NCI), our numerical experiments for different systems demonstrate the estimation performance and time complexity of the proposed filter.
翻訳日:2024-09-11 22:42:18 公開日:2024-09-10
# TiCoSS: 共同学習フレームワークにおけるセマンティックセグメンテーションとステレオマッチングの結合を強化する

TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework ( http://arxiv.org/abs/2407.18038v3 )

ライセンス: Link先を確認
Guanfeng Tang, Zhiyuan Wu, Jiahang Li, Ping Zhong, Xieyuanli Chen, Huiming Lu, Rui Fan, (参考訳) セマンティックセグメンテーション(Semantic segmentation)とステレオマッチング(ステレオマッチング)は、それぞれ人間の脳の腹側と背側の流れに類似しており、自律運転認識システムの2つの重要な構成要素である。 これら2つのタスクに別々のネットワークで対処することは、コンピュータービジョンアルゴリズムの開発においてもはや主流の方向ではない。 この傾向は、共同学習フレームワーク内でそれらを組み合わせること、特に2つのタスク間の機能共有を強調することにシフトしている。 本研究の主な貢献は,セマンティックセグメンテーションとステレオマッチングの結合を包括的に強化することにある。 具体的には,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。 これらの技術的コントリビューションの併用により、TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。 KITTIとvKITTI2データセットに関する広範な実験を通じて、定性的かつ定量的な分析とともに、発達した戦略と損失関数の有効性を検証し、mIoUを9%以上増加させ、先行技術よりも優れた性能を示す。 ソースコードは公開後、mias.group/TiCoSSで公開されます。

Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 非物理的準確率と非局所性客観性の関係

A Relationship Between Nonphysical Quasi-probabilities and Nonlocality Objectivity ( http://arxiv.org/abs/2407.19061v3 )

ライセンス: Link先を確認
Colm Kelleher, (参考訳) 密度行列は、純粋状態と混合状態の両方をカバーする、量子状態の最も一般的な記述である。 正の半定性は密度行列の物理的要件であり、物理値を測定する非負の確率を示唆する。 別々に、非局所性はいくつかの二部量子系によって共有される性質であり、局所古典変数では説明できない成分部分の相関を示す。 本研究では,正の半無限条件を破り,負の最小固有値がゼロに近い状態が任意に成立することを示し,ラベリングが交換されたときの非局所な状態の構成を可能にする。 これは観測者に依存しない非局所性であり、非局所的客観主義と負準確率の間の関係を示す。

Density matrices are the most general descriptions of quantum states, covering both pure and mixed states. Positive semidefiniteness is a physical requirement of density matrices, imposing nonnegative probabilities of measuring physical values. Separately, nonlocality is a property shared by some bipartite quantum systems, indicating a correlation of the component parts that cannot be described by local classical variables. In this work, we show that breaking the positive-semidefinite requirement and allowing states with a negative minimal eigenvalue arbitrarily close to zero, allows for the construction of states that are nonlocal under one component labelling but local when the labelling is interchanged. This is an observer-dependent nonlocality, showing the connection between nonlocal objectivism and negative quasi-probabilities.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 音声による人間の意識の視線予測

Look Hear: Gaze Prediction for Speech-directed Human Attention ( http://arxiv.org/abs/2407.19605v2 )

ライセンス: Link先を確認
Sounak Mondal, Seoyoung Ahn, Zhibo Yang, Niranjan Balasubramanian, Dimitris Samaras, Gregory Zelinsky, Minh Hoai, (参考訳) コンピュータシステムが音声言語を使って人間と効果的に対話するためには、その単語がユーザーのモーメント・バイ・モーメント・アテンションにどのように影響するかを理解する必要がある。 本研究は,被写体が視線で固定されるべき場面において,被写体を規定する参照表現を視線で見るときの注意の漸進的予測に焦点をあてる。 この漸進的対象参照タスクにおける視線走査パスを予測するために,各単語が参照表現で引き起こす人間の定着を予測できるReferral Transformer Model(ART)を開発した。 ARTは、マルチモーダルトランスフォーマーエンコーダを使用して、視線行動とその基盤となる接地タスクを共同で学習し、自動回帰トランスフォーマーデコーダを使用して、各ワードに対して、固定履歴に基づく可変数の固定を予測している。 ARTをトレーニングするために、220人の参加者から2,094対のユニークな画像表現対に対応する19,738人の視線スキャンパスからなる大規模なデータセットであるRefCOCO-Gazeを開発した。 定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、待機、スキャン、検証など、いくつかの人間の注意パターンを捉えているように見える。

For computer systems to effectively interact with humans using spoken language, they need to understand how the words being generated affect the users' moment-by-moment attention. Our study focuses on the incremental prediction of attention as a person is seeing an image and hearing a referring expression defining the object in the scene that should be fixated by gaze. To predict the gaze scanpaths in this incremental object referral task, we developed the Attention in Referral Transformer model or ART, which predicts the human fixations spurred by each word in a referring expression. ART uses a multimodal transformer encoder to jointly learn gaze behavior and its underlying grounding tasks, and an autoregressive transformer decoder to predict, for each word, a variable number of fixations based on fixation history. To train ART, we created RefCOCO-Gaze, a large-scale dataset of 19,738 human gaze scanpaths, corresponding to 2,094 unique image-expression pairs, from 220 participants performing our referral task. In our quantitative and qualitative analyses, ART not only outperforms existing methods in scanpath prediction, but also appears to capture several human attention patterns, such as waiting, scanning, and verification.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 量子テレパシーによる決定の調整

Coordinating Decisions via Quantum Telepathy ( http://arxiv.org/abs/2407.21723v2 )

ライセンス: Link先を確認
Dawei Ding, Liang Jiang, (参考訳) 量子テレパシー(quantum telepathy)は、2つの非コミュニケーション当事者が古典力学を用いて達成できない相関行動を示す現象である。 これはベルの不等式違反としても知られ、量子絡みによって可能である。 本研究では,実世界の問題に量子テレパシーを適用するための概念的枠組みを提案する。 一般に、問題は、コミュニケーションすることができない観察セットを与えられた決定をコーディネートすることを含む。 この障害は、コンピュータプロセッサの意思決定タイムスケールが非常に短く、光遅延の速度が実際にかなり高い現代において、実際に非常に多い、と我々は主張する。 我々は、マイクロ秒の時間スケールで取引を行う高周波取引(HFT)の例を強調するが、異なる交換所間の光遅延の速度は100マイクロ秒から10ミリ秒の範囲である。 ベルの不等式違反実験の成熟により、実世界の問題に対して量子的優位性が得られる量子テレパシースキームを実験的に実現した。 我々は、CHSHゲームの一般化をもたらす具体的なHFTシナリオのケーススタディを実施し、量子的優位性を達成するための様々な物理的実装を評価することでこれを実証する。 ベルの不等式違反は古典的戦略よりも厳密な数学的証明であり、$\text{BQP}\neq\text{BPP}$のような複雑性理論的な仮定は必要ないことが知られている。 さらに、量子的優位性を実現するためにフォールトトレランスは必要ない: 例えば、CHSH不等式に違反する場合は、2つの絡み合った物理量子ビットにのみシングルキュービットゲートが適用される。

Quantum telepathy is the phenomenon where two non-communicating parties can exhibit correlated behaviors that are impossible to achieve using classical mechanics. This is also known as Bell inequality violation and is made possible by quantum entanglement. In this work, we present a conceptual framework for applying quantum telepathy to real-world problems. In general, the problems involve coordinating decisions given a set of observations without being able to communicate. We argue this inability is actually quite prevalent in the modern era where the decision-making timescales of computer processors are so short that the speed of light delay is actually quite appreciable in comparison. We highlight the example of high-frequency trading (HFT), where trades are made at microsecond timescales, but the speed of light delay between different exchanges can range from the order of 100 microseconds to 10 milliseconds. Due to the maturity of Bell inequality violation experiments, experimental realization of quantum telepathy schemes that can attain a quantum advantage for real-world problems $\textit{is already almost immediately possible}$. We demonstrate this by conducting a case study for a concrete HFT scenario that gives rise to a generalization of the CHSH game and evaluate different possible physical implementations for achieving a quantum advantage. It is well known that Bell inequality violation is a rigorous mathematical proof of a quantum advantage over any classical strategy and does not need any complexity-theoretic assumptions such as $\text{BQP}\neq\text{BPP}$. Moreover, fault tolerance is not necessary to realize a quantum advantage: for example, violating the CHSH inequality only requires single-qubit gates applied on two entangled physical qubits.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# ZNorm: ディープニューラルネットワークのためのZスコア勾配正規化

ZNorm: Z-Score Gradient Normalization for Deep Neural Networks ( http://arxiv.org/abs/2408.01215v2 )

ライセンス: Link先を確認
Juyoung Yun, Hoyoung Kim, (参考訳) ディープラーニングの急速な進歩は、ディープニューラルネットワーク(DNN)のより良いトレーニング方法を必要とする。 モデルが複雑化するにつれて、勾配の消滅と爆発がパフォーマンスを妨げます。 Z-Score Normalization for Gradient Descent (ZNorm) は、学習の高速化とモデル性能向上のために勾配のみを調整する革新的な手法である。 ZNormは全体的な勾配を正規化し、階層間の一貫性のある勾配スケーリングを提供する。 CIFAR-10および医療データセットに関する広範な実験により、ZNormはパフォーマンス指標を向上することを示した。 ZNormは既存のメソッドを一貫して上回り、同じ実験的な設定で優れた結果を得る。 医用画像の応用において、ZNormは腫瘍予測とセグメンテーション性能を改善し、その実用性を強調している。 これらの調査結果は、さまざまなアーキテクチャやアプリケーションにわたるディープニューラルネットワークのトレーニング速度と有効性を高めるための、堅牢で汎用的なツールとしてのZNormの可能性を浮き彫りにしている。

The rapid advancements in deep learning necessitate better training methods for deep neural networks (DNNs). As models grow in complexity, vanishing and exploding gradients impede performance. We propose Z-Score Normalization for Gradient Descent (ZNorm), an innovative technique that adjusts only the gradients to accelerate training and improve model performance. ZNorm normalizes the overall gradients, providing consistent gradient scaling across layers, thereby reducing the risks of vanishing and exploding gradients, having better performances. Our extensive experiments on CIFAR-10 and medical datasets demonstrate that ZNorm enhances performance metrics. ZNorm consistently outperforms existing methods, achieving superior results using the same experimental settings. In medical imaging applications, ZNorm improves tumor prediction and segmentation performances, underscoring its practical utility. These findings highlight ZNorm's potential as a robust and versatile tool for enhancing the training speed and effectiveness of deep neural networks across a wide range of architectures and applications.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 再生核ヒルベルト空間における量子レグレッションによる確率エネルギー予測

Probabilistic energy forecasting through quantile regression in reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2408.04405v2 )

ライセンス: Link先を確認
Luca Pernigo, Rohan Sen, Davide Baroli, (参考訳) 正確なエネルギー需要予測は持続的で回復力のあるエネルギー開発に不可欠である。 DACH諸国におけるネットゼロ代表集中経路(RCP)の4.5ドルのシナリオを満たすためには、再生可能エネルギー生産の増加、エネルギー貯蔵、商業建築の消費の削減が必要である。 このシナリオの成功は、水力発電能力と気候要因に依存する。 インフォームド決定は予測の不確実性を定量化する必要がある。 本研究では、エネルギー予測のためにカーネル量子レグレッション(カーネル量子レグレッション)として知られる \emph{re producer kernel Hilbert space (RKHS) に基づく非パラメトリック手法を探索する。 本実験は信頼性とシャープさを実証し,DACH領域の負荷および価格予測における最先端手法と比較した。 我々は、我々の研究の再現性を確保するために、追加のスクリプトと共に実装を提供します。

Accurate energy demand forecasting is crucial for sustainable and resilient energy development. To meet the Net Zero Representative Concentration Pathways (RCP) $4.5$ scenario in the DACH countries, increased renewable energy production, energy storage, and reduced commercial building consumption are needed. This scenario's success depends on hydroelectric capacity and climatic factors. Informed decisions require quantifying uncertainty in forecasts. This study explores a non-parametric method based on \emph{reproducing kernel Hilbert spaces (RKHS)}, known as kernel quantile regression, for energy prediction. Our experiments demonstrate its reliability and sharpness, and we benchmark it against state-of-the-art methods in load and price forecasting for the DACH region. We offer our implementation in conjunction with additional scripts to ensure the reproducibility of our research.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# VITA: Open-Source Interactive Omni Multimodal LLMを目指して

VITA: Towards Open-Source Interactive Omni Multimodal LLM ( http://arxiv.org/abs/2408.05211v2 )

ライセンス: Link先を確認
Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Shaoqi Dong, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun, (参考訳) GPT-4oの目覚ましいマルチモーダル機能とインタラクティブな体験は、実用的応用においてその必要性を浮き彫りにしているが、オープンソースモデルが両方の領域で優れていることは滅多にない。 本稿では,ビデオ,画像,テキスト,オーディオモダリティの同時処理と解析に有効な,世界初のオープンソースマルチモーダル大言語モデルであるVITAを紹介する。 言語基盤としてMixtral 8x7Bを出発点として、中国語の語彙を拡張し、バイリンガル・インストラクション・チューニングを行った。 さらに、マルチモーダルアライメントとインストラクションチューニングの2段階のマルチタスク学習を通じて、視覚的および音声機能を備えた言語モデルを提供する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎的能力を示しており、その強力な性能は、単調なベンチマークとマルチモーダルなベンチマークの両方で証明されている。 基礎的能力の他に、我々は自然のマルチモーダルな人間とコンピュータのインタラクション体験を向上させるためにかなりの進歩を遂げた。 VITAはオープンソースコミュニティにとって、マルチモーダル理解とインタラクションのシームレスな統合を探求する第一歩です。 VITAがオープンソースに近いものにするには、まだ多くの作業が必要ですが、パイオニアとしての役割が、その後の研究の基盤となることを願っています。 プロジェクトページ: https://vita-home.github.io

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# Graph Retrieval-Augmented Generation: サーベイ

Graph Retrieval-Augmented Generation: A Survey ( http://arxiv.org/abs/2408.08921v2 )

ライセンス: Link先を確認
Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang, (参考訳) 近年,RAG (Retrieval-Augmented Generation) は大規模言語モデル (LLM) の課題に再学習を必要とせずに対処することに成功した。 外部知識ベースを参照することにより、RAGはLLM出力を洗練し、 ``hallucination'' やドメイン固有の知識の欠如、時代遅れの情報といった問題を効果的に緩和する。 しかしながら、データベース内の異なるエンティティ間の関係の複雑な構造は、RAGシステムにとっての課題である。 応答として、GraphRAGはエンティティ全体の構造情報を活用して、より正確で包括的な検索を可能にし、関係知識をキャプチャし、より正確でコンテキスト対応の応答を容易にする。 GraphRAGの新規性と可能性を考えると、現在の技術の体系的なレビューが不可欠である。 本稿では,GraphRAGの方法論について概観する。 Graph-Based Indexing、Graph-Guided Retrieval、Graph-Enhanced Generationを含むGraphRAGワークフローを形式化する。 次に、各ステージでコア技術とトレーニング方法を概説する。 さらに、下流タスク、アプリケーションドメイン、評価手法、およびGraphRAGの産業利用事例について検討する。 最後に,今後の研究の方向性を探究し,さらなる問いを喚起し,この分野の進展を推し進める。 この分野で最近の進歩を追跡するため、我々は \url{https://github.com/pengboci/GraphRAG-Survey} にリポジトリを設置した。

Recently, Retrieval-Augmented Generation (RAG) has achieved remarkable success in addressing the challenges of Large Language Models (LLMs) without necessitating retraining. By referencing an external knowledge base, RAG refines LLM outputs, effectively mitigating issues such as ``hallucination'', lack of domain-specific knowledge, and outdated information. However, the complex structure of relationships among different entities in databases presents challenges for RAG systems. In response, GraphRAG leverages structural information across entities to enable more precise and comprehensive retrieval, capturing relational knowledge and facilitating more accurate, context-aware responses. Given the novelty and potential of GraphRAG, a systematic review of current technologies is imperative. This paper provides the first comprehensive overview of GraphRAG methodologies. We formalize the GraphRAG workflow, encompassing Graph-Based Indexing, Graph-Guided Retrieval, and Graph-Enhanced Generation. We then outline the core technologies and training methods at each stage. Additionally, we examine downstream tasks, application domains, evaluation methodologies, and industrial use cases of GraphRAG. Finally, we explore future research directions to inspire further inquiries and advance progress in the field. In order to track recent progress in this field, we set up a repository at \url{https://github.com/pengboci/GraphRAG-Survey}.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 大規模言語モデルの性能法則

Performance Law of Large Language Models ( http://arxiv.org/abs/2408.09895v3 )

ライセンス: Link先を確認
Chuhan Wu, Ruiming Tang, (参考訳) 大規模言語モデル(LLM)は,近年,大規模言語モデル(LLM)が目覚ましい業績をあげている。 しかし、スケーリング法則は、モデルアーキテクチャ、データ分散、トークン化器、計算精度といった様々な要因の影響を受け、損失の質的な推定のみを与える。 したがって、損失ではなく、異なるトレーニング設定でLLMの実際の性能を推定することは、実用的開発において非常に有用である。 本稿では, LLMのMMLUスコアを直接予測する「性能法則」という経験方程式を提案する。 LLMアーキテクチャの重要なハイパーパラメータとトレーニングデータのサイズに基づいて,異なる組織で異なるサイズとアーキテクチャが開発されている様々なLLMのMMLU予測を精度良く行う。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。

Guided by the belief of the scaling law, large language models (LLMs) have achieved impressive performance in recent years. However, scaling law only gives a qualitative estimation of loss, which is influenced by various factors such as model architectures, data distributions, tokenizers, and computation precision. Thus, estimating the real performance of LLMs with different training settings rather than loss may be quite useful in practical development. In this article, we present an empirical equation named "Performance Law" to directly predict the MMLU score of an LLM, which is a widely used metric to indicate the general capability of LLMs in real-world conversations and applications. Based on only a few key hyperparameters of the LLM architecture and the size of training data, we obtain a quite accurate MMLU prediction of various LLMs with diverse sizes and architectures developed by different organizations in different years. Performance law can be used to guide the choice of LLM architecture and the effective allocation of computational resources without extensive experiments.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 群集モニタリングのための非構造高密度群集シーンの解析

Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring ( http://arxiv.org/abs/2408.11836v4 )

ライセンス: Link先を確認
Alexandre Matov, (参考訳) 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。 コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出し、紛争回避の文脈で異常な振る舞いを示す組織的な動きを行う個人のグループを自動的に検出し追跡する。 本システムでは,ランダムに移動する物体の背景に対する組織的コホートの検出が可能であり,CCTVで撮影された動きの開始から1秒未満の3~4コホート内で,組織的コホートにおける参加者数,動きの速度と方向をリアルタイムで推定することができる。 我々は,この状況下で,1フレームあたり最大4万個のオブジェクトを含む生体細胞データを用いて予備解析を行い,これを100倍まで数値的に拡張して公衆安全に適用する。 我々は、既存のビデオカメラのインフラを活用して、スポーツスタジアムなどの公共施設内外で撮影された画像シーケンスを分析し、重要なイベントを解析するための、画像データセットのオンザフライ取得と、使い易いデータ駆動ソフトウェアシステムの展開をめざす。 その他の有望なユーザは、政治集会、市民と野生生物の組織、セキュリティ会社、軍隊の組織である。 脅威を呈するアクティビティと、脅威を呈しないアクティビティを区別できる分類方法を実装することにより、ソフトウェアの性能を最適化する。

We are interested in developing an automated system for detection of organized movements in human crowds. Computer vision algorithms can extract information from videos of crowded scenes and automatically detect and track groups of individuals undergoing organized motion that represents an anomalous behavior in the context of conflict aversion. Our system can detect organized cohorts against the background of randomly moving objects and we can estimate the number of participants in an organized cohort, the speed and direction of motion in real time, within three to four video frames, which is less than one second from the onset of motion captured on a CCTV. We have performed preliminary analysis in this context in biological cell data containing up to four thousand objects per frame and will extend this numerically to a hundred-fold for public safety applications. We envisage using the existing infrastructure of video cameras for acquiring image datasets on-the-fly and deploying an easy-to-use data-driven software system for parsing of significant events by analyzing image sequences taken inside and outside of sports stadiums or other public venues. Other prospective users are organizers of political rallies, civic and wildlife organizations, security firms, and the military. We will optimize the performance of the software by implementing a classification method able to distinguish between activities posing a threat and those not posing a threat.
翻訳日:2024-09-11 22:32:06 公開日:2024-09-10
# 完全受動的状態と受動的状態を自由状態とする資源理論

Resource theories with completely passive states and passive states as free states ( http://arxiv.org/abs/2408.13641v3 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) 量子システムから抽出可能な作業は、いくつかの資源理論に関連付けられるリソースである。 完全受動的状態と受動的状態を自由状態として考えることにより、最大作業が単調な資源理論を定式化し、温度の定義が資源理論においてどのように重要な役割を果たすかを示す。

Work extractable from quantum system is a resource that can be related to some resource theory. By considering completely passive states and passive states as free states, we formulate resource theories where the maximum work extractable is a monotone, showing how the definition of a temperature plays a pivotal role in the resource theories.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# モデルミスマッチにロバストなグラフニューラルネットワークの一般化

Generalization of Graph Neural Networks is Robust to Model Mismatch ( http://arxiv.org/abs/2408.13878v2 )

ライセンス: Link先を確認
Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, (参考訳) グラフニューラルネットワーク(GNN)は、その一般化能力によってサポートされている様々なタスクにおいて、その効果を実証している。 しかし、GNN一般化の現在の分析は、トレーニングデータとテストデータが独立で同一に分散しているという仮定に依存している。 これにより、テストデータを生成するときにモデルミスマッチが存在する場合に制限が課される。 本稿では,多様体モデルから生成される幾何グラフで動作するGNNについて検討し,学習データと試験データとのミスマッチが存在するシナリオに着目した。 本稿では,そのようなモデルミスマッチの存在下でのGNN一般化の堅牢性を明らかにする。 このことは、多様体から生成されるグラフで訓練されたGNNが、いまだに不一致な多様体から生成されるノードやグラフに対してうまく一般化できることを示している。 このミスマッチは、生成されたグラフ内のノードの特徴摂動とエッジ摂動の両方に起因している。 その結果, 学習グラフのノード数が増加するにつれて, 一般化ギャップは減少し, 多様体次元が大きくなるとともに, ミスマッチも大きくなることがわかった。 重要なことは、GNNの一般化と、モデルミスマッチに直面した際に高周波成分を識別する能力とのトレードオフを観察することである。 この分析の最も重要な実践的結果は、モデルミスマッチに頑健な一般化可能なGNNのフィルタ設計に光を当てることである。 我々は,複数の実世界のデータセットを用いた実験により理論的知見を検証する。

Graph neural networks (GNNs) have demonstrated their effectiveness in various tasks supported by their generalization capabilities. However, the current analysis of GNN generalization relies on the assumption that training and testing data are independent and identically distributed (i.i.d). This imposes limitations on the cases where a model mismatch exists when generating testing data. In this paper, we examine GNNs that operate on geometric graphs generated from manifold models, explicitly focusing on scenarios where there is a mismatch between manifold models generating training and testing data. Our analysis reveals the robustness of the GNN generalization in the presence of such model mismatch. This indicates that GNNs trained on graphs generated from a manifold can still generalize well to unseen nodes and graphs generated from a mismatched manifold. We attribute this mismatch to both node feature perturbations and edge perturbations within the generated graph. Our findings indicate that the generalization gap decreases as the number of nodes grows in the training graph while increasing with larger manifold dimension as well as larger mismatch. Importantly, we observe a trade-off between the generalization of GNNs and the capability to discriminate high-frequency components when facing a model mismatch. The most important practical consequence of this analysis is to shed light on the filter design of generalizable GNNs robust to model mismatch. We verify our theoretical findings with experiments on multiple real-world datasets.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 逆変分オートエンコーダに基づく生成的アプローチによる化学不規則物質の分配関数のターゲティング

Targeting the partition function of chemically disordered materials with a generative approach based on inverse variational autoencoders ( http://arxiv.org/abs/2408.14928v2 )

ライセンス: Link先を確認
Maciej J. Karcz, Luca Messina, Eiji Kawasaki, Emeric Bourasseau, (参考訳) 化学的に不規則な物質の原子スケール特性の計算には、その広大な構成空間の効率的な探索が必要である。 モンテカルロ (Monte Carlo) や特殊準ランダム構造 (Special Quasirandom Structures) のような伝統的なアプローチでは、過剰な構成をサンプリングするか、構成空間が適切にカバーされていることを保証しない。 本研究では, 計算コストを最小に抑えた原子スケール特性の高精度な評価を行うために, 生成機械学習を用いて, 高精度な特性評価を行う手法を提案する。 本手法では,エンコーダとデコーダの逆の役割を持つ特定の種類の変分オートエンコーダを用いて,初期訓練データベースを必要としない教師なしアクティブラーニングスキームの適用を可能にする。 モデルは構成バッチを反復的に生成し、その特性は従来の原子スケール法で計算される。 これらの結果は、分割関数を推定するためにモデルにフィードバックされ、収束するまでプロセスを繰り返します。 本稿では, (U, Pu)O2混合酸化物燃料における点欠陥生成エネルギーと濃度の計算によるアプローチについて述べる。 さらに、MLモデルは、対象プロパティに影響を及ぼす物理的要因に関する貴重な洞察を提供する。 高エントロピー合金のような理想的または非理想的に乱れた材料において、原子スケールの拡散係数などの他の特性を探索するために一般的に応用できる。

Computing atomic-scale properties of chemically disordered materials requires an efficient exploration of their vast configuration space. Traditional approaches such as Monte Carlo or Special Quasirandom Structures either entail sampling an excessive amount of configurations or do not ensure that the configuration space has been properly covered. In this work, we propose a novel approach where generative machine learning is used to yield a representative set of configurations for accurate property evaluation and provide accurate estimations of atomic-scale properties with minimal computational cost. Our method employs a specific type of variational autoencoder with inverse roles for the encoder and decoder, enabling the application of an unsupervised active learning scheme that does not require any initial training database. The model iteratively generates configuration batches, whose properties are computed with conventional atomic-scale methods. These results are then fed back into the model to estimate the partition function, repeating the process until convergence. We illustrate our approach by computing point-defect formation energies and concentrations in (U, Pu)O2 mixed-oxide fuels. In addition, the ML model provides valuable insights into the physical factors influencing the target property. Our method is generally applicable to explore other properties, such as atomic-scale diffusion coefficients, in ideally or non-ideally disordered materials like high-entropy alloys.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 階層的変分オートエンコーダを用いた学習画像伝送

Learned Image Transmission with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2408.16340v3 )

ライセンス: Link先を確認
Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang, (参考訳) 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。 提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。 これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。 我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。 既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。 様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。 ソースコードは受理時に利用可能になる。

In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise. The source code will be made available upon acceptance.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# Space3D-Bench: Space 3D Question Answeringベンチマーク

Space3D-Bench: Spatial 3D Question Answering Benchmark ( http://arxiv.org/abs/2408.16662v2 )

ライセンス: Link先を確認
Emilia Szymanska, Mihai Dusmanu, Jan-Willem Buurlage, Mahdi Rad, Marc Pollefeys, (参考訳) 環境の空間的特性に関する疑問への答えは、オブジェクト間の関係の点において、特に3D世界の理解が欠如していることから、既存の言語と視覚基盤モデルに課題をもたらす。 フィールドを前進させるために、複数の3D Q&Aデータセットが提案され、全体として様々な質問を提供するが、彼らは個別に3D推論の特定の側面に焦点を当てるか、データモダリティの点で制限される。 これに対処するため、Space3D-Bench - Replicaデータセットのシーンに関する1000の一般的な空間的質問と回答のコレクションを提示し、ポイントクラウド、ポーズされたRGB-Dイメージ、ナビゲーションメッシュ、および3Dオブジェクト検出など、さまざまなデータモダリティを提供する。 そこで本研究では,地理情報システムにインスパイアされた屋内空間質問分類法を提案し,それを用いてデータセットのバランスをとる。 さらに,テキストと画像の両方を視覚言語モデルで理解し,その応答を地文情報や関連視覚データと比較することにより,事前定義された地文回答に基づいて自然言語応答を評価できるシステムを提案する。 最後に,RAG3D-Chatと呼ばれるベースラインを導入し,基礎モデルの世界的理解をリッチな文脈検索と統合し,提案したデータセットの精度を67%向上させる。

Answering questions about the spatial properties of the environment poses challenges for existing language and vision foundation models due to a lack of understanding of the 3D world notably in terms of relationships between objects. To push the field forward, multiple 3D Q&A datasets were proposed which, overall, provide a variety of questions, but they individually focus on particular aspects of 3D reasoning or are limited in terms of data modalities. To address this, we present Space3D-Bench - a collection of 1000 general spatial questions and answers related to scenes of the Replica dataset which offers a variety of data modalities: point clouds, posed RGB-D images, navigation meshes and 3D object detections. To ensure that the questions cover a wide range of 3D objectives, we propose an indoor spatial questions taxonomy inspired by geographic information systems and use it to balance the dataset accordingly. Moreover, we provide an assessment system that grades natural language responses based on predefined ground-truth answers by leveraging a Vision Language Model's comprehension of both text and images to compare the responses with ground-truth textual information or relevant visual data. Finally, we introduce a baseline called RAG3D-Chat integrating the world understanding of foundation models with rich context retrieval, achieving an accuracy of 67% on the proposed dataset.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2409.00055v2 )

ライセンス: Link先を確認
Yang Cao, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。 パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。 本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。 本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。 各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p \Sigma_p V^\top_p$と、凍結された残留重量$W_r = U_r \Sigma_r V^\top_r$の2つの主要部分からなる。 これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。 さらに、スケーリング情報を$\Sigma_p$に効果的に転送し、最終的にトレーニングプロセスをより効率的にすることができる正規正規化正規化器を実装し、分析する。 SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。 結局のところ、SORSAは、我々の実験において、PiSSAやLoRAよりも高速な収束を示す。 MATHベンチマークでは、SORSAを使用したLlama 2 7Bの精度は10.36%で、LoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。 GSM-8Kベンチマークでは、SORSAは56.03%の精度を達成し、LoRA (42.30%)、全FT (49.05%)、PiSSA (53.07%)を上回った。 我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。 コードはhttps://github.com/Gunale0926/SORSAで公開されている。

The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \Sigma_p V^\top_p$, and frozen residual weights $W_r = U_r \Sigma_r V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which could effectively transfer the scaling information into $\Sigma_p$ and ultimately allows the training process to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the MATH benchmark, Llama 2 7B adapted using SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). On the GSM-8K benchmark, SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 大規模言語モデルはオープンターゲットスタンス検出に対処できるか?

Can Large Language Models Address Open-Target Stance Detection? ( http://arxiv.org/abs/2409.00222v2 )

ライセンス: Link先を確認
Abu Ubaida Akash, Ahmed Fahmy, Amine Trabelsi, (参考訳) スタンス検出(SD)は、テキストの位置を目標に向けて評価し、通常、"favor"、"against"、"neutral"とラベル付けされる。 オープンターゲットスタンス検出(OTSD, Open-Target Stance Detection)を導入する。 GPT-3.5, GPT-4o, Llama 3, Mistral などの大規模言語モデル (LLMs) の評価を行い, その性能を, 事前定義された目標を用いたTSE (Target-Stance extract) アプローチと比較した。 LLMは、実際のターゲットが明示的に記述され、テキストに明示的に言及されていないときに、ターゲット生成においてTSEよりもパフォーマンスがよい。 姿勢検出では、LLMは明示的なシナリオでは優れているが、非明示的なシナリオでは失敗する。

Stance detection (SD) assesses a text's position towards a target, typically labeled as "favor," "against," or "neutral." We introduce Open-Target Stance Detection (OTSD), where targets are neither seen during training nor provided as input. Evaluating Large Language Models (LLMs) like GPT-3.5, GPT-4o, Llama 3, and Mistral, we compare their performance with the Target-Stance Extraction (TSE) approach, which has the advantage of using predefined targets. LLMs perform better than TSE in target generation when the real target is explicitly and not explicitly mentioned in the text. For stance detection, LLMs perform better in explicit scenarios but fail in non-explicit ones.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# TrackSSM: 状態空間モデルによる一般的な動作予測器

TrackSSM: A General Motion Predictor by State-Space Model ( http://arxiv.org/abs/2409.00487v2 )

ライセンス: Link先を確認
Bin Hu, Run Luo, Zelin Liu, Cheng Wang, Wenyu Liu, (参考訳) 時間運動モデリングは、常に複数の物体追跡(MOT)において重要な要素であり、スムーズな軌道運動を保証し、正確な位置情報を提供し、関連精度を高めることができる。 しかしながら、現在のモーションモデルは、異なるアプリケーションシナリオで効率的かつ効果的であるのに苦労しています。 そこで本研究では,データ依存状態空間モデルを用いてトラジェクトリの時間的動きを実行する統一エンコーダ・デコーダ・モーション・フレームワークである,最近普及している状態空間モデル(SSM)にインスパイアされたTrackSSMを提案する。 具体的には,物体境界ボックスの時間的状態遷移を導くために,歴史的軌跡の位置と動き情報を利用するモジュールであるFlow-SSMを提案する。 Flow-SSMに基づいてフローデコーダを設計する。 Flow-SSMを用いたケースド・モーション・デコーディングモジュールで構成されており、符号化されたフロー情報を用いて軌道の時間的位置予測を完了することができる。 さらに,ステップバイステップ線形(S$^2$L)のトレーニング戦略を提案する。 従来のフレームにおける物体の位置と現在のフレームとの線形補間を行うことで、ステップバイステップの線形トレーニングの擬似ラベルを構築し、時間遷移を完了させる際に、軌道フロー情報がオブジェクト境界ボックスをより良くガイドできるようにする。 TrackSSMは、単純なMamba-Blockを使用して、履歴トラジェクトリのためのモーションエンコーダを構築し、フローデコーダとともにエンコーダ・デコーダ構造を持つテンポラルモーションモデルを形成する。 TrackSSMは、様々なトラッキングシナリオに適用可能で、複数のベンチマークで優れたトラッキング性能を実現し、マルチオブジェクト追跡タスクにおけるSSMのような時間運動モデルの可能性をさらに拡張する。 コードとモデルは \url{https://github.com/Xavier-Lin/TrackSSM} で公開されている。

Temporal motion modeling has always been a key component in multiple object tracking (MOT) which can ensure smooth trajectory movement and provide accurate positional information to enhance association precision. However, current motion models struggle to be both efficient and effective across different application scenarios. To this end, we propose TrackSSM inspired by the recently popular state space models (SSM), a unified encoder-decoder motion framework that uses data-dependent state space model to perform temporal motion of trajectories. Specifically, we propose Flow-SSM, a module that utilizes the position and motion information from historical trajectories to guide the temporal state transition of object bounding boxes. Based on Flow-SSM, we design a flow decoder. It is composed of a cascaded motion decoding module employing Flow-SSM, which can use the encoded flow information to complete the temporal position prediction of trajectories. Additionally, we propose a Step-by-Step Linear (S$^2$L) training strategy. By performing linear interpolation between the positions of the object in the previous frame and the current frame, we construct the pseudo labels of step-by-step linear training, ensuring that the trajectory flow information can better guide the object bounding box in completing temporal transitions. TrackSSM utilizes a simple Mamba-Block to build a motion encoder for historical trajectories, forming a temporal motion model with an encoder-decoder structure in conjunction with the flow decoder. TrackSSM is applicable to various tracking scenarios and achieves excellent tracking performance across multiple benchmarks, further extending the potential of SSM-like temporal motion models in multi-object tracking tasks. Code and models are publicly available at \url{https://github.com/Xavier-Lin/TrackSSM}.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 夢は必要なものすべて

Dreaming is All You Need ( http://arxiv.org/abs/2409.01633v2 )

ライセンス: Link先を確認
Mingze Ni, Wei Liu, (参考訳) 分類タスクでは、探索と精度の調和が最重要となる。 そこで本研究では,このバランスを打つための2つの新しいディープラーニングモデルであるSleepNetとDreamNetを紹介した。 SleepNetは、教師なしの「スリープ」段階と教師なしの「スリープ」段階をシームレスに統合する。SleepNet内の専用ニューロンは、これらの教師なし機能に埋め込まれ、探索学習を容易にする断続的な「スリープ」ブロックを形成する。 SleepNetの基盤として、DreamNetは隠れた状態を再構築するために完全なエンコーダ・デコーダフレームワークを使用している。 この再構築プロセスは、学習した表現のさらなる探索と洗練を可能にする。 さらに、私たちのSleepNetとDreamNetの原則は汎用的で、コンピュータビジョンと自然言語処理の両方の下流タスクに適用できます。 多様な画像およびテキストデータセットに対する広範な実証評価を通じて、SleepNetとDreeanNetは最先端のモデルよりも優れた性能を示し、非教師なし探索の強みと、我々の革新的なアプローチによって得られた教師付き精度を示している。

In classification tasks, achieving a harmonious balance between exploration and precision is of paramount importance. To this end, this research introduces two novel deep learning models, SleepNet and DreamNet, to strike this balance. SleepNet seamlessly integrates supervised learning with unsupervised ``sleep" stages using pre-trained encoder models. Dedicated neurons within SleepNet are embedded in these unsupervised features, forming intermittent ``sleep" blocks that facilitate exploratory learning. Building upon the foundation of SleepNet, DreamNet employs full encoder-decoder frameworks to reconstruct the hidden states, mimicking the human "dreaming" process. This reconstruction process enables further exploration and refinement of the learned representations. Moreover, the principle ideas of our SleepNet and DreamNet are generic and can be applied to both computer vision and natural language processing downstream tasks. Through extensive empirical evaluations on diverse image and text datasets, SleepNet and DreanNet have demonstrated superior performance compared to state-of-the-art models, showcasing the strengths of unsupervised exploration and supervised precision afforded by our innovative approaches.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 信頼できる対話: 生成された会話に対する人間とAIの視点

Dialogue You Can Trust: Human and AI Perspectives on Generated Conversations ( http://arxiv.org/abs/2409.01808v2 )

ライセンス: Link先を確認
Ike Ebubechukwu, Johane Takeuchi, Antonello Ceravola, Frank Joublin, (参考訳) 対話システムやチャットボットが日々の対話にますます統合されるにつれて、効率的かつ正確な評価方法の必要性が最重要となる。 本研究では,コヒーレンス,イノベーション,具体性,ゴールコントリビューション,コモンセンス・コントラディション,不正事実,冗長性という7つの重要なパフォーマンス指標(KPI)に着目し,対話シナリオにおける人間とAIアセスメントの比較パフォーマンスについて検討する。 GPT-4o APIを用いて,多様な会話データセットを生成し,2つの実験分析を行った。 実験1では,コヒーレンス,イノベーション,具体性,ゴールコントリビューションに関する多人数会話を評価し,GPTモデルが人間の判断と密接に一致していることを明らかにした。 特に、人間とAIの評価者は線形スケーリングよりも二分判定の傾向を示し、これらの評価において共通の課題を浮き彫りにした。 実験2では、ディヤド対話に着目し、コモンセンス・コントラディクション、不正確なファクト、冗長性を評価することにより、フィンチらの作品(2023年)を拡張した。 その結果, GPT-4oは実測精度と常識推論の維持に強い性能を示すが, 冗長性と自己コントラクションの低減に苦慮していることが明らかとなった。 本研究は,対話システムにおける人間の評価を再現するGPTモデルの可能性を示すとともに,改善すべき領域を指摘するものである。 この研究は、より洗練された対話評価手法の開発と実装を促進するための貴重な洞察を与え、より効果的で人間らしいAIコミュニケーションツールの進化に寄与する。

As dialogue systems and chatbots increasingly integrate into everyday interactions, the need for efficient and accurate evaluation methods becomes paramount. This study explores the comparative performance of human and AI assessments across a range of dialogue scenarios, focusing on seven key performance indicators (KPIs): Coherence, Innovation, Concreteness, Goal Contribution, Commonsense Contradiction, Incorrect Fact, and Redundancy. Utilizing the GPT-4o API, we generated a diverse dataset of conversations and conducted a two-part experimental analysis. In Experiment 1, we evaluated multi-party conversations on Coherence, Innovation, Concreteness, and Goal Contribution, revealing that GPT models align closely with human judgments. Notably, both human and AI evaluators exhibited a tendency towards binary judgment rather than linear scaling, highlighting a shared challenge in these assessments. Experiment 2 extended the work of Finch et al. (2023) by focusing on dyadic dialogues and assessing Commonsense Contradiction, Incorrect Fact, and Redundancy. The results indicate that while GPT-4o demonstrates strong performance in maintaining factual accuracy and commonsense reasoning, it still struggles with reducing redundancy and self-contradiction. Our findings underscore the potential of GPT models to closely replicate human evaluation in dialogue systems, while also pointing to areas for improvement. This research offers valuable insights for advancing the development and implementation of more refined dialogue evaluation methodologies, contributing to the evolution of more effective and human-like AI communication tools.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 浮き彫り加工による巨大南部・ゴールドストーンモード

Floquet-engineered Emergent Massive Nambu-Goldstone Modes ( http://arxiv.org/abs/2409.01902v2 )

ライセンス: Link先を確認
Yang Hou, Zhanpeng Fu, Roderich Moessner, Marin Bukov, Hongzheng Zhao, (参考訳) 本稿では,多体駆動システムにおいて,大質量なナムブ・ゴールドストーン準粒子を実装するための一般的な枠組みを提案する。 基礎となるメカニズムは、ゆっくりとした自由度のダイナミクスを支配できる有効ハミルトニアンにインプリントされた明示的なリー群構造を利用する。 我々は、ギャップ付きスピン波励起をサポートするハイゼンベルク型スピンモデルのような明示的で実験的に実装可能な実現について論じる。 本研究では, 特定の可観測物の力学から, 巨大なナムブ・ゴールドストーンモードの存在を証明し, 弱い明示対称性の破れの存在下での分散スペクトルとその寿命を解析するプロトコルを提案する。

We present a general framework to implement massive Nambu-Goldstone quasi-particles in driven many-body systems. The underlying mechanism leverages an explicit Lie group structure imprinted into an effective Hamiltonian that governs the dynamics of slow degrees of freedom; the resulting emergent continuous symmetry is weakly explicitly broken, giving rise to a massive Nambu-Goldstone mode, with a spectral mass gap scaling linearly with the drive period. We discuss explicit and experimentally implementable realizations, such as Heisenberg-like spin models that support gapped spin-wave excitations. We provide a protocol to certify the existence of the massive Nambu-Goldstone mode from the dynamics of specific observables, and analyse the dispersion spectrum and their lifetime in the presence of weak explicit symmetry breaking.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# 黄金糸の紡糸:長文LLMにおける長文生成のベンチマーク

Spinning the Golden Thread: Benchmarking Long-Form Generation in long-context LLMs ( http://arxiv.org/abs/2409.02076v2 )

ライセンス: Link先を確認
Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, (参考訳) 長文言語モデル(LM)の能力は「Needle-in-a-Haystack」(NIAH)テストを用いて評価されることが多い。 これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。 このギャップに対処するため、我々は新しい長文評価ベンチマーク、Spinning the Golden Thread (SGT)を導入しました。 本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。 我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。 これらのモデルはNIAHベンチマークでよく機能するが、Spinning the Golden Threadで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。 さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。

The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.
翻訳日:2024-09-11 22:22:10 公開日:2024-09-10
# EMCNet : 電子マイクログラフ分類のためのグラフネット

EMCNet : Graph-Nets for Electron Micrographs Classification ( http://arxiv.org/abs/2409.03767v2 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Rajat Kumar Sarkar, Venkataramana Runkana, (参考訳) 電子マイクログラフによる材料評価は、いくつかの材料加工産業において重要かつ困難な課題である。 電子マイクログラフの分類は、高いクラス内相似性、高いクラス間類似性、多空間パターンスケールにより複雑である。 しかし,既存の手法は複雑な画像パターンの学習には有効ではない。 本稿では,ナノマテリアル識別のためのエンド・ツー・エンドの電子マイクログラフ表現学習フレームワークを提案する。 筆者らのフレームワークは,ナノマテリアルに基づく識別タスクにおいて,オープンソースデータセットの一般的なベースラインよりも優れていることを示す。 アブレーション研究は,我々のアプローチの有効性を支持するために,非常に詳細に報告されている。

Characterization of materials via electron micrographs is an important and challenging task in several materials processing industries. Classification of electron micrographs is complex due to the high intra-class dissimilarity, high inter-class similarity, and multi-spatial scales of patterns. However, existing methods are ineffective in learning complex image patterns. We propose an effective end-to-end electron micrograph representation learning-based framework for nanomaterial identification to overcome the challenges. We demonstrate that our framework outperforms the popular baselines on the open-source datasets in nanomaterials-based identification tasks. The ablation studies are reported in great detail to support the efficacy of our approach.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-10
# ケーススタディ:GenAIを活用してAIベースのサロゲートとレグレッタを構築し、核融合エネルギー科学における高周波加熱をモデル化する

Case Study: Leveraging GenAI to Build AI-based Surrogates and Regressors for Modeling Radio Frequency Heating in Fusion Energy Science ( http://arxiv.org/abs/2409.06122v1 )

ライセンス: Link先を確認
E. Wes Bethel, Vianna Cramer, Alexander del Rio, Lothar Narins, Chris Pestano, Satvik Verma, Erick Arias, Nicola Bertelli, Talita Perciano, Syun'ichi Shiraiwa, Álvaro Sánchez Villar, Greg Wallace, John C. Wright, (参考訳) 本稿では, 融合エネルギー研究におけるシミュレーションモデルのためのAIサロゲートの開発にGenerative AI(GenAI)を用いた詳細なケーススタディを提案する。 このスコープには、GenAIを使用してモデル開発と最適化を支援し、これらの結果を以前の手作業で開発されたモデルと比較する方法論、実装、結果が含まれている。

This work presents a detailed case study on using Generative AI (GenAI) to develop AI surrogates for simulation models in fusion energy research. The scope includes the methodology, implementation, and results of using GenAI to assist in model development and optimization, comparing these results with previous manually developed models.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# タブラルデータサイロを用いた対照的フェデレーション学習

Contrastive Federated Learning with Tabular Data Silos ( http://arxiv.org/abs/2409.06123v1 )

ライセンス: Link先を確認
Achmad Ginanjar, Xue Li, Wen Hua, (参考訳) データサイロから学ぶことは、複数の独立したデータサイロに現れるオブジェクトの知識を得る必要がある組織にとって難しいタスクです。 政府エージェントのようなマルチ組織内のオブジェクトは、運転免許証、パスポート番号、税制ファイル番号など、異なる識別子によって参照される。 データサイロ内のデータ分布は、主に非IID(独立におよびIdentically Distributed)、ラベルなし、垂直に分割された(つまり、異なる属性を持つ)。 プライバシーに関する懸念は上記の問題を厳しくする。 条件は協調作業への熱意を阻害する。 フェデレートラーニング(FL)はこれらの問題に対処するために提案されているが、ラベルのコストラインのラベル付けの難しさは、しばしば最適なモデル性能を妨げる。 潜在的な解決策は、類似したデータペアを対比して意味データを表現する教師なしの自己学習技術であるコントラスト学習にある。 しかし、対照的な学習は、現在、擬似識別子によるデータリンクが必要な複数の組織に存在する表形式のデータサイロを扱うように設計されていない。 これらの課題に対処するために,データサイロを用いたコントラシブ・フェデレーション・ラーニング(Contrastive Federated Learning with Data Silos, CFL)と呼ばれる半教師付きコントラスト・フェデレーション・ラーニングを提案する。 当社のアプローチは、前述の問題に統合されたソリューションで取り組みます。 実験の結果,CFLはこれらの課題に対処し,精度を向上する上で,現在の手法よりも優れていることがわかった。 さらに, 複雑なクライアント環境において, コントラッシブ・フェデレート・ラーニング・アプローチの利点を示す肯定的な結果を示す。

Learning from data silos is a difficult task for organizations that need to obtain knowledge of objects that appeared in multiple independent data silos. Objects in multi-organizations, such as government agents, are referred by different identifiers, such as driver license, passport number, and tax file number. The data distributions in data silos are mostly non-IID (Independently and Identically Distributed), labelless, and vertically partitioned (i.e., having different attributes). Privacy concerns harden the above issues. Conditions inhibit enthusiasm for collaborative work. While Federated Learning (FL) has been proposed to address these issues, the difficulty of labeling, namely, label costliness, often hinders optimal model performance. A potential solution lies in contrastive learning, an unsupervised self-learning technique to represent semantic data by contrasting similar data pairs. However, contrastive learning is currently not designed to handle tabular data silos that existed within multiple organizations where data linkage by quasi identifiers are needed. To address these challenges, we propose using semi-supervised contrastive federated learning, which we refer to as Contrastive Federated Learning with Data Silos (CFL). Our approach tackles the aforementioned issues with an integrated solution. Our experimental results demonstrate that CFL outperforms current methods in addressing these challenges and providing improvements in accuracy. Additionally, we present positive results that showcase the advantages of our contrastive federated learning approach in complex client environments.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# パーソナライズされたパスワードのタイポ補正のための条件付き暗号化

Conditional Encryption with Applications to Secure Personalized Password Typo Correction ( http://arxiv.org/abs/2409.06128v1 )

ライセンス: Link先を確認
Mohammad Hassan Ameri, Jeremiah Blocki, (参考訳) 本稿では,公開鍵暗号の拡張として条件付き暗号方式を提案する。 標準的な公開鍵アルゴリズム($\mathsf{KG}$, $\mathsf{Enc}$, $\mathsf{Dec}$)に加えて、バイナリ述語に対する条件付き暗号化スキームである$P$は、新しい条件付き暗号化アルゴリズム$\mathsf{CEnc}$を追加する。 条件暗号アルゴリズム $c=\mathsf{CEnc}_{pk}(c_1,m_2,m_3)$は、公開暗号鍵 $pk$, a ciphertext $c_1 = \mathsf{Enc}_{pk}(m_1)$ for an unknown message $m_1$, a control message $m_2$, a payload message $m_3$を入力として取り、条件暗号文 $c$を出力する。 直感的には、$P(m_1,m_2)=1$なら、条件付き暗号文$c$はペイロードメッセージ$m_3$に復号すべきである。 一方、$P(m_1,m_2) = 0$なら、暗号文は制御メッセージ $m_2$ やペイロードメッセージ $m_3$ に関する情報を漏らしてはならない。 我々は、条件付き暗号秘密の概念を定式化し、パスワードタイプミス訂正に関連する一連の述語に対して、具体的かつ効率的な構成を提供する。 私たちの実践的な構成では、Paillierの部分同型暗号化スキームとShamir Secret Sharingを使用します。 我々は,TypTopなどのパスワードタイプミス訂正システムのセキュリティ向上のために,条件付き暗号化を利用する方法を示す。 実効性のある条件付き暗号方式のためのC++ライブラリを実装し,その性能を実証的に評価する。 また,TypTopの実装を更新し,セキュリティ保証の強化に条件付き暗号化を利用するとともに,更新された実装の性能を評価する。

We introduce the notion of a conditional encryption scheme as an extension of public key encryption. In addition to the standard public key algorithms ($\mathsf{KG}$, $\mathsf{Enc}$, $\mathsf{Dec}$) for key generation, encryption and decryption, a conditional encryption scheme for a binary predicate $P$ adds a new conditional encryption algorithm $\mathsf{CEnc}$. The conditional encryption algorithm $c=\mathsf{CEnc}_{pk}(c_1,m_2,m_3)$ takes as input the public encryption key $pk$, a ciphertext $c_1 = \mathsf{Enc}_{pk}(m_1)$ for an unknown message $m_1$, a control message $m_2$ and a payload message $m_3$ and outputs a conditional ciphertext $c$. Intuitively, if $P(m_1,m_2)=1$ then the conditional ciphertext $c$ should decrypt to the payload message $m_3$. On the other hand if $P(m_1,m_2) = 0$ then the ciphertext should not leak any information about the control message $m_2$ or the payload message $m_3$ even if the attacker already has the secret decryption key $sk$. We formalize the notion of conditional encryption secrecy and provide concretely efficient constructions for a set of predicates relevant to password typo correction. Our practical constructions utilize the Paillier partially homomorphic encryption scheme as well as Shamir Secret Sharing. We prove that our constructions are secure and demonstrate how to use conditional encryption to improve the security of personalized password typo correction systems such as TypTop. We implement a C++ library for our practically efficient conditional encryption schemes and evaluate the performance empirically. We also update the implementation of TypTop to utilize conditional encryption for enhanced security guarantees and evaluate the performance of the updated implementation.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# DECOLLAGE: 制御可能、局所化、学習幾何学の強化による3次元詳細化

DECOLLAGE: 3D Detailization by Controllable, Localized, and Learned Geometry Enhancement ( http://arxiv.org/abs/2409.06129v1 )

ライセンス: Link先を確認
Qimin Chen, Zhiqin Chen, Vladimir G. Kim, Noam Aigerman, Hao Zhang, Siddhartha Chaudhuri, (参考訳) エンドユーザーが機械学習を用いて3D形状を洗練または詳細化し、AI支援型3Dコンテンツ作成の能力を拡大する3Dモデリング手法を提案する。 ユーザは、粗いボクセル形状(例えば、単純な箱押出工具または生成モデルにより生成されるもの)を与えられた場合、入力外形から粗い形状の異なる領域にわたって、魅力的な幾何学的詳細を表す所望のターゲットスタイルを直接「塗装」することができる。 これらの領域は、高解像度のジオメトリーにアップサンプリングされ、塗装様式に固執する。 このような制御可能で局所的な3D明細化を実現するために、我々は、ピラミッドGANの上にマスクを意識して構築する。 そこで我々は,本手法が望まれる粗い構造と細粒度の特徴の両方を,例えば,異なる意味的部分,さらには異なる形状のカテゴリから借用したとしても,新たな構造的損失と先行性を考案した。 広範な実験を通して、詳細をローカライズする能力は、新しいインタラクティブなワークフローやアプリケーションを可能にすることを示す。 さらに,グローバルな細部化に基づく先行技術と比較して,より整合的な形状の細部とスタイル遷移を有する構造保存型,高解像度なスタイライズされたジオメトリを生成することを実証した。

We present a 3D modeling method which enables end-users to refine or detailize 3D shapes using machine learning, expanding the capabilities of AI-assisted 3D content creation. Given a coarse voxel shape (e.g., one produced with a simple box extrusion tool or via generative modeling), a user can directly "paint" desired target styles representing compelling geometric details, from input exemplar shapes, over different regions of the coarse shape. These regions are then up-sampled into high-resolution geometries which adhere with the painted styles. To achieve such controllable and localized 3D detailization, we build on top of a Pyramid GAN by making it masking-aware. We devise novel structural losses and priors to ensure that our method preserves both desired coarse structures and fine-grained features even if the painted styles are borrowed from diverse sources, e.g., different semantic parts and even different shape categories. Through extensive experiments, we show that our ability to localize details enables novel interactive creative workflows and applications. Our experiments further demonstrate that in comparison to prior techniques built on global detailization, our method generates structure-preserving, high-resolution stylized geometries with more coherent shape details and style transitions.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# バックドア型モデル透かしの弱さについて:情報理論の視点から

On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective ( http://arxiv.org/abs/2409.06130v1 )

ライセンス: Link先を確認
Aoting Hu, Yanzhi Chen, Renjie Xie, Adrian Weller, (参考訳) 機械学習モデルの知的財産権の保護は、AIセキュリティの急激な懸念として浮上している。 モデル透かしは機械学習モデルのオーナシップを保護するための強力なテクニックだが、最近の透かし除去攻撃によってその信頼性が問題視されている。 本研究では,既存の透かし埋め込み技術,特にバックドア技術が脆弱である理由について考察する。 情報理論解析により,消毒攻撃に対する透かしのレジリエンスは,現在の消毒トリガーセットの使用が本質的にはホワイトボックスの敵に対して脆弱であるトリガーセットの選択に左右されることを示した。 この発見に基づいて,既存の手法の限界を克服するため,新しいウォーターマーク方式であるIn-distriion Watermark Embedding (IWE)を提案する。 モデルクリーニングにおけるギャップを最小化するため,ロジットを透かし情報担体としての役割を分析し,ロジット内の透かし情報を隠蔽する新しい手法を提案する。 CIFAR-100とCaltech-101を含む実世界のデータセットの実験では、我々の手法は無視できる精度の損失(0.1%)で様々な敵に対して強固に防御することを示した。

Safeguarding the intellectual property of machine learning models has emerged as a pressing concern in AI security. Model watermarking is a powerful technique for protecting ownership of machine learning models, yet its reliability has been recently challenged by recent watermark removal attacks. In this work, we investigate why existing watermark embedding techniques particularly those based on backdooring are vulnerable. Through an information-theoretic analysis, we show that the resilience of watermarking against erasure attacks hinges on the choice of trigger-set samples, where current uses of out-distribution trigger-set are inherently vulnerable to white-box adversaries. Based on this discovery, we propose a novel model watermarking scheme, In-distribution Watermark Embedding (IWE), to overcome the limitations of existing method. To further minimise the gap to clean models, we analyze the role of logits as watermark information carriers and propose a new approach to better conceal watermark information within the logits. Experiments on real-world datasets including CIFAR-100 and Caltech-101 demonstrate that our method robustly defends against various adversaries with negligible accuracy loss (< 0.1%).
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# LFR教育による大規模言語モデルの事前学習の促進:学習、焦点、レビュー

Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review ( http://arxiv.org/abs/2409.06131v1 )

ライセンス: Link先を確認
Neha Prakriya, Jui-Nan Yen, Cho-Jui Hsieh, Jason Cong, (参考訳) 大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。 我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。 LFR(Learn, Focus, and Review)は,Webスケール情報を長期記憶に効果的にコミットするために,モデルの学習ペースと進歩に基づいて,複雑なデータブロックを体系的な間隔で集中的かつ反復的にレビューする,新しい動的トレーニングパラダイムである。 LFRは、異なるデータブロックに対するモデルの難易度を記録し、しばしば忘れられやすい高い難易度を持つブロックを再検討する。 LFR を用いて OpenWebText データセットのスクラッチから GPT-2 モデル (124M - 1.5B) を事前訓練する。 我々は、言語モデリング、質問応答、翻訳、問題解決ドメインから下流のタスクをテストし、ベースラインのOpenAIモデルよりも一貫して低い難易度と高い精度を達成するとともに、20倍の事前学習速度を得る。

Large Language Model (LLM) pretraining traditionally relies on autoregressive language modeling on randomly sampled data blocks from web-scale datasets. We take inspiration from human learning techniques like spaced repetition to hypothesize that random data sampling for LLMs leads to high training cost and low quality models which tend to forget data. In order to effectively commit web-scale information to long-term memory, we propose the LFR (Learn, Focus, and Review) pedagogy, a new dynamic training paradigm which focuses and repeatedly reviews complex data blocks at systematic intervals based on the model's learning pace and progress. LFR records the model perplexities for different data blocks and frequently revisits blocks with higher perplexity which are more likely to be forgotten. We pretrain the GPT-2 models (124M - 1.5B) from scratch on the OpenWebText dataset using LFR. We test on downstream tasks from the language modeling, question answering, translation, and problem solving domains to achieve consistently lower perplexity and higher accuracy than the baseline OpenAI models, while obtaining a 20x pretraining speed-up.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# 方向性量子スクイーズ法による非相互三部構造と非対称アインシュタイン-ポドルスキー-ローゼンステアリング

Nonreciprocal tripartite entanglement and asymmetric Einstein-Podolsky-Rosen steering via directional quantum squeezing ( http://arxiv.org/abs/2409.06133v1 )

ライセンス: Link先を確認
Ya-Feng Jiao, Jie Wang, Dong-Yang Wang, Lei Tang, Yan Wang, Yun-Lan Zuo, Wan-Su Bao, Le-Man Kuang, Hui Jing, (参考訳) マクロシステムにおける多粒子エンタングルメントとEPRステアリングの生成と操作は、量子力学の性質を探索する上での基本的な役割だけでなく、様々な初期の量子技術の現在の発展の核にもなっている。 本稿では, クローズドループ結合を有する3モードオプティメカティカルシステムにおいて, 量子スクイージングの方向性注入による非相反多部絡みとEPRステアリングの生成を理論的に検討する。 位相整合型圧縮真空貯留層を有する2光子パラメトリック駆動場を光共振器に指向的に適用することにより、その入力方向の1つに圧縮光モードを導入し、光学的相互作用の非対称化とシステムの時間反転対称性の破れを生じることを示す。 この特徴に基づき、二分位と三分位が絡み合う部分系のEPRステアリングは、スクイージング注入方向から入力されるコヒーレントな駆動場、すなわちそのような量子相関において非相互性を達成する場合にのみ発生することが判明した。 さらにエキサイティングに、スクイーズパラメータを適切に調整することにより、EPRステアリングの全体的な非対称性を、一方的、一方的、双方向的な状態から段階的に駆動できることがわかった。 これらの発見は、非相互相関を持つリッチなタイプの量子リソースを作成することを約束するものであり、量子セキュアな直接通信や一方方向量子コンピューティングのような量子情報処理の分野に潜在的に応用できる可能性がある。

The generation and manipulation of multipartite entanglement and EPR steering in macroscopic systems not only play a fundamental role in exploring the nature of quantum mechanics, but are also at the core of current developments of various nascent quantum technologies. Here we report a theoretical method using directional injection of quantum squeezing to produce nonreciprocal multipartite entanglement and EPR steering in a three-mode optomechanical system with closed-loop coupling. We show that by directionally applying a two-photon parametric driving field with a phase-matched squeezed vacuum reservoir to an optomechanical resonator, a squeezed optical mode can be introduced for one of its input directions, thereby yielding an asymmetric enhancement of optomechanical interaction and the time-reversal symmetry breaking of the system. Based on this feature, it is found that bipartite and tripartite entanglement and the associated EPR steering of the subsystems can only be generated when the coherent driving field input from the squeezing injection direction, namely, achieving nonreciprocity in such quantum correlations. More excitingly, it is also found that by properly adjusting the squeezing parameter, the overall asymmetry of EPR steering can be stepwise driven from no-way regime, one-way regime to two-way regime. These findings, holding promise for preparing rich types of entangled quantum resources with nonreciprocal correlations, may have potential applications in the area of quantum information processing such as quantum secure direct communication and one-way quantum computing.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# 音声を描画する: 音声合成のためのマルチインストラクションの活用

Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis ( http://arxiv.org/abs/2409.06135v1 )

ライセンス: Link先を確認
Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang, (参考訳) フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A) は、音声と視覚の同期に固有の課題を提示する。 これらの課題は、入力されたビデオと生成されたオーディオ間のコンテンツ一貫性の維持と、ビデオ内の時間的および大音量の特性の整合性を含む。 これらの問題に対処するため、我々はDraw an Audioと呼ばれる制御可能な音声合成モデルを構築し、描画マスクと大音量信号による複数の入力命令をサポートする。 合成音声と対象映像のコンテントの整合性を確保するため,マスク・アテンション・モジュール(Mask-Attention Module,MAM)を導入する。 さらに,大音量と時間次元の両方で映像に一致した音の合成を保証するため,補助音量信号を用いたTLMを実装した。 さらに,キャプションプロンプトを付加することにより,VGGSound-Captionと呼ばれる大規模V2Aデータセットを拡張した。 大規模な2つのV2Aデータセットにわたる挑戦的なベンチマークに関する大規模な実験は、Draw an Audioが最先端を達成することを検証している。 プロジェクトページ: https://yannqi.github.io/Draw-an-Audio/。

Foley is a term commonly used in filmmaking, referring to the addition of daily sound effects to silent films or videos to enhance the auditory experience. Video-to-Audio (V2A), as a particular type of automatic foley task, presents inherent challenges related to audio-visual synchronization. These challenges encompass maintaining the content consistency between the input video and the generated audio, as well as the alignment of temporal and loudness properties within the video. To address these issues, we construct a controllable video-to-audio synthesis model, termed Draw an Audio, which supports multiple input instructions through drawn masks and loudness signals. To ensure content consistency between the synthesized audio and target video, we introduce the Mask-Attention Module (MAM), which employs masked video instruction to enable the model to focus on regions of interest. Additionally, we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness signal to ensure the synthesis of sound that aligns with the video in both loudness and temporal dimensions. Furthermore, we have extended a large-scale V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive experiments on challenging benchmarks across two large-scale V2A datasets verify Draw an Audio achieves the state-of-the-art. Project page: https://yannqi.github.io/Draw-an-Audio/.
翻訳日:2024-09-11 19:30:38 公開日:2024-09-10
# 変分探索分布

Variational Search Distributions ( http://arxiv.org/abs/2409.06142v1 )

ライセンス: Link先を確認
Daniel M. Steinberg, Rafael Oliveira, Cheng Soon Ong, Edwin V. Bonilla, (参考訳) 提案手法は, 離散的, 組合せ的な, 希少なクラスの設計を, 固定された実験予算で逐次的に検出する手法である。 この問題に対する要件とデシラタを定式化し、これらを満たす変分推論によって解を定式化する。 特にVSDはオフザシェルフ勾配に基づく最適化ルーチンを使用しており、スケーラブルな予測モデルを活用することができる。 種々の生体系における実数列設計問題に対して,VSDが既存のベースライン法より優れていることを示す。

We develop variational search distributions (VSD), a method for finding discrete, combinatorial designs of a rare desired class in a batch sequential manner with a fixed experimental budget. We formalize the requirements and desiderata for this problem and formulate a solution via variational inference that fulfill these. In particular, VSD uses off-the-shelf gradient based optimization routines, and can take advantage of scalable predictive models. We show that VSD can outperform existing baseline methods on a set of real sequence-design problems in various biological systems.
翻訳日:2024-09-11 19:20:46 公開日:2024-09-10
# ダイヤモンド色中心の協調的動的ポーラロン像

Cooperative dynamic polaronic picture of diamond color centers ( http://arxiv.org/abs/2409.06144v1 )

ライセンス: Link先を確認
Takuto Ichikawa, Junjie Guo, Paul Fons, Dwi Prananto, Toshu An, Muneaki Hase, (参考訳) ポラロンはキャリアモビリティを制御でき、量子デバイスの設計にも使用できる。 ポーラロンの性質の研究には多くの努力が注がれているが、欠陥に関連するポーラロンの観察は電子欠陥の散乱によって困難である。 ここでは,超高速ポンププローブ法によるダイヤモンド結晶中の窒素空孔中心のポーラロン挙動について検討する。 10fsの光パルスは、絶縁破壊閾値を超える高電界の源として作用し、NV電荷分布と極性光フォノンに力を与える。 電子応答とフォノン応答は、低密度のNV中心に対して桁違いに増強されるが、これは協調的な極性効果と欠陥による散乱の組合せによるものである。 第一原理計算は、非ゼロボルンの有効電荷による双極子Fr\"ohlich相互作用の存在を支持する。 ダイアモンド中の色中心の物理に関する知見を提供する。

Polarons can control carrier mobility and can also be used in the design of quantum devices. Although much effort has been directed into investigating the nature of polarons, observation of defect-related polarons is challenging due to electron-defect scattering. Here we explore the polaronic behavior of nitrogen-vacancy (NV) centers in a diamond crystal using an ultrafast pump-probe technique. A 10-fs optical pulse acts as a source of high electric field exceeding the dielectric breakdown threshold, in turn exerting a force on the NV charge distribution and polar optical phonons. The electronic and phononic responses are enhanced by an order of magnitude for a low density of NV centers, which we attribute to a combination of cooperative polaronic effects and scattering by defects. First-principles calculations support the presence of dipolar Fr\"ohlich interaction via non-zero Born effective charges. Our findings provide insights into the physics of color centers in diamonds.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 解釈可能な制限ボルツマンマシンによる構成相互作用誘導サンプリング

Configuration Interaction Guided Sampling with Interpretable Restricted Boltzmann Machine ( http://arxiv.org/abs/2409.06146v1 )

ライセンス: Link先を確認
Jorge I. Hernandez-Martinez, Gerardo Rodriguez-Hernandez, Andres Mendez-Vazquez, (参考訳) 本研究では,制限ボルツマンマシン (RBM) を用いたデータ駆動型手法を提案し,構成空間におけるシュリンガー方程式の解法を提案する。 従来の Configuration Interaction (CI) 手法は強力だが、大量の行列式を必要とするため計算コストがかかる。 提案手法では, RBMを用いて最も重要な行列式を効率よく同定, サンプリングし, 収束を加速し, 計算コストを低減している。 相関エネルギーの99.99\%は、完全なCI計算よりも4桁少ない行列式でも最大99.99\%、従来の最先端処理よりも最大2桁少ない値で達成される。 さらに,本研究では,RBMが基礎となる量子特性を学習できることを示し,他の手法よりも詳細な知見を提供する。 この革新的なデータ駆動型アプローチは、量子化学の有望なツールを提供し、複雑なシステムの効率性と理解を両立させる。

We propose a data-driven approach using a Restricted Boltzmann Machine (RBM) to solve the Schr\"odinger equation in configuration space. Traditional Configuration Interaction (CI) methods, while powerful, are computationally expensive due to the large number of determinants required. Our approach leverages RBMs to efficiently identify and sample the most significant determinants, accelerating convergence and reducing computational cost. This method achieves up to 99.99\% of the correlation energy even by four orders of magnitude less determinants compared to full CI calculations and up to two orders of magnitude less than previous state of the art works. Additionally, our study demonstrate that the RBM can learn the underlying quantum properties, providing more detail insights than other methods . This innovative data-driven approach offers a promising tool for quantum chemistry, enhancing both efficiency and understanding of complex systems.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 実生活で収集したスマートウォッチフォトプレソグラフィー信号を用いたマルチクラス不整脈分類

Multiclass Arrhythmia Classification using Smartwatch Photoplethysmography Signals Collected in Real-life Settings ( http://arxiv.org/abs/2409.06147v1 )

ライセンス: Link先を確認
Dong Han, Jihye Moon, Luís Roberto Mercado Díaz, Darren Chen, Devan Williams, Eric Y. Ding, Khanh-Van Tran, David D. McManus, Ki H. Chon, (参考訳) マルチクラス不整脈分類の深層学習モデルは,スマートウォッチ由来のPSGと比較して高い信号-雑音比を有し,早期心房/心室収縮(PAC/PVC)検出の感度は75%に過ぎなかった。 高AF検出を維持しつつPAC/PVC検出感度を向上させるために、計算効率の良い1D双方向Gated Recurrent Unit (1D-Bi-GRU)モデルへの入力として、1D PPG、加速度計、心拍データを組み込んだマルチモーダルデータを用いて、3つの不整脈クラスを検出する。 NIHが出資したPulsewatchのPPGデータを用いた。 対象者72名を対象に行ったマルチモーダルモデルでは,PAC/PVC検出の感度は前例のない83%,AF検出の精度は97.31%であった。 その結果,PAC/PVCでは20.81%,AF検出では2.55%,計算効率は14倍,2.7倍であった。

Most deep learning models of multiclass arrhythmia classification are tested on fingertip photoplethysmographic (PPG) data, which has higher signal-to-noise ratios compared to smartwatch-derived PPG, and the best reported sensitivity value for premature atrial/ventricular contraction (PAC/PVC) detection is only 75%. To improve upon PAC/PVC detection sensitivity while maintaining high AF detection, we use multi-modal data which incorporates 1D PPG, accelerometers, and heart rate data as the inputs to a computationally efficient 1D bi-directional Gated Recurrent Unit (1D-Bi-GRU) model to detect three arrhythmia classes. We used motion-artifact prone smartwatch PPG data from the NIH-funded Pulsewatch clinical trial. Our multimodal model tested on 72 subjects achieved an unprecedented 83% sensitivity for PAC/PVC detection while maintaining a high accuracy of 97.31% for AF detection. These results outperformed the best state-of-the-art model by 20.81% for PAC/PVC and 2.55% for AF detection even while our model was computationally more efficient (14 times lighter and 2.7 faster).
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 量子ネットワークのための電気駆動・指数的に強化されたスピン-光子界面

Electrically-Driven and Exponentially-Enhanced Spin-Photon Interfaces for Quantum Networks ( http://arxiv.org/abs/2409.06149v1 )

ライセンス: Link先を確認
Fang-Yu Hong, (参考訳) 本稿では、量子ネットワークで使用されるスピン光子量子インタフェースの電気駆動方式を提案する。 ナノカンチレバーの動作を電圧で調節することにより、光学的結合とスピン-機械的結合を同時に指数関数的に拡張することができる。 数値シミュレーションにより, 単一光子の生成や吸収などの高忠実度量子インタフェースの動作をよく設計した電圧を適用することにより, 現行技術の範囲内であることが示唆された。

We present an electrically-driven scheme for spin-photon quantum interfaces used in quantum networks. Through modulating the motion of a nano cantilever with voltages, optomechanical coupling and spin-mechanical coupling can be exponentially enhanced simultaneously. Numerical simulations show that by applying well-designed voltages high-fidelity quantum interface operations such as generation and absorption of a single-photon with a known wave packet are within the reach of current techniques.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 一方向と二方向の量子リピータアーキテクチャの比較

Comparing One- and Two-way Quantum Repeater Architectures ( http://arxiv.org/abs/2409.06152v1 )

ライセンス: Link先を確認
Prateek Mantri, Kenneth Goodenough, Don Towsley, (参考訳) 量子リピータは、長距離量子通信を実現するための重要なビルディングブロックである。 しかし、量子情報の脆弱な性質のため、これらのリピータは損失と運用上のエラーに悩まされる。 従来の研究では、リピータを確率的あるいはほぼ決定論的手法を用いて、これらの誤りを緩和する3つの幅広いカテゴリに分類していた。 古典的な通信時間の違いに加えて、これらのアプローチは技術的な複雑さも様々であり、より高度な技術を必要とするほぼ決定論的手法である。 近年, 利用可能なメモリ数の増加と多重化による絡み合い生成の導入は, ワンウェイリピータアーキテクチャと双方向リピータアーキテクチャの再比較を動機付けている。 本研究では,メモリ制約のない「接続指向」双方向リピータにおける多重化基本リンク生成と蒸留を最適化し,絡み合い発生率を向上する新しいプロトコルを提案する。 本稿では, 確率的$n$-to-k$蒸留プロトコルに適合する多重二方向リピータアーキテクチャにおいて, ベル対数の確率分布を導出する再帰的定式化を導入する。 次に,本プロトコルの性能を,これまで一方向スキームが有利であったパラメータ方式の一方向スキームと比較し,より低いリソースと技術要件で,多重化された二方向プロトコルがより良い性能を提供することを示した。

Quantum repeaters are an essential building block for realizing long-distance quantum communications. However, due to the fragile nature of quantum information, these repeaters suffer from loss and operational errors. Prior works have classified repeaters into three broad categories based on their use of probabilistic or near-deterministic methods to mitigate these errors. Besides differences in classical communication times, these approaches also vary in technological complexity, with near-deterministic methods requiring more advanced technology. Recent increases in the number of available memories, and introduction of entanglement generation through multiplexing motivate a re-comparison of one-way and two-way repeater architectures. In this work, we propose a novel protocol that optimizes multiplexed elementary link generation and distillation in memory-unconstrained 'connection-oriented' two-way repeaters to boost the entanglement generation rates. We introduce a recursive formulation to derive the probability distribution of the number of Bell pairs in multiplexed two-way repeater architectures, compatible with probabilistic $n$-to-$k$ distillation protocols. We then compare the performance of this new protocol with one-way schemes in the parameter regime where one-way schemes have previously been shown to be advantageous, and find that the multiplexed two-way protocol provides better performance with lower resource and technology requirements.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# UniLearn: 画像とビデオの統一事前学習と微調整による動的顔表情認識の実現

UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos ( http://arxiv.org/abs/2409.06154v1 )

ライセンス: Link先を確認
Yin Chen, Jia Li, Yu Zhang, Zhenzhen Hu, Shiguang Shan, Meng Wang, Richang Hong, (参考訳) 動的表情認識(DFER)は人間の感情や行動を理解するのに不可欠である。 しかし、従来のDFER法は主に動的顔データを用いており、静的な表情画像とそのラベルを未利用であり、その性能と頑健さを制限している。 この問題を解決するために,静的表情認識(SFER)データを統合してDFERタスクを強化する,新しい統合学習パラダイムであるUniLearnを導入する。 UniLearnは、VTモデルの時空間表現能力を高めるために、表情画像とビデオの両方を活用する、デュアルモーダルな自己教師付き事前訓練方式を採用している。 次に、事前学習されたモデルは、共同微調整戦略を用いて、静的および動的表現データセットの両方で微調整される。 協調微調整中の負の伝達を防止するため,タスク固有の知識の獲得を可能にし,静的および動的表現データからの情報を効果的に統合するMoAEモジュールを導入した。 大規模な実験は、UniLearnが静的および動的顔データから相補的な情報を活用する効果を示し、より正確で堅牢なDFERをもたらす。 UniLearnは、それぞれ53.65\%、58.44\%、76.68\%の重み付き平均リコール(WAR)を持つFERV39K、MAFW、DFEWのベンチマークで、最先端のパフォーマンスを一貫して達成している。 ソースコードとモデルの重み付けは \url{https://github.com/MSA-LMC/UniLearn} で公開される。

Dynamic facial expression recognition (DFER) is essential for understanding human emotions and behavior. However, conventional DFER methods, which primarily use dynamic facial data, often underutilize static expression images and their labels, limiting their performance and robustness. To overcome this, we introduce UniLearn, a novel unified learning paradigm that integrates static facial expression recognition (SFER) data to enhance DFER task. UniLearn employs a dual-modal self-supervised pre-training method, leveraging both facial expression images and videos to enhance a ViT model's spatiotemporal representation capability. Then, the pre-trained model is fine-tuned on both static and dynamic expression datasets using a joint fine-tuning strategy. To prevent negative transfer during joint fine-tuning, we introduce an innovative Mixture of Adapter Experts (MoAE) module that enables task-specific knowledge acquisition and effectively integrates information from both static and dynamic expression data. Extensive experiments demonstrate UniLearn's effectiveness in leveraging complementary information from static and dynamic facial data, leading to more accurate and robust DFER. UniLearn consistently achieves state-of-the-art performance on FERV39K, MAFW, and DFEW benchmarks, with weighted average recall (WAR) of 53.65\%, 58.44\%, and 76.68\%, respectively. The source code and model weights will be publicly available at \url{https://github.com/MSA-LMC/UniLearn}.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# シェープ値の因果解析--条件付き対マージナル

Causal Analysis of Shapley Values: Conditional vs. Marginal ( http://arxiv.org/abs/2409.06157v1 )

ライセンス: Link先を確認
Ilya Rozenfeld, (参考訳) ゲーム理論の概念であるShapley Valueは、機械学習(ML)モデルを説明する最も一般的なツールの1つだ。 残念なことに、シャプリー値を計算するための最も一般的な2つのアプローチは、特徴が相関しているときに望ましくない副作用とともに、異なる結果をもたらす可能性がある。 このことが、異なる著者によってアプローチの選択に関する矛盾した勧告が提供されるという文献の状況に繋がった。 本稿では,この論争を因果論を用いて解決することを目的とする。 本研究は,各手法において,欠落した因果情報に対処するための暗黙の仮定から,その相違が生じることを示す。 また、条件付きアプローチは因果的観点から根本的に無音であることを示す。 これは [1] の以前の研究とともに、条件付きアプローチよりも限界アプローチの方が好ましいという結論に導かれる。

Shapley values, a game theoretic concept, has been one of the most popular tools for explaining Machine Learning (ML) models in recent years. Unfortunately, the two most common approaches, conditional and marginal, to calculating Shapley values can lead to different results along with some undesirable side effects when features are correlated. This in turn has led to the situation in the literature where contradictory recommendations regarding choice of an approach are provided by different authors. In this paper we aim to resolve this controversy through the use of causal arguments. We show that the differences arise from the implicit assumptions that are made within each method to deal with missing causal information. We also demonstrate that the conditional approach is fundamentally unsound from a causal perspective. This, together with previous work in [1], leads to the conclusion that the marginal approach should be preferred over the conditional one.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 量子コンピューティングシステムの性能解析と回路最適化

Visual Analytics of Performance of Quantum Computing Systems and Circuit Optimization ( http://arxiv.org/abs/2409.06159v1 )

ライセンス: Link先を確認
Junghoon Chae, Chad A. Steed, Travis S. Humble, (参考訳) ビジネス、セキュリティ、科学シナリオにおける指数関数的なスピードアップによって駆動される量子コンピューティングへの関心は急増している。 これは量子コンピューティングハードウェアの開発に影響を及ぼすが、ハードウェアメトリクス(例えば、量子ビットコヒーレンスとゲートフィリティ)のアプリケーションパフォーマンスを最適化する際のいくつかの課題が生じる。 本研究では,量子デバイスの性能特性と量子回路最適化を視覚的に解析する手法について述べる。 提案手法では,量子デバイスの性能データにおける空間的パターンと時間的パターンを探索し,重要なパフォーマンス指標の類似性やばらつきを計算できる。 個々の量子ビットを特徴付ける誤差特性の詳細な解析もサポートする。 また,量子回路の最適化を可視化する手法についても述べる。 この視覚化ツールにより、研究者は量子計算の解釈可能性を高めて、より効率的な量子アルゴリズムやアプリケーションを設計できる。

Driven by potential exponential speedups in business, security, and scientific scenarios, interest in quantum computing is surging. This interest feeds the development of quantum computing hardware, but several challenges arise in optimizing application performance for hardware metrics (e.g., qubit coherence and gate fidelity). In this work, we describe a visual analytics approach for analyzing the performance properties of quantum devices and quantum circuit optimization. Our approach allows users to explore spatial and temporal patterns in quantum device performance data and it computes similarities and variances in key performance metrics. Detailed analysis of the error properties characterizing individual qubits is also supported. We also describe a method for visualizing the optimization of quantum circuits. The resulting visualization tool allows researchers to design more efficient quantum algorithms and applications by increasing the interpretability of quantum computations.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# MCDGLN:自閉症スペクトラム障害のためのマスク付き接続型動的グラフ学習ネットワーク

MCDGLN: Masked Connection-based Dynamic Graph Learning Network for Autism Spectrum Disorder ( http://arxiv.org/abs/2409.06163v1 )

ライセンス: Link先を確認
Peng Wang, Xin Wen, Ruochen Cao, Chengxin Gao, Yanrong Hao, Rui Cao, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、神経発達障害の一種。 これまでの研究は、しばしば脳のダイナミックな性質やネットワークノイズによる課題を無視して、静的な脳の相互作用に主に焦点を当ててきた。 これらのギャップに対処するために,Masked Connection-based Dynamic Graph Learning Network (MCDGLN)を紹介する。 提案手法はまず,スライディング時間窓を用いてBOLD信号を分割し,脳のダイナミックな特徴を捉える。 次に、チャンネルワイズ要素単位の畳み込みカーネルとクロス畳み込みを用いて、動的機能接続を統合し、タスク関連接続を分離する専用の重み付けエッジアグリゲーション(WEA)モジュールを用いる。 これに続いて、階層グラフ畳み込みネットワーク(HGCN)によるトポロジ的特徴抽出(英語版)が行われ、キー属性は自己アテンションモジュールによって強調される。 重要なことは、カスタマイズされたタスク固有のマスクを使用して静的機能接続を洗練し、ノイズを低減し、無関係リンクを刈り取ることである。 注意に基づく接続エンコーダ(ACE)は重要な接続を強化し、静的な特徴を圧縮する。 組み合わせた特徴はその後分類に使用される。 自閉症脳画像データ交換I(ABIDE I)データセットに適用し,1035名の被験者を対象に,ASD群と典型的な制御群(TC群)の分類精度を73.3%向上させた。 接続性の改善と分類精度の向上におけるWAAとACEの重要な役割は、ASD特有の特徴を捉えることの重要性を浮き彫りにして、障害に対する新たな洞察を与えている。

Autism Spectrum Disorder (ASD) is a neurodevelopmental disorder characterized by complex physiological processes. Previous research has predominantly focused on static cerebral interactions, often neglecting the brain's dynamic nature and the challenges posed by network noise. To address these gaps, we introduce the Masked Connection-based Dynamic Graph Learning Network (MCDGLN). Our approach first segments BOLD signals using sliding temporal windows to capture dynamic brain characteristics. We then employ a specialized weighted edge aggregation (WEA) module, which uses the cross convolution with channel-wise element-wise convolutional kernel, to integrate dynamic functional connectivity and to isolating task-relevant connections. This is followed by topological feature extraction via a hierarchical graph convolutional network (HGCN), with key attributes highlighted by a self-attention module. Crucially, we refine static functional connections using a customized task-specific mask, reducing noise and pruning irrelevant links. The attention-based connection encoder (ACE) then enhances critical connections and compresses static features. The combined features are subsequently used for classification. Applied to the Autism Brain Imaging Data Exchange I (ABIDE I) dataset, our framework achieves a 73.3\% classification accuracy between ASD and Typical Control (TC) groups among 1,035 subjects. The pivotal roles of WEA and ACE in refining connectivity and enhancing classification accuracy underscore their importance in capturing ASD-specific features, offering new insights into the disorder.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 中国の心理支援ホットラインにおける適切な行為予測における深層学習と音声・テキスト分析のための大規模言語モデル

Deep Learning and Large Language Models for Audio and Text Analysis in Predicting Suicidal Acts in Chinese Psychological Support Hotlines ( http://arxiv.org/abs/2409.06164v1 )

ライセンス: Link先を確認
Yining Chen, Jianqiang Li, Changwei Song, Qing Zhao, Yongsheng Tong, Guanghui Fu, (参考訳) 自殺は世界的な問題であり、緊急かつ効果的な予防介入を要求している。 様々な戦略の中で、心理的支援ホットラインは強力な介入方法として証明されていた。 中国では毎年200万人が自殺を企てており、多くの人が複数の試みをしている。 リスクの高い個人に対する迅速な識別と介入は、悲劇を防ぐために不可欠である。 人工知能(AI)の急速な進歩、特に大規模言語モデル(LLM)の開発により、メンタルヘルス分野に新しい技術が導入された。 本研究は、1284名の被験者を対象とし、ディープラーニングモデルとLLMが、ホットラインからの音声および転写テキストを用いて、自殺リスクを効果的に予測できるかどうかを検証するように設計された。 そこで我々は,まず約1時間の音声から書き起こされたテキストを要約し,重要な特徴を抽出し,将来的な自殺行動を予測する,シンプルなLCMベースのパイプラインを提案する。 従来の手作業による手作業によるアプローチと,5つの高度なディープラーニングモデルとの比較を行った。 意外なことに、提案された単純なLCMパイプラインは、46人の被験者によるテストセットにおいて、手動のスケール評価と組み合わせてF1スコアが76\%の強い性能を達成した。 これは、最高の音声ベースのディープラーニングモデルよりも7倍高く、手動のスケールアポラッハのみを使用する場合と比較して、F1スコアの27.82倍のポイント改善を示している。 本研究は, LLMの新たな応用を探求し, 今後の自殺予防対策の可能性を示すものである。

Suicide is a pressing global issue, demanding urgent and effective preventive interventions. Among the various strategies in place, psychological support hotlines had proved as a potent intervention method. Approximately two million people in China attempt suicide annually, with many individuals making multiple attempts. Prompt identification and intervention for high-risk individuals are crucial to preventing tragedies. With the rapid advancement of artificial intelligence (AI), especially the development of large-scale language models (LLMs), new technological tools have been introduced to the field of mental health. This study included 1284 subjects, and was designed to validate whether deep learning models and LLMs, using audio and transcribed text from support hotlines, can effectively predict suicide risk. We proposed a simple LLM-based pipeline that first summarizes transcribed text from approximately one hour of speech to extract key features, and then predict suicidial bahaviours in the future. We compared our LLM-based method with the traditional manual scale approach in a clinical setting and with five advanced deep learning models. Surprisingly, the proposed simple LLM pipeline achieved strong performance on a test set of 46 subjects, with an F1 score of 76\% when combined with manual scale rating. This is 7\% higher than the best speech-based deep learning models and represents a 27.82\% point improvement in F1 score compared to using the manual scale apporach alone. Our study explores new applications of LLMs and demonstrates their potential for future use in suicide prevention efforts.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 視覚言語モデルの再検討

Revisiting Prompt Pretraining of Vision-Language Models ( http://arxiv.org/abs/2409.06166v1 )

ライセンス: Link先を確認
Zhenyuan Chen, Lingfeng Yang, Shuo Chen, Zhaowei Chen, Jiajun Liang, Xiang Li, (参考訳) プロンプト学習は、入力プロンプトトークンの非常に少ないパラメータをチューニングすることを含む、様々な下流タスクのために視覚言語モデル(VLM)をカスタマイズする効果的な方法である。 近年,大規模データセット(例えば ImageNet-21K)におけるプロンプト事前学習は,視覚的識別の学習において重要な役割を担っている。 しかし,本研究は,事前訓練中に広範囲な画像が得られた場合,学習可能な限られたプロンプトが不適合なリスクに直面する可能性があることを再考および観察し,同時に一般化の低さにつながった。 以上の課題に対処するため,本論文では,即時構造と即時監督という2つの側面から適合性と一般化能力を改善することを目的とした,RPP(Revisiting Prompt Pretraining)と呼ばれるフレームワークを提案する。 プロンプト構造では、クエリ、キー、値ベクトルが共有可能なプロンプトトークンから導出されるような一般的な慣習で制限を破る。 代わりに、未共有の個別クエリ、キー、および値の学習可能なプロンプトを導入し、パラメータの多様性を増大させることでモデルの適合能力を向上する。 早期指導のために,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。 これらのソフトラベルは、クラス間の関係についてよりニュアンスで一般的な洞察を与え、それによってより一般化能力のよい事前学習プロセスを提供する。 RPPはよりレジリエントな初期化を実現し、多様な視覚認識タスク間の堅牢な転送性を高めている。 様々なベンチマークによる実験は、事前訓練されたプロンプトの最先端(SOTA)性能を一貫して確認する。 コードとモデルも近く公開される予定だ。

Prompt learning is an effective method to customize Vision-Language Models (VLMs) for various downstream tasks, involving tuning very few parameters of input prompt tokens. Recently, prompt pretraining in large-scale dataset (e.g., ImageNet-21K) has played a crucial role in prompt learning for universal visual discrimination. However, we revisit and observe that the limited learnable prompts could face underfitting risks given the extensive images during prompt pretraining, simultaneously leading to poor generalization. To address the above issues, in this paper, we propose a general framework termed Revisiting Prompt Pretraining (RPP), which targets at improving the fitting and generalization ability from two aspects: prompt structure and prompt supervision. For prompt structure, we break the restriction in common practice where query, key, and value vectors are derived from the shared learnable prompt token. Instead, we introduce unshared individual query, key, and value learnable prompts, thereby enhancing the model's fitting capacity through increased parameter diversity. For prompt supervision, we additionally utilize soft labels derived from zero-shot probability predictions provided by a pretrained Contrastive Language Image Pretraining (CLIP) teacher model. These soft labels yield more nuanced and general insights into the inter-class relationships, thereby endowing the pretraining process with better generalization ability. RPP produces a more resilient prompt initialization, enhancing its robust transferability across diverse visual recognition tasks. Experiments across various benchmarks consistently confirm the state-of-the-art (SOTA) performance of our pretrained prompts. Codes and models will be made available soon.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# VE:変数埋め込みによる多変量時系列相関のモデル化

VE: Modeling Multivariate Time Series Correlation with Variate Embedding ( http://arxiv.org/abs/2409.06169v1 )

ライセンス: Link先を確認
Shangjiong Wang, Zhihong Man, Zhengwei Cao, Jinchuan Zheng, Zhikang Ge, (参考訳) 多変量時系列予測は、変数間の相関を正確に把握することに依存する。 現在のチャネル非依存(CI)モデルとCI最終プロジェクション層を持つモデルは、これらの依存関係をキャプチャできない。 本稿では,各変数に対して一意かつ一貫した埋め込みを学習し,パラメータサイズを制御しながら予測性能を向上させるために,Mixture of Experts (MoE) と Low-Rank Adaptation (LoRA) 技術を組み合わせた可変埋め込み(VE)パイプラインを提案する。 VEパイプラインは、CI最終プロジェクション層を持つ任意のモデルに統合して、多変量予測を改善することができる。 学習されたVEは、同じ時間パターンで発散し、相関が低いものを分離する。 VEパイプラインの有効性は、広く使用されている4つのデータセットに対する広範な実験を通じて実証される。 コードは: \url{https://github.com/swang-song/VE}で入手できる。

Multivariate time series forecasting relies on accurately capturing the correlations among variates. Current channel-independent (CI) models and models with a CI final projection layer are unable to capture these dependencies. In this paper, we present the variate embedding (VE) pipeline, which learns a unique and consistent embedding for each variate and combines it with Mixture of Experts (MoE) and Low-Rank Adaptation (LoRA) techniques to enhance forecasting performance while controlling parameter size. The VE pipeline can be integrated into any model with a CI final projection layer to improve multivariate forecasting. The learned VE effectively groups variates with similar temporal patterns and separates those with low correlations. The effectiveness of the VE pipeline is demonstrated through extensive experiments on four widely-used datasets. The code is available at: \url{https://github.com/swang-song/VE}.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 重み付きシャンファー距離を用いた点雲完了のための勾配マッチングによる損失蒸留

Loss Distillation via Gradient Matching for Point Cloud Completion with Weighted Chamfer Distance ( http://arxiv.org/abs/2409.06171v1 )

ライセンス: Link先を確認
Fangzhou Lin, Haotian Liu, Haoying Zhou, Songlin Hou, Kazunori D Yamada, Gregory S. Fischer, Yanhua Li, Haichong K. Zhang, Ziming Zhang, (参考訳) 3Dポイントの雲は、ロボットが環境の幾何学的情報を知覚する能力を高め、ポーズ検出やシーン理解などの下流の多くのタスクを可能にした。 しかし、これらのタスクのパフォーマンスはデータ入力の品質に大きく依存している。 近年,Chamfer distance (CD) やその変種 (\eg HyperCD) など,深層学習に基づく点雲完備化のためのトレーニング損失関数が提案されている。 しかし、これらのCDベースの損失関数は通常、データ集約タスクに時間を要するデータ関連パラメータチューニングを必要とする。 この問題に対処するために,パラメータチューニングを必要としない重み付きトレーニング損失(重み付きCD)のファミリーを見つけることを目的とする。 そこで本研究では,ハイパーCDと重み付きCDのバックプロパゲーションにおける学習動作を模倣して,良好な候補損失関数を求めるための探索手法である「グラディエントマッチングによる損失蒸留」を提案する。 これを実行すると、重み付きCD損失に基づいてバックボーンネットワークをトレーニングするための新しい双レベル最適化式を提案する。 我々は,(1) 適切な重み付き関数を持つ場合,(1) 重み付きCDは常にHyperCDに類似した性能を達成でき,(2) ランダウ重み付きCDは点雲完了時にHyperCDを上回り,いくつかのベンチマークデータセットで新たな最先端結果をもたらすことを観察した。 デモコードは \url{https://github.com/Zhang-VISLab/IROS2024-LossDistillationWeightedCD} で公開されている。 ※

3D point clouds enhanced the robot's ability to perceive the geometrical information of the environments, making it possible for many downstream tasks such as grasp pose detection and scene understanding. The performance of these tasks, though, heavily relies on the quality of data input, as incomplete can lead to poor results and failure cases. Recent training loss functions designed for deep learning-based point cloud completion, such as Chamfer distance (CD) and its variants (\eg HyperCD ), imply a good gradient weighting scheme can significantly boost performance. However, these CD-based loss functions usually require data-related parameter tuning, which can be time-consuming for data-extensive tasks. To address this issue, we aim to find a family of weighted training losses ({\em weighted CD}) that requires no parameter tuning. To this end, we propose a search scheme, {\em Loss Distillation via Gradient Matching}, to find good candidate loss functions by mimicking the learning behavior in backpropagation between HyperCD and weighted CD. Once this is done, we propose a novel bilevel optimization formula to train the backbone network based on the weighted CD loss. We observe that: (1) with proper weighted functions, the weighted CD can always achieve similar performance to HyperCD, and (2) the Landau weighted CD, namely {\em Landau CD}, can outperform HyperCD for point cloud completion and lead to new state-of-the-art results on several benchmark datasets. {\it Our demo code is available at \url{https://github.com/Zhang-VISLab/IROS2024-LossDistillationWeightedCD}.}
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 大規模言語モデルでは、どのように考えるかは気にしません: 主観的なタスクにおいて、なぜチェーン・オブ・ソートが失敗するのか

Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks ( http://arxiv.org/abs/2409.06173v1 )

ライセンス: Link先を確認
Georgios Chochlakis, Niyantha Maruthu Pandiyan, Kristina Lerman, Shrikanth Narayanan, (参考訳) In-Context Learning (ICL) in Large Language Models (LLM) は、勾配に基づく手法でモデルパラメータを更新する必要がなくなるため、自然言語タスクを実行する主要な技術として登場した。 ICLはLLMを「適応」し、計算コストのごく一部で現在のタスクを競争的または最先端レベルで実行することを約束する。 ICLは、プロンプトで最終ラベルに明示的に到達する推論プロセス、すなわちChain-of-Thought(CoT)プロンプトを組み込むことで拡張することができる。 しかし、最近の研究によると、ICLはタスク先行の検索に大きく依存しており、特に感情や道徳のような複雑な主観的領域において、前者が後続の予測を強要する「学習」にはあまり依存していない。 本研究では,LLMにおける「発声」推論が同一の振る舞いを生じさせるかどうかを考察する。 驚くべきことに、大きな言語モデルでは、CoTはICLと同じ後方崩壊に悩まされている。 code is avalaible at https://github.com/gchochla/cot-priors.com

In-Context Learning (ICL) in Large Language Models (LLM) has emerged as the dominant technique for performing natural language tasks, as it does not require updating the model parameters with gradient-based methods. ICL promises to "adapt" the LLM to perform the present task at a competitive or state-of-the-art level at a fraction of the computational cost. ICL can be augmented by incorporating the reasoning process to arrive at the final label explicitly in the prompt, a technique called Chain-of-Thought (CoT) prompting. However, recent work has found that ICL relies mostly on the retrieval of task priors and less so on "learning" to perform tasks, especially for complex subjective domains like emotion and morality, where priors ossify posterior predictions. In this work, we examine whether "enabling" reasoning also creates the same behavior in LLMs, wherein the format of CoT retrieves reasoning priors that remain relatively unchanged despite the evidence in the prompt. We find that, surprisingly, CoT indeed suffers from the same posterior collapse as ICL for larger language models. Code is avalaible at https://github.com/gchochla/cot-priors.
翻訳日:2024-09-11 19:20:45 公開日:2024-09-10
# 多言語コードクローン検出器の開発とベンチマーク

Development and Benchmarking of Multilingual Code Clone Detector ( http://arxiv.org/abs/2409.06176v1 )

ライセンス: Link先を確認
Wenqing Zhu, Norihiro Yoshida, Toshihiro Kamiya, Eunjong Choi, Hiroaki Takada, (参考訳) プログラミング言語の多様性が増し、コードクローン検出器の言語拡張が重要になっている。 しかし、ソースコードハンドラは、ターゲット言語に関する専門レベルの知識を必要とし、時間を要する修正を必要とするため、既存のほとんどのクローン検出検出器ではこれは難しい。 多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語サポートを容易に追加できる。 言語スケーラビリティと検出性能の面で既存の多言語検出器の欠点を解決するため,ANTLRパーサ生成に基づく多言語コードブロック抽出手法を提案し,多言語コードクローン検出器(MSCCD)を実装した。 我々は、Java言語の検知性能を評価するために、過去の研究の方法論に従う。 最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。 さらに,CodeNetデータベースをベースとした,最初の多言語構文的コードクローン評価ベンチマークを提案する。 その結果,同じ検出手法を適用しても,対象とするソースコードの言語によって性能が著しく異なることが明らかとなった。 全体として、MSCCDは、検出性能と言語拡張性を考える際に最もバランスのとれたツールである。

The diversity of programming languages is growing, making the language extensibility of code clone detectors crucial. However, this is challenging for most existing clone detection detectors because the source code handler needs modifications, which require specialist-level knowledge of the targeted language and is time-consuming. Multilingual code clone detectors make it easier to add new language support by providing syntax information of the target language only. To address the shortcomings of existing multilingual detectors for language scalability and detection performance, we propose a multilingual code block extraction method based on ANTLR parser generation, and implement a multilingual code clone detector (MSCCD), which supports the most significant number of languages currently available and has the ability to detect Type-3 code clones. We follow the methodology of previous studies to evaluate the detection performance of the Java language. Compared to ten state-of-the-art detectors, MSCCD performs at an average level while it also supports a significantly larger number of languages. Furthermore, we propose the first multilingual syntactic code clone evaluation benchmark based on the CodeNet database. Our results reveal that even when applying the same detection approach, performance can vary markedly depending on the language of the source code under investigation. Overall, MSCCD is the most balanced one among the evaluated tools when considering detection performance and language extensibility.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# SQLucid: インタラクティブな説明による自然言語データベースクエリの基盤化

SQLucid: Grounding Natural Language Database Queries with Interactive Explanations ( http://arxiv.org/abs/2409.06178v1 )

ライセンス: Link先を確認
Yuan Tian, Jonathan K. Kummerfeld, Toby Jia-Jun Li, Tianyi Zhang, (参考訳) 機械学習の最近の進歩は、データベースの自然言語インタフェースの大幅な改善をもたらしたが、これらのシステムの精度と信頼性は、特に高い領域において制限されている。 本稿では,非エキスパートユーザと複雑なデータベースクエリプロセスのギャップを埋める,新しいユーザインターフェースであるSQLucidを紹介する。 SQLucidは、ユーザ理解とエンゲージメントを容易にするために、視覚対応、中間クエリ結果、および編集可能なSQL説明を自然言語で統合することで、既存の制限に対処する。 このユニークな組み合わせにより、ユーザはSQLクエリを簡単かつ正確に理解し、洗練することができる。 SQLucidの有効性を検証するために,2つのユーザスタディと1つの定量的実験を行った。 私たちのコードはhttps://github.com/magic-YuanTian/SQLucid.comで公開されています。

Though recent advances in machine learning have led to significant improvements in natural language interfaces for databases, the accuracy and reliability of these systems remain limited, especially in high-stakes domains. This paper introduces SQLucid, a novel user interface that bridges the gap between non-expert users and complex database querying processes. SQLucid addresses existing limitations by integrating visual correspondence, intermediate query results, and editable step-by-step SQL explanations in natural language to facilitate user understanding and engagement. This unique blend of features empowers users to understand and refine SQL queries easily and precisely. Two user studies and one quantitative experiment were conducted to validate SQLucid's effectiveness, showing significant improvement in task completion accuracy and user confidence compared to existing interfaces. Our code is available at https://github.com/magic-YuanTian/SQLucid.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# 責任ブロックチェーン:STEADI原則とアクターネットワーク理論に基づく開発方法論(ANT-RDM)

Responsible Blockchain: STEADI Principles and the Actor-Network Theory-based Development Methodology (ANT-RDM) ( http://arxiv.org/abs/2409.06179v1 )

ライセンス: Link先を確認
Yibai Li, Ahmed Gomaa, Xiaobing Li, (参考訳) 本稿では,ブロックチェーン技術に関する課題と議論を包括的に分析する。 拡張性、セキュリティ、プライバシ、相互運用性といった技術的な課題と、ビジネスと採用の課題、現在のブロックチェーンシステムに存在する社会的、経済的、倫理的、環境的な議論を識別する。 ブロックチェーン開発の責任は、これらの課題を克服し、大量導入を達成するための鍵である、と私たちは主張する。 本稿では、Responsible Blockchainを定義し、責任あるブロックチェーン開発のためのSTEADI原則(持続可能、透過的、倫理的、適応的、分散化、包括的)を導入します。 さらに、ブロックチェーンのためのアクターネットワーク理論に基づくレスポンシブル開発方法論(ANT-RDM)も紹介されている。

This paper provides a comprehensive analysis of the challenges and controversies associated with blockchain technology. It identifies technical challenges such as scalability, security, privacy, and interoperability, as well as business and adoption challenges, and the social, economic, ethical, and environmental controversies present in current blockchain systems. We argue that responsible blockchain development is key to overcoming these challenges and achieving mass adoption. This paper defines Responsible Blockchain and introduces the STEADI principles (sustainable, transparent, ethical, adaptive, decentralized, and inclusive) for responsible blockchain development. Additionally, it presents the Actor-Network Theory-based Responsible Development Methodology (ANT-RDM) for blockchains, which includes the steps of problematization, interessement, enrollment, and mobilization.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# EDADepth: 単眼深度推定のための拡張データ拡張

EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation ( http://arxiv.org/abs/2409.06183v1 )

ライセンス: Link先を確認
Nischal Khanal, Shivanand Venkanna Sheshappanavar, (参考訳) テキストと画像の合成機能により、拡散モデルは近年、深度推定などの視覚的知覚タスクが増加している。 高品質なデータセットがないため、拡散モデルでは微粒なセマンティックコンテキストの抽出が困難である。 詳細の少ないセマンティックコンテキストは、拡散モデルの入力として使用される効果的なテキスト埋め込みを作成するプロセスをさらに悪化させる。 本稿では,新たなトレーニングデータを用いることなく,単眼深度を推定する拡張データ拡張手法であるEDADepthを提案する。 超解像モデルであるSwin2SRを用いて、入力画像の品質を向上させる。 我々は、テキスト埋め込みのより良い抽出にBEiT事前訓練セマンティックセマンティックセマンティクスモデルを用いる。 これらのテキスト埋め込みからトークンを生成するためにBLIP-2トークン化器を導入する。 本手法の新規性は,単分子深度推定のための拡散型パイプラインにおけるSwin2SR,BEiTモデル,BLIP-2トークン化器の導入である。 本モデルでは,NYUv2 と KITTI のデータセット上での delta}3 測定値の最先端結果 (SOTA) が得られた。 また、RMSEとRELのメトリクスにおけるSOTAモデルと同等の結果が得られる。 最後に,SOTA拡散に基づく単分子深度推定モデルと比較して,推定深度の可視化の改善を示す。 コード:https://github.com/edadepthmde/EDADepth_ICMLA。

Due to their text-to-image synthesis feature, diffusion models have recently seen a rise in visual perception tasks, such as depth estimation. The lack of good-quality datasets makes the extraction of a fine-grain semantic context challenging for the diffusion models. The semantic context with fewer details further worsens the process of creating effective text embeddings that will be used as input for diffusion models. In this paper, we propose a novel EDADepth, an enhanced data augmentation method to estimate monocular depth without using additional training data. We use Swin2SR, a super-resolution model, to enhance the quality of input images. We employ the BEiT pre-trained semantic segmentation model for better extraction of text embeddings. We introduce BLIP-2 tokenizer to generate tokens from these text embeddings. The novelty of our approach is the introduction of Swin2SR, the BEiT model, and the BLIP-2 tokenizer in the diffusion-based pipeline for the monocular depth estimation. Our model achieves state-of-the-art results (SOTA) on the {\delta}3 metric on NYUv2 and KITTI datasets. It also achieves results comparable to those of the SOTA models in the RMSE and REL metrics. Finally, we also show improvements in the visualization of the estimated depth compared to the SOTA diffusion-based monocular depth estimation models. Code: https://github.com/edadepthmde/EDADepth_ICMLA.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# 大規模言語モデルは新しい科学研究のアイデアを解き放てるか?

Can Large Language Models Unlock Novel Scientific Research Ideas? ( http://arxiv.org/abs/2409.06185v1 )

ライセンス: Link先を確認
Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal, (参考訳) 「古い要素の新たな組み合わせにすぎません」(Young,J.W.) LLM(Large Language Models)やChatGPT(ChatGPT)の普及は、人工知能(AI)を人々の日常生活に組み込む上で大きな転換点となっている。 本研究は,研究論文からの情報に基づく新たな研究アイデアを創出する上でのLLMの能力について考察する。 5つの領域(例えば、化学、コンピュータ、経済学、医学、物理学)で4つのLLMを徹底的に調べる。 我々は,Claude-2 と GPT-4 が生み出す未来の研究思想が GPT-3.5 や Gemini よりも著者の視点と一致していることを発見した。 また,Claude-2 は GPT-4, GPT-3.5, Gemini 1.0 よりも多種多様な研究アイデアを生み出している。 さらに,創発した未来の研究思想の新規性,妥当性,実現可能性について,人間による評価を行った。 この調査は、アイデア生成におけるLLMの役割の進化に関する洞察を与え、その能力と限界の両方を強調している。 我々の研究は、将来の研究アイデアを生み出すための言語モデルの評価と活用への継続的な取り組みに貢献する。 データセットとコードを公開しています。

"An idea is nothing more nor less than a new combination of old elements" (Young, J.W.). The widespread adoption of Large Language Models (LLMs) and publicly available ChatGPT have marked a significant turning point in the integration of Artificial Intelligence (AI) into people's everyday lives. This study explores the capability of LLMs in generating novel research ideas based on information from research papers. We conduct a thorough examination of 4 LLMs in five domains (e.g., Chemistry, Computer, Economics, Medical, and Physics). We found that the future research ideas generated by Claude-2 and GPT-4 are more aligned with the author's perspective than GPT-3.5 and Gemini. We also found that Claude-2 generates more diverse future research ideas than GPT-4, GPT-3.5, and Gemini 1.0. We further performed a human evaluation of the novelty, relevancy, and feasibility of the generated future research ideas. This investigation offers insights into the evolving role of LLMs in idea generation, highlighting both its capability and limitations. Our work contributes to the ongoing efforts in evaluating and utilizing language models for generating future research ideas. We make our datasets and codes publicly available.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# BEAR(Bottleneck-based Encoder-Decoder ARchitecture)による消費者対消費者イメージ表現の学習

Bottleneck-based Encoder-decoder ARchitecture (BEAR) for Learning Unbiased Consumer-to-Consumer Image Representations ( http://arxiv.org/abs/2409.06187v1 )

ライセンス: Link先を確認
Pablo Rivas, Gisela Bichler, Tomas Cerny, Laurie Giddens, Stacie Petter, (参考訳) 偏見のない表現学習は、特定の応用や文脈下での研究の対象である。 新たなアーキテクチャは通常、基本的な部品の混合物を使って特定の問題を解決するために設計されている。 本稿では,残差接続と連携して自動エンコーダ構成の知覚画像情報を符号化する,異なる画像特徴抽出機構を提案する。 消費者と消費者のオンラインプラットフォームにおける犯罪行為に関する問題に対処する大規模な研究課題を支援することを目的とした画像データを用いている。 予備的な結果は、提案アーキテクチャが、識別される重要な課題を解決するために、我々のデータや他の画像データセットを用いてリッチな空間を学習できることを示唆している。

Unbiased representation learning is still an object of study under specific applications and contexts. Novel architectures are usually crafted to resolve particular problems using mixtures of fundamental pieces. This paper presents different image feature extraction mechanisms that work together with residual connections to encode perceptual image information in an autoencoder configuration. We use image data that aims to support a larger research agenda dealing with issues regarding criminal activity in consumer-to-consumer online platforms. Preliminary results suggest that the proposed architecture can learn rich spaces using ours and other image datasets resolving important challenges that are identified.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# MyGo:カメラ制御による一貫性と制御可能なマルチビュー駆動ビデオ生成

MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control ( http://arxiv.org/abs/2409.06189v1 )

ライセンス: Link先を確認
Yining Yao, Xi Guo, Chenjing Ding, Wei Wu, (参考訳) 高品質な運転ビデオ生成は、自律運転モデルのためのトレーニングデータの提供に不可欠である。 しかし、現在の生成モデルは、映像生成に不可欠なマルチビュータスク下でのカメラモーション制御の強化にはほとんど焦点を当てていない。 そこで我々は,カメラの制御性とマルチビューの整合性を向上させる条件として,搭載カメラの動作を導入し,映像生成のためのエンドツーエンドフレームワークであるMyGoを提案する。 MyGoは、カメラパラメータを事前訓練されたビデオ拡散モデルに注入するために追加のプラグインモジュールを使用している。 さらに、各ビューの生成過程において、エピポーラ制約と隣接ビュー情報を用いて、空間的時間的一貫性を高める。 実験結果から,MyGoは汎用カメラ制御ビデオ生成とマルチビュー駆動ビデオ生成の両タスクで最先端の成果を上げており,自動運転におけるより正確な環境シミュレーションの基礎となっている。 プロジェクトページ: \href{https://metadrivescape.github.io/papers/MyGo/page.html}{metadrivescape.github.io/papers\_project/MyGo/page.html}

High-quality driving video generation is crucial for providing training data for autonomous driving models. However, current generative models rarely focus on enhancing camera motion control under multi-view tasks, which is essential for driving video generation. Therefore, we propose MyGo, an end-to-end framework for video generation, introducing motion of onboard cameras as conditions to make progress in camera controllability and multi-view consistency. MyGo employs additional plug-in modules to inject camera parameters into the pre-trained video diffusion model, which retains the extensive knowledge of the pre-trained model as much as possible. Furthermore, we use epipolar constraints and neighbor view information during the generation process of each view to enhance spatial-temporal consistency. Experimental results show that MyGo has achieved state-of-the-art results in both general camera-controlled video generation and multi-view driving video generation tasks, which lays the foundation for more accurate environment simulation in autonomous driving. Project page: \href{https://metadrivescape.github.io/papers_project/MyGo/page.html}{metadrivescape.github.io/papers\_project/MyGo/page.html}
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# 遅延拡散を用いたマルチソース音楽生成

Multi-Source Music Generation with Latent Diffusion ( http://arxiv.org/abs/2409.06190v1 )

ライセンス: Link先を確認
Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury, (参考訳) ほとんどの音楽生成モデルは、直接1つの音楽ミックスを生成する。 より柔軟で制御可能な生成を可能にするため、マルチソース拡散モデル(MSDM)は、複数の楽器源(例えば、ピアノ、ドラム、ベース、ギター)の混合として音楽をモデル化するために提案されている。 その目標は、1つの拡散モデルを使用して一貫した音楽ソースを生成し、さらに混合して音楽を形成することである。 その能力にもかかわらず、MSDMはリッチな旋律で曲を生成することができず、しばしば空の音を生成する。 また、波形拡散はガウス的なノイズアーティファクトを導入し、音質を損なう。 そこで我々は,変分オートエンコーダ(VAE)を用いて,各楽器の音源を別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。 全ての音源でVAEを訓練することにより、拡散モデルが協調してモデル化される音源において、各音源の特徴を効率的に捉えることができる。 このアプローチは、VAEの潜在圧縮とノイズロス性を活用することにより、音楽の総生成と部分生成を著しく向上させる。 圧縮されたソース潜水剤は、より効率的な生成を容易にする。 主観的聴力テストとFrechet Audio Distance(FAD)スコアは、我々のモデルがMSDMより優れており、音楽生成システムにおける実用的で拡張された適用性を示している。 また,音源のモデリングは直接のミックス・モデリングよりも効果的であることも強調した。 コードとモデルはhttps://github.com/XZWY/MSLDM.comで公開されている。 デモはhttps://xzwy.github.io/MSLDMDemo.comで公開されている。

Most music generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g., piano, drums, bass, and guitar). Its goal is to use one single diffusion model to generate consistent music sources, which are further mixed to form the music. Despite its capabilities, MSDM is unable to generate songs with rich melodies and often generates empty sounds. Also, its waveform diffusion introduces significant Gaussian noise artifacts, which compromises audio quality. In response, we introduce a multi-source latent diffusion model (MSLDM) that employs Variational Autoencoders (VAEs) to encode each instrumental source into a distinct latent representation. By training a VAE on all music sources, we efficiently capture each source's unique characteristics in a source latent that our diffusion model models jointly. This approach significantly enhances the total and partial generation of music by leveraging the VAE's latent compression and noise-robustness. The compressed source latent also facilitates more efficient generation. Subjective listening tests and Frechet Audio Distance (FAD) scores confirm that our model outperforms MSDM, showcasing its practical and enhanced applicability in music generation systems. We also emphasize that modeling sources is more effective than direct music mixture modeling. Codes and models are available at https://github.com/XZWY/MSLDM. Demos are available at https://xzwy.github.io/MSLDMDemo.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# NOVI : BERT と LLM を用いた初心者向けチャットボットシステム

NOVI : Chatbot System for University Novice with BERT and LLMs ( http://arxiv.org/abs/2409.06192v1 )

ライセンス: Link先を確認
Yoonji Nam, TaeWoong Seo, Gyeongcheol Shin, Sangji Lee, JaeEun Im, (参考訳) 大学生活に適応するための大学新入生の難しさを軽減するため, GPT-4oをベースとしたチャットボットシステムであるNOVIを開発した。 本システムは,大学コミュニティサイトSKKU「Everytime」の投稿・コメントデータを利用する。 ラングチェインを用いて開発されたNOVIのパフォーマンスは、BLEUスコア、Perplexityスコア、ROUGE-1スコア、ROUGE-2スコア、ROUGE-Lスコア、METEORスコアで評価されている。 このアプローチは、大学新入生を助けるだけでなく、さまざまな人が異なるデータで新しい環境に適応する上でも有効であると期待されている。 本研究は、新しい教育技術ツールの開発と応用の可能性を探究し、初心者の社会適応を容易にし、LLM研究の今後の発展のための基盤を構築することに寄与する。

To mitigate the difficulties of university freshmen in adapting to university life, we developed NOVI, a chatbot system based on GPT-4o. This system utilizes post and comment data from SKKU 'Everytime', a university community site. Developed using LangChain, NOVI's performance has been evaluated with a BLEU score, Perplexity score, ROUGE-1 score, ROUGE-2 score, ROUGE-L score and METEOR score. This approach is not only limited to help university freshmen but is also expected to help various people adapting to new environments with different data. This research explores the development and potential application of new educational technology tools, contributing to easier social adaptation for beginners and settling a foundation for future advancement in LLM studies.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# MTDA-HSED:Multual-Assistance Tuning and Dual-Bnch Aggregating for Heterogeneous Sound Event Detection

MTDA-HSED: Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection ( http://arxiv.org/abs/2409.06196v1 )

ライセンス: Link先を確認
Zehao Wang, Haobo Yue, Zhicheng Zhang, Da Mu, Jin Tang, Jianqin Yin, (参考訳) 音響事象検出(SED)は音響シーンの理解と知覚において重要な役割を担っている。 以前の手法は印象的な能力を示してきた。 しかし、不均一なデータセットから複雑なシーンを学習するには不十分である。 本稿では,MTDA-HSED (Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection) と呼ばれる新しいデュアルブランチアーキテクチャを提案する。 MTDA-HSEDアーキテクチャは、M3A(Mutual-Assistance Audio Adapter)を用いて、マルチシナリオ問題に効果的に対処し、Dual-Branch Mid-Fusion (DBMF)モジュールを使ってマルチグラニュラリティ問題に対処する。 具体的には、M3AはBEATsブロックにアダプタとして統合され、マルチシナリオデータセットで微調整することでBEATsのパフォーマンスを改善する。 DBMFモジュールはBEATとCNNブランチを接続し、BEATとCNNブランチからの情報を深く融合させる。 実験の結果,提案手法はDESEDおよびMAESTRO Realデータセット上でのtextbf{$5\%$}によるmpAUCのベースラインを超えることがわかった。 コードは \href{https://github.com/Visitor-W/MTDA}{here} である。

Sound Event Detection (SED) plays a vital role in comprehending and perceiving acoustic scenes. Previous methods have demonstrated impressive capabilities. However, they are deficient in learning features of complex scenes from heterogeneous dataset. In this paper, we introduce a novel dual-branch architecture named Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection (MTDA-HSED). The MTDA-HSED architecture employs the Mutual-Assistance Audio Adapter (M3A) to effectively tackle the multi-scenario problem and uses the Dual-Branch Mid-Fusion (DBMF) module to tackle the multi-granularity problem. Specifically, M3A is integrated into the BEATs block as an adapter to improve the BEATs' performance by fine-tuning it on the multi-scenario dataset. The DBMF module connects BEATs and CNN branches, which facilitates the deep fusion of information from the BEATs and the CNN branches. Experimental results show that the proposed methods exceed the baseline of mpAUC by \textbf{$5\%$} on the DESED and MAESTRO Real datasets. Code is \href{https://github.com/Visitor-W/MTDA}{here}.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# UdeerLID+:半監督によるLiDAR、画像、相対深さの統合

UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised ( http://arxiv.org/abs/2409.06197v1 )

ライセンス: Link先を確認
Tao Ni, Xin Zhan, Tao Luo, Wenbin Liu, Zhan Shi, JunBo Chen, (参考訳) 道路セグメンテーションは自動運転システムにとって重要な課題であり、様々な環境データから道路表面を分類するために正確で堅牢な方法を必要とする。 我々の研究は、LiDARポイントクラウドデータ、視覚画像、および画像から派生した相対深度マップを統合する革新的なアプローチを導入している。 道路分割における複数のデータソースの統合は、機会と課題の両方を示します。 主な課題の1つは、堅牢なディープラーニングモデルのトレーニングに必要な、大規模で正確なラベル付きデータセットの不足である。 そこで我々は,半教師付き学習パラダイムに基づく[UdeerLID+]フレームワークを開発した。 KITTIデータセットの実験により、優れた性能が検証された。

Road segmentation is a critical task for autonomous driving systems, requiring accurate and robust methods to classify road surfaces from various environmental data. Our work introduces an innovative approach that integrates LiDAR point cloud data, visual image, and relative depth maps derived from images. The integration of multiple data sources in road segmentation presents both opportunities and challenges. One of the primary challenges is the scarcity of large-scale, accurately labeled datasets that are necessary for training robust deep learning models. To address this, we have developed the [UdeerLID+] framework under a semi-supervised learning paradigm. Experiments results on KITTI datasets validate the superior performance.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# 低用量PET-MR画像における潜時空間特徴の深部核表現

Deep kernel representations of latent space features for low-dose PET-MR imaging robust to variable dose reduction ( http://arxiv.org/abs/2409.06198v1 )

ライセンス: Link先を確認
Cameron Dennis Pain, Yasmeen George, Alex Fornito, Gary Egan, Zhaolin Chen, (参考訳) 低線量ポジトロン放射トモグラフィ(PET)画像再構成法は、画像モダリティとしてPETを大幅に改善する可能性がある。 ディープラーニングは、画像再構成問題に事前情報を組み込んで、妥協された信号から定量的に正確な画像を生成する、有望な手段を提供する。 低線量PETの深層学習法は一般に条件が悪く、トレーニング分布に存在しない特徴を持つ画像に対して信頼性が低い。 本稿では,カーネル表現を頑健に表現した深層潜伏空間の特徴を明示的にモデル化し,これまで見られなかった線量削減係数に対して頑健な性能を提供する手法を提案する。 深い潜伏特徴の情報内容に関する追加の制約は、分布内精度と一般化可能性のチューニングを可能にする。 10ドルから1000ドルまでのディストリビューション量削減因子とペアとアンペアのMRの両方を併用したテストでは、同じデータを用いて訓練された従来のディープラーニング手法と比較して、性能が有意に向上した。 コード:https://github.com/cameronPain

Low-dose positron emission tomography (PET) image reconstruction methods have potential to significantly improve PET as an imaging modality. Deep learning provides a promising means of incorporating prior information into the image reconstruction problem to produce quantitatively accurate images from compromised signal. Deep learning-based methods for low-dose PET are generally poorly conditioned and perform unreliably on images with features not present in the training distribution. We present a method which explicitly models deep latent space features using a robust kernel representation, providing robust performance on previously unseen dose reduction factors. Additional constraints on the information content of deep latent features allow for tuning in-distribution accuracy and generalisability. Tests with out-of-distribution dose reduction factors ranging from $\times 10$ to $\times 1000$ and with both paired and unpaired MR, demonstrate significantly improved performance relative to conventional deep-learning methods trained using the same data. Code:https://github.com/cameronPain
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# RealisDance:リアルな手で動かせるキャラクターアニメーション

RealisDance: Equip controllable character animation with realistic hands ( http://arxiv.org/abs/2409.06202v1 )

ライセンス: Link先を確認
Jingkai Zhou, Benzhi Wang, Weihua Chen, Jingqi Bai, Dongyang Li, Aixi Zhang, Hao Xu, Mingyang Yang, Fan Wang, (参考訳) 制御可能なキャラクタアニメーションは、与えられたキャラクタ画像からポーズシーケンスによって制御されるキャラクタビデオを生成する新興タスクである。 文字の一貫性は参照UNetを通じて大きく進歩しているが、他の重要な要素であるポーズ制御は、既存のメソッドで十分に研究されていないため、いくつかの問題が発生している。 1)入力ポーズシーケンスが破損した場合、生成が失敗する可能性がある。 2)DWPoseシークエンスを用いて作成した手はぼやけ,非現実的である。 3)ポーズシーケンスが十分にスムーズでない場合、生成されたビデオは不安定になる。 本稿では,これらすべての問題に対処するためにRealisDanceを提案する。 RealisDanceは3種類のポーズを適応的に利用し、破損したポーズシーケンスによるエラー発生を回避する。 これらのポーズタイプの中で、HaMeRは正確な手の3Dおよび深度情報を提供し、複雑なジェスチャーでもリアルな手を生成することができる。 メインUNetでの時間的注意に加えて、RealisDanceはポーズ誘導ネットワークに時間的注意を挿入し、ポーズ条件の側面からビデオを滑らかにする。 さらに,トレーニング中のポーズシャッフル増強を導入し,生成の堅牢性や映像のスムーズ性をさらに向上させる。 定性的実験は、特に手品質において、他の既存の方法よりもRealisDanceの方が優れていることを示す。

Controllable character animation is an emerging task that generates character videos controlled by pose sequences from given character images. Although character consistency has made significant progress via reference UNet, another crucial factor, pose control, has not been well studied by existing methods yet, resulting in several issues: 1) The generation may fail when the input pose sequence is corrupted. 2) The hands generated using the DWPose sequence are blurry and unrealistic. 3) The generated video will be shaky if the pose sequence is not smooth enough. In this paper, we present RealisDance to handle all the above issues. RealisDance adaptively leverages three types of poses, avoiding failed generation caused by corrupted pose sequences. Among these pose types, HaMeR provides accurate 3D and depth information of hands, enabling RealisDance to generate realistic hands even for complex gestures. Besides using temporal attention in the main UNet, RealisDance also inserts temporal attention into the pose guidance network, smoothing the video from the pose condition aspect. Moreover, we introduce pose shuffle augmentation during training to further improve generation robustness and video smoothness. Qualitative experiments demonstrate the superiority of RealisDance over other existing methods, especially in hand quality.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# 第2部でテレビを見る:スマートTVにおけるコンテンツの自動認識

Watching TV with the Second-Party: A First Look at Automatic Content Recognition Tracking in Smart TVs ( http://arxiv.org/abs/2409.06203v1 )

ライセンス: Link先を確認
Gianluca Anselmi, Yash Vekaria, Alexander D'Souza, Patricia Callejo, Anna Maria Mandalari, Zubair Shafiq, (参考訳) スマートTVは、ユーザの視聴活動をプロファイルするために、ACR(Automatic Content Recognition)と呼ばれるユニークなトラッキングアプローチを実装している。 ACRはShazamライクな技術で、TV画面に表示されるコンテンツを定期的にキャプチャし、コンテンツライブラリとマッチングすることで、任意の時点で表示されているコンテンツを検出する。 これまでの研究では、スマートTVのエコシステムにおけるサードパーティの追跡を調査してきたが、スマートTVプラットフォームによって直接実行されるサードパーティのACR追跡は検討されていない。 本研究では、スマートTVとACRサーバ上のACRクライアント間のACRネットワークトラフィックのブラックボックス監査を行う。 我々は,(1)ACRトラッキングがテレビの視聴方法(例えば,リニア対ストリーミング対HDMI)に非依存であるか,(2)スマートTVが提供するプライバシーコントロールがACRトラッキングに与える影響,(3)英国と米国のACRトラッキングに何らかの違いがあるかを体系的に調査するために,監査手法を用いた。 われわれはSamsungとLGの2大スマートTVプラットフォームで一連の実験を行っている。 以上の結果から,スマートTVを外部ディスプレイとして使用した場合でも,ACRサーバへのネットワークトラフィックのオプトアウトが停止し,ACRが英国と米国でどのように動作するかが異なることがわかった。

Smart TVs implement a unique tracking approach called Automatic Content Recognition (ACR) to profile viewing activity of their users. ACR is a Shazam-like technology that works by periodically capturing the content displayed on a TV's screen and matching it against a content library to detect what content is being displayed at any given point in time. While prior research has investigated third-party tracking in the smart TV ecosystem, it has not looked into second-party ACR tracking that is directly conducted by the smart TV platform. In this work, we conduct a black-box audit of ACR network traffic between ACR clients on the smart TV and ACR servers. We use our auditing approach to systematically investigate whether (1) ACR tracking is agnostic to how a user watches TV (e.g., linear vs. streaming vs. HDMI), (2) privacy controls offered by smart TVs have an impact on ACR tracking, and (3) there are any differences in ACR tracking between the UK and the US. We perform a series of experiments on two major smart TV platforms: Samsung and LG. Our results show that ACR works even when the smart TV is used as a "dumb" external display, opting-out stops network traffic to ACR servers, and there are differences in how ACR works across the UK and the US.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# SHAPE-IT: LLMを用いた形状変化行動生成のためのテキスト・トゥ・シェイプ・ディプレイの探索

SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs ( http://arxiv.org/abs/2409.06205v1 )

ライセンス: Link先を確認
Wanli Qian, Chenfeng Gao, Anup Sathya, Ryo Suzuki, Ken Nakagaki, (参考訳) 本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。 大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。 本稿では,このようなシステムに必要な基本的側面として,重要な生成要素(原始的,アニメーション,インタラクション)の同定と,形式的探索と反復的設計プロセスに基づくユーザインタラクション向上のための設計要件について述べる。 これらの知見に基づいて、ユーザによるテキストコマンドを実行可能なコードに変換し、Webベースの制御インターフェースによる迅速な探索を可能にするLLMベースの24×24形状ディスプレイ用オーサリングツールであるSHAPE-ITを開発した。 SHAPE-ITの有効性を2つの方法で評価する。 1【業績評価】 2) ユーザ評価 (N=10。 この研究の結論は、AIによる幅広い形状変化行動の迅速な発想を促進する能力を強調している。 しかし、この発見は精度に関する課題や限界も明らかにしており、形状変化システムのユニークな要件に合うようにAIを活用するためのフレームワークの洗練をさらに進めている。

This paper introduces text-to-shape-display, a novel approach to generating dynamic shape changes in pin-based shape displays through natural language commands. By leveraging large language models (LLMs) and AI-chaining, our approach allows users to author shape-changing behaviors on demand through text prompts without programming. We describe the foundational aspects necessary for such a system, including the identification of key generative elements (primitive, animation, and interaction) and design requirements to enhance user interaction, based on formative exploration and iterative design processes. Based on these insights, we develop SHAPE-IT, an LLM-based authoring tool for a 24 x 24 shape display, which translates the user's textual command into executable code and allows for quick exploration through a web-based control interface. We evaluate the effectiveness of SHAPE-IT in two ways: 1) performance evaluation and 2) user evaluation (N= 10). The study conclusions highlight the ability to facilitate rapid ideation of a wide range of shape-changing behaviors with AI. However, the findings also expose accuracy-related challenges and limitations, prompting further exploration into refining the framework for leveraging AI to better suit the unique requirements of shape-changing systems.
翻訳日:2024-09-11 19:10:55 公開日:2024-09-10
# AgileIR: メモリ効率のよいグループがアジャイルイメージ復元のためにWindowsアテンションをシフト

AgileIR: Memory-Efficient Group Shifted Windows Attention for Agile Image Restoration ( http://arxiv.org/abs/2409.06206v1 )

ライセンス: Link先を確認
Hongyi Cai, Mohammad Mahdinur Rahman, Mohammad Shahid Akhtar, Jie Li, Jingyu Wu, Zhili Fang, (参考訳) Image Transformersは、画像復元タスクで素晴らしい成功を収めています。 それにもかかわらず、トランスフォーマーベースのモデルのほとんどは、排他的メモリ占有によって厳格に拘束されている。 私たちのゴールは、Swin Transformerのメモリ消費を減らし、同時にトレーニングプロセス中にモデルを高速化することです。 ですから、私たちはアジャイルIRを導入し、グループで注意を移すメカニズムとウィンドウの注意を合わせて、アーキテクチャのモデルをわずかに単純化します。 グループシフトウィンドウ・アテンション(GSWA)を提案し、シフトウィンドウ・マルチヘッド・セルフアテンション(SW-MSA)とウインドウ・マルチヘッド・セルフアテンション(W-MSA)をアテンションヘッド全体にわたるグループに分解し、バック伝搬におけるメモリ使用量の削減に寄与する。 それに加えて、私たちは、チャネル内のウィンドウ間で相互作用するモデルを誘導するために、トレーニング中のウィンドウマスキングと学習可能なバイアスをシフトし続ける。 また,プロジェクションパラメータを再配置し,アテンション行列計算を高速化した。 実験の結果、私たちのベースラインSwinIRや他の効率的な量子化モデルと比較して、AgileIRは、Set5評価データセット上で、パフォーマンスを32.20dBに保ちます。

Image Transformers show a magnificent success in Image Restoration tasks. Nevertheless, most of transformer-based models are strictly bounded by exorbitant memory occupancy. Our goal is to reduce the memory consumption of Swin Transformer and at the same time speed up the model during training process. Thus, we introduce AgileIR, group shifted attention mechanism along with window attention, which sparsely simplifies the model in architecture. We propose Group Shifted Window Attention (GSWA) to decompose Shift Window Multi-head Self Attention (SW-MSA) and Window Multi-head Self Attention (W-MSA) into groups across their attention heads, contributing to shrinking memory usage in back propagation. In addition to that, we keep shifted window masking and its shifted learnable biases during training, in order to induce the model interacting across windows within the channel. We also re-allocate projection parameters to accelerate attention matrix calculation, which we found a negligible decrease in performance. As a result of experiment, compared with our baseline SwinIR and other efficient quantization models, AgileIR keeps the performance still at 32.20 dB on Set5 evaluation dataset, exceeding other methods with tailor-made efficient methods and saves over 50% memory while a large batch size is employed.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 非パラメトリック生存解析のための密度関数の適応変換器モデル

Adaptive Transformer Modelling of Density Function for Nonparametric Survival Analysis ( http://arxiv.org/abs/2409.06209v1 )

ライセンス: Link先を確認
Xin Zhang, Deval Mehta, Yanan Hu, Chao Zhu, David Darby, Zhen Yu, Daniel Merlo, Melissa Gresle, Anneke Van Der Walt, Helmut Butzkueven, Zongyuan Ge, (参考訳) 生存分析は、経済学、工学、医療など様々な分野において重要な役割を担っている。 研究者たちは、時間不変データと時間変化データの両方を分析し、顧客の混乱や材料劣化、さまざまな医学的結果などの現象を包含する。 このようなデータの複雑さと不均一性を考えると、近年の取り組みは、従来の統計的アプローチにおける制限に対処する深層学習手法の統合を成功させてきた。 しかし、現在の手法は通常、散在確率分布関数(PDF)を伴い、検閲予測の感度が低く、静的データセットのみをモデルにするか、動的モデリングのためにリカレントニューラルネットワークのみに依存している。 本論文では、新しいMargin-Mean-Varianceの損失を最適化し、Transformerの柔軟性を活用して、時間的および非時間的データを扱うUniSurvを作成した。 いくつかのデータセットに対する大規模な実験は、UniSurvが他の方法に比べて検閲にかなり重点を置いていることを示している。

Survival analysis holds a crucial role across diverse disciplines, such as economics, engineering and healthcare. It empowers researchers to analyze both time-invariant and time-varying data, encompassing phenomena like customer churn, material degradation and various medical outcomes. Given the complexity and heterogeneity of such data, recent endeavors have demonstrated successful integration of deep learning methodologies to address limitations in conventional statistical approaches. However, current methods typically involve cluttered probability distribution function (PDF), have lower sensitivity in censoring prediction, only model static datasets, or only rely on recurrent neural networks for dynamic modelling. In this paper, we propose a novel survival regression method capable of producing high-quality unimodal PDFs without any prior distribution assumption, by optimizing novel Margin-Mean-Variance loss and leveraging the flexibility of Transformer to handle both temporal and non-temporal data, coined UniSurv. Extensive experiments on several datasets demonstrate that UniSurv places a significantly higher emphasis on censoring compared to other methods.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# INTRA: 相互関係を意識したアフォーマンスグラウンド

INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding ( http://arxiv.org/abs/2409.06210v1 )

ライセンス: Link先を確認
Ji Ha Jang, Hoigi Seo, Se Young Chun, (参考訳) Affordanceは、オブジェクトに固有の潜在的な相互作用を表す。 余裕の認識により、インテリジェントエージェントは、新しい環境を効率的にナビゲートし、対話することができる。 監視の弱い空き地は、コストのかかるピクセルレベルのアノテーションを使わずに、外見中心の画像で、エージェントに空き地の概念を教える。 近年の弱教師付きアベイランス基盤の進歩は有望な結果をもたらしたが、ペア付きエキソセントリックおよびエゴセントリックなイメージデータセットの要件や、単一のオブジェクトに対する多様なアベイランスの基盤化の複雑さなど、課題が残っている。 そこで本研究では,INTRA(Interaction Relation-aware weakly supervised Affordance Grounding)を提案する。 従来の芸術とは異なり、INTRAは、この問題を表現学習として再考し、対向したデータセットの必要性を排除し、対向的な画像のみとの対照的な学習を通じて相互作用のユニークな特徴を識別する。 さらに,コントラスト学習のためのインタラクション関係を反映したテキスト条件付きアベイランスマップ生成を設計し,テキストの同義語拡張による堅牢性を高めるために,視覚言語モデル埋め込みを活用する。 提案手法はAGD20K, IIT-AFF, CAD, UMDなどの各種データセットにおいて先行技術より優れていた。 さらに,本手法は,合成画像やイラストのドメインスケーラビリティに優れ,新しいインタラクションやオブジェクトのアベイランスグラウンド化を行うことができることを示した。

Affordance denotes the potential interactions inherent in objects. The perception of affordance can enable intelligent agents to navigate and interact with new environments efficiently. Weakly supervised affordance grounding teaches agents the concept of affordance without costly pixel-level annotations, but with exocentric images. Although recent advances in weakly supervised affordance grounding yielded promising results, there remain challenges including the requirement for paired exocentric and egocentric image dataset, and the complexity in grounding diverse affordances for a single object. To address them, we propose INTeraction Relationship-aware weakly supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this problem as representation learning to identify unique features of interactions through contrastive learning with exocentric images only, eliminating the need for paired datasets. Moreover, we leverage vision-language model embeddings for performing affordance grounding flexibly with any text, designing text-conditioned affordance map generation to reflect interaction relationship for contrastive learning and enhancing robustness with our text synonym augmentation. Our method outperformed prior arts on diverse datasets such as AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate that our method has remarkable domain scalability for synthesized images / illustrations and is capable of performing affordance grounding for novel interactions and objects.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# STUN: スケーラブルなMoEプルーニングのためのStructured-Then-Unstructured Pruning

STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning ( http://arxiv.org/abs/2409.06211v1 )

ライセンス: Link先を確認
Jaeseong Lee, seung-won hwang, Aurick Qiao, Daniel F Campos, Zhewei Yao, Yuxiong He, (参考訳) Mixture-of-experts (MoEs) は、Large Language Model (LLMs) の専門家をわずかに活性化することで、推論コストを削減するために採用されている。 この削減にもかかわらず、MoEsの膨大な数の専門家がサービスに費用を払っている。 本稿では,MoEを刈り取ることにより,この問題に対処する方法について検討する。 刈り込み法のうち、非構造化プルーニングは、スペーシフィケーション構造に制約を課すため、構造化プルーニングに比べて、与えられたプルーニング比が最も高い性能を達成することが知られている。 これは直観的であり、非構造化プルーニングの解空間は構造化プルーニングの解空間を仮定する。 しかし,本研究では,非構造化プルーニングの形式である専門家プルーニングが,非構造化プルーニングに先立って非構造化プルーニングに先立って,非構造化プルーニングに先んじることを明らかにする。 既存のエキスパートプルーニングでは、$O(\frac{k^n}{\sqrt{n}})$ forward pass for $n$ experts, cannot scale for recent MoEs, we propose a scalable alternative with $O(1)$ complexity。 鍵となる考え方は、行動類似性に基づく専門家間の潜伏構造を活用することである。 専門家が128人いる480BサイズのMoEであるSnowflake Arcticでは、40パーセントの間隔でパフォーマンスを損なうのにH100と2時間しか必要ありません。 コードは公開されます。

Mixture-of-experts (MoEs) have been adopted for reducing inference costs by sparsely activating experts in Large language models (LLMs). Despite this reduction, the massive number of experts in MoEs still makes them expensive to serve. In this paper, we study how to address this, by pruning MoEs. Among pruning methodologies, unstructured pruning has been known to achieve the highest performance for a given pruning ratio, compared to structured pruning, since the latter imposes constraints on the sparsification structure. This is intuitive, as the solution space of unstructured pruning subsumes that of structured pruning. However, our counterintuitive finding reveals that expert pruning, a form of structured pruning, can actually precede unstructured pruning to outperform unstructured-only pruning. As existing expert pruning, requiring $O(\frac{k^n}{\sqrt{n}})$ forward passes for $n$ experts, cannot scale for recent MoEs, we propose a scalable alternative with $O(1)$ complexity, yet outperforming the more expensive methods. The key idea is leveraging a latent structure between experts, based on behavior similarity, such that the greedy decision of whether to prune closely captures the joint pruning effect. Ours is highly effective -- for Snowflake Arctic, a 480B-sized MoE with 128 experts, our method needs only one H100 and two hours to achieve nearly no loss in performance with 40% sparsity, even in generative tasks such as GSM8K, where state-of-the-art unstructured pruning fails to. The code will be made publicly available.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# BACKRUNNER: 現実世界でのスマートコントラクト攻撃の軽減

BACKRUNNER: Mitigating Smart Contract Attacks in the Real World ( http://arxiv.org/abs/2409.06213v1 )

ライセンス: Link先を確認
Chaofan Shou, Yuanyu Ke, Yupeng Yang, Qi Su, Or Dadosh, Assaf Eli, David Benchimol, Doudou Lu, Daniel Tong, Dex Chen, Zoey Tan, Jacob Chia, Koushik Sen, Wenke Lee, (参考訳) スマートコントラクトの脆弱性により、数十億ドルが失われました。 これに対抗するために、研究者たちは「ホワイトハット」取引を前に挿入して、悪意のある取引を先延ばしして資産を保護するよう設計した攻撃フロントランニング保護を提案した。 本稿では,既存のフロントランニング保護が現実のシナリオでは有効ではないことを示す。 具体的には、最近158件の実際の攻撃トランザクションを収集し、そのうち141件が最先端のフロントランニング保護を回避できることを発見した。 我々はこれらの攻撃を体系的に分析し、既存のフロントラン技術の本質的な限界が、現実世界の貴重な資産を保護するのを妨げていることを示す。 次に、新しいアプローチを提案する。 1)プリエンプティブ・ヒジャック、及び 2)攻撃の前後において、既存の制限を回避し、資産の保護に役立てることができる攻撃の逆行。 当社のアプローチでは、攻撃で使用されたエクスプロイトを、攻撃前後の同一または類似の契約に適合させて、資産を保護します。 我々は、プログラム修復問題としてエクスプロイトの適応を概念化し、我々のアプローチを本格的なフレームワークであるBACKRUNNERに実装するために確立された手法を適用した。 2023年の以前の攻撃で、BACKRUNNERは410万ドル以上の救助に成功した。 現実世界では、2ヶ月以内に28件の別件で11.2億ドル以上の資産を回収した。

Billions of dollars have been lost due to vulnerabilities in smart contracts. To counteract this, researchers have proposed attack frontrunning protections designed to preempt malicious transactions by inserting "whitehat" transactions ahead of them to protect the assets. In this paper, we demonstrate that existing frontrunning protections have become ineffective in real-world scenarios. Specifically, we collected 158 recent real-world attack transactions and discovered that 141 of them can bypass state-of-the-art frontrunning protections. We systematically analyze these attacks and show how inherent limitations of existing frontrunning techniques hinder them from protecting valuable assets in the real world. We then propose a new approach involving 1) preemptive hijack, and 2) attack backrunning, which circumvent the existing limitations and can help protect assets before and after an attack. Our approach adapts the exploit used in the attack to the same or similar contracts before and after the attack to safeguard the assets. We conceptualize adapting exploits as a program repair problem and apply established techniques to implement our approach into a full-fledged framework, BACKRUNNER. Running on previous attacks in 2023, BACKRUNNER can successfully rescue more than \$410M. In the real world, it has helped rescue over \$11.2M worth of assets in 28 separate incidents within two months.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 一般化可能なシーン変化検出に向けて

Towards Generalizable Scene Change Detection ( http://arxiv.org/abs/2409.06214v1 )

ライセンス: Link先を確認
Jaewoo Kim, Uehwan Kim, (参考訳) SCD(Scene Change Detection)は、視覚監視やモバイルロボティクスなどの応用に不可欠である。 しかし、現在のSCD法は、訓練データセットの時間順と、目に見えない領域での限られた性能に偏りを示しており、コベンショナルSCDベンチマークは一般化や時間整合性を評価することができない。 このような制約に対処するため,本研究では,GeSCF(Generalizable Scene Change Detection Framework)を紹介する。 提案したGeSCFは、未確認のドメインを一般化するために、再トレーニングや微調整を行わずに、ファンデーションモデルのローカライズされたセマンティクスを活用する。 具体的には、事前学習された基礎モデルのファセットから導かれる類似度分布の適応しきい値を設計し、初期擬似変化マスクを生成する。 さらに、Segment Anything Model(SAM)のクラス非依存マスクを用いて擬似マスクを洗練する。 さらに,提案するフレームワークは,時間的整合性を確保するため,すべての設定で可換操作を継続する。 最後に,GeSCD(Generalizable Scene Change Detection)のための新しいメトリクス,評価データセット,評価プロトコルを定義する。 大規模な実験により、GeSCFは多様な、そして困難な環境にまたがって優れており、SCDパフォーマンスの新たなベンチマークを確立している。

Scene Change Detection (SCD) is vital for applications such as visual surveillance and mobile robotics. However, current SCD methods exhibit a bias to the temporal order of training datasets and limited performance on unseen domains; coventional SCD benchmarks are not able to evaluate generalization or temporal consistency. To tackle these limitations, we introduce a Generalizable Scene Change Detection Framework (GeSCF) in this work. The proposed GeSCF leverages localized semantics of a foundation model without any re-training or fine-tuning -- for generalization over unseen domains. Specifically, we design an adaptive thresholding of the similarity distribution derived from facets of the pre-trained foundation model to generate initial pseudo-change mask. We further utilize Segment Anything Model's (SAM) class-agnostic masks to refine pseudo-masks. Moreover, our proposed framework maintains commutative operations in all settings to ensure complete temporal consistency. Finally, we define new metrics, evaluation dataset, and evaluation protocol for Generalizable Scene Change Detection (GeSCD). Extensive experiments demonstrate that GeSCF excels across diverse and challenging environments -- establishing a new benchmark for SCD performance.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# SubRegWeigh: キーワード正規化による効果的かつ効率的なアノテーション

SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization ( http://arxiv.org/abs/2409.06216v1 )

ライセンス: Link先を確認
Kohei Tsuji, Tatsuya Hiraoka, Yuchang Cheng, Tomoya Iwakura, (参考訳) 自然言語処理(NLP)の多くのデータセットは、時にアノテーションエラーを含む。 研究者はデータセットにおけるエラーの悪影響を自動的に低減する手法を開発してきた。 しかし、既存の手法では、エラーを検出するために多くの訓練済みモデルを必要とするため、時間がかかります。 本稿では,エラー検出時間を削減する新しい手法を提案する。 具体的には、サブワード正規化(subword regularization)と呼ばれるトークン化手法を用いて、エラーを検出するために使用される擬似多重モデルを作成する。 提案手法であるSubRegWeighは,既存の手法の4倍から5倍の速さでアノテーション重み付けを行うことができる。 さらに、SubRegWeighはドキュメント分類と名前付きエンティティ認識タスクの両方のパフォーマンスを改善した。 擬似不正確なラベルを用いた実験では、擬似不正確なラベルが適切に検出された。

Many datasets of natural language processing (NLP) sometimes include annotation errors. Researchers have attempted to develop methods to reduce the adverse effect of errors in datasets automatically. However, an existing method is time-consuming because it requires many trained models to detect errors. We propose a novel method to reduce the time of error detection. Specifically, we use a tokenization technique called subword regularization to create pseudo-multiple models which are used to detect errors. Our proposed method, SubRegWeigh, can perform annotation weighting four to five times faster than the existing method. Additionally, SubRegWeigh improved performance in both document classification and named entity recognition tasks. In experiments with pseudo-incorrect labels, pseudo-incorrect labels were adequately detected.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# Dual-stream Adaptive Clip-Aware Time Modeling for Robust Online Surgery Phase Recognition (DACAT)

DACAT: Dual-stream Adaptive Clip-aware Time Modeling for Robust Online Surgical Phase Recognition ( http://arxiv.org/abs/2409.06217v1 )

ライセンス: Link先を確認
Kaixiang Yang, Qiang Li, Zhiwei Wang, (参考訳) 外科的位相認識は腹腔鏡下手術において重要な要件となり,外科的リスク予測などの様々な臨床応用が可能となった。 現在の方法では、時間モデリングの基本的な単位として、個々のフレームワイド埋め込みを用いて外科的位相を特定するのが一般的である。 しかし、このアプローチは現在の観察に過度に敏感であり、しばしば完全な手術段階において不連続かつ誤った予測をもたらす。 本稿では、クリップ認識コンテキスト情報を適応的に学習し、時間的関係を高める新しいデュアルストリームモデルであるDACATを提案する。 1つのストリームでは、DACATはフレームエンコーダを事前訓練し、過去のフレーム単位の機能をすべてキャッシュする。 他方のストリームでは、DACATが新しいフレームエンコーダを微調整して、現在のフレームワイズ機能を抽出する。 さらに、2つのストリームをブリッジするために、現在のフレームワイズ機能を使用して、機能キャッシュから最も関連性の高い過去のクリップを適応的にフェッチするマックスクリップレスポンス・リードアウト(Max-R)モジュールが導入されている。 そして、このクリップ認識コンテキスト特徴を、現在のフレームとそのフェッチされた適応クリップ間のクロスアテンションを介して符号化し、さらに、正確なオンライン外科的位相認識のための時間モデリングを強化するために利用する。 Cholec80、M2CAI16、AutoLaparoの3つの公開データセットのベンチマーク結果は、提案したDACATが既存の最先端メソッドよりも優れていることを示す。 私たちのコードとモデルはhttps://github.com/kk42yy/DACAT.comでリリースされました。

Surgical phase recognition has become a crucial requirement in laparoscopic surgery, enabling various clinical applications like surgical risk forecasting. Current methods typically identify the surgical phase using individual frame-wise embeddings as the fundamental unit for time modeling. However, this approach is overly sensitive to current observations, often resulting in discontinuous and erroneous predictions within a complete surgical phase. In this paper, we propose DACAT, a novel dual-stream model that adaptively learns clip-aware context information to enhance the temporal relationship. In one stream, DACAT pretrains a frame encoder, caching all historical frame-wise features. In the other stream, DACAT fine-tunes a new frame encoder to extract the frame-wise feature at the current moment. Additionally, a max clip-response read-out (Max-R) module is introduced to bridge the two streams by using the current frame-wise feature to adaptively fetch the most relevant past clip from the feature cache. The clip-aware context feature is then encoded via cross-attention between the current frame and its fetched adaptive clip, and further utilized to enhance the time modeling for accurate online surgical phase recognition. The benchmark results on three public datasets, i.e., Cholec80, M2CAI16, and AutoLaparo, demonstrate the superiority of our proposed DACAT over existing state-of-the-art methods, with improvements in Jaccard scores of at least 4.5%, 4.6%, and 2.7%, respectively. Our code and models have been released at https://github.com/kk42yy/DACAT.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# Denoising: イメージング、逆問題、マシンラーニングのための強力なビルディングブロック

Denoising: A Powerful Building-Block for Imaging, Inverse Problems, and Machine Learning ( http://arxiv.org/abs/2409.06219v1 )

ライセンス: Link先を確認
Peyman Milanfar, Mauricio Delbracio, (参考訳) デノイング(Denoising)は、重要なパターンを強調する信号におけるランダムなゆらぎを減少させるプロセスであり、現代の科学的調査の始まり以来、基本的な問題となっている。 近年のデノナイジング技術、特に撮像技術は、いくつかの測定方法によって理論上の限界に近づき、顕著な成功を収めている。 しかし、数万件の研究論文にもかかわらず、ノイズ除去以外の広範囲にわたるノイズ除去の応用は、完全には認められていない。 これは、多様で多様な文学が原因であり、明確な概要を困難にしている。 本稿は、このギャップに対処することを目的としている。 本稿では, 騒音, 構造, 所望の特性について包括的に考察する。 我々は、画像、逆問題、機械学習における複雑なタスクに欠かせないビルディングブロックへと進化していくことの重要性を強調した。 その長い歴史にも拘わらず、コミュニティは予期せぬ、画期的なデノベーションの使い方を明らかにし続け、科学と工学の実践の基盤としての地位をさらに固めている。

Denoising, the process of reducing random fluctuations in a signal to emphasize essential patterns, has been a fundamental problem of interest since the dawn of modern scientific inquiry. Recent denoising techniques, particularly in imaging, have achieved remarkable success, nearing theoretical limits by some measures. Yet, despite tens of thousands of research papers, the wide-ranging applications of denoising beyond noise removal have not been fully recognized. This is partly due to the vast and diverse literature, making a clear overview challenging. This paper aims to address this gap. We present a comprehensive perspective on denoisers, their structure, and desired properties. We emphasize the increasing importance of denoising and showcase its evolution into an essential building block for complex tasks in imaging, inverse problems, and machine learning. Despite its long history, the community continues to uncover unexpected and groundbreaking uses for denoising, further solidifying its place as a cornerstone of scientific and engineering practice.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# CerviXpert:Cervix型とCervical Cell異常を予測する多構造畳み込みニューラルネットワーク

CerviXpert: A Multi-Structural Convolutional Neural Network for Predicting Cervix Type and Cervical Cell Abnormalities ( http://arxiv.org/abs/2409.06220v1 )

ライセンス: Link先を確認
Rashik Shahriar Akash, Radiful Islam, S. M. Saiful Islam Badhon, K. S. M. Tozammel Hossain, (参考訳) 頸部がんは世界中で何百万もの女性に影響を与えており、早期に診断された場合、生存率は著しく高い。 乳腺腫や頸部生検は、そのようながんを検出するための重要なスクリーニングツールである。 しかし、これらのスクリーニングプロセスの成功は細胞学者のスキルに依存している。 診断細胞診の最近の傾向は、細胞画像を用いて癌を分類するために機械学習に基づくモデルを適用することである。 これらの自動化されたモデルは、専門家の細胞学者と同じくらい、あるいはそれ以上に機能することが示されている。 ResNet50、VGG16、MobileNetV2、InceptionV3は深層畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、これらの手法は計算コストが高い。 本稿では,多構造畳み込みニューラルネットワークであるCerviXpertを紹介し,頸部癌を同定する。 提案手法の有効性を示すために,公開データセットであるSiPaKMeDについて広範な実験を行った。 CerviXpertは、精度と実用性の間のバランスを打つことにより、効率的な頸部がん検診と診断のための有望なソリューションを提供する。

Cervical cancer affects millions of women worldwide and has a significantly higher survival rate when diagnosed early. Pap smears and cervical biopsies are vital screening tools for detecting such cancer. However, the success of these screening processes depends on the skills of cytologists. A recent trend in diagnostic cytology is to apply machine-learning-based models to classify cancer using cell images. These automated models have been shown to perform just as well as, or even better than, expert cytologists. Some notable methods for classifying cervix cancers include ResNet50, VGG16, MobileNetV2, and InceptionV3, based on deep convolutional neural networks (CNN). However, these methods are computationally expensive. We present CerviXpert, a multi-structural Convolutional Neural Network, to identify cervix cancer. We perform extensive experiments on a publicly available dataset, SiPaKMeD, to show the efficacy of our method. CerviXpert presents a promising solution for efficient cervical cancer screening and diagnosis by striking a balance between accuracy and practical feasibility.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 多言語セマンティック埋め込みを用いた放送音声の話題セグメンテーションの促進

Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings ( http://arxiv.org/abs/2409.06222v1 )

ライセンス: Link先を確認
Sakshi Deo Shukla, Pavel Denisov, Tugtekin Turan, (参考訳) 音声に基づくトピックセグメンテーションの最近の進歩は、事前訓練された音声エンコーダが、音声から直接意味表現をキャプチャする可能性を強調している。 伝統的に、トピックセグメンテーションは、自動音声認識システムの書き起こしを生成するパイプラインアプローチに依存しており、次にテキストベースのセグメンテーションアルゴリズムが続く。 本稿では, セグメンテーションにセマンティック音声エンコーダを直接使用することにより, 従来の2段階処理を回避できるエンド・ツー・エンド方式を提案する。 単一録音における話者や話題の多様性に起因して、ユニークな課題を生んでいる放送ニュース分野に着目し、話題変更点をエンドツーエンドで効率的にアクセスすることの課題に対処する。 さらに,6つのヨーロッパ言語にまたがる約1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。 この設定は、現実世界の多様性と様々な言語的設定に適応するモデルの必要性を反映している。 この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。 多言語で訓練すると、これらのスコアはそれぞれ 0.1988 と 0.2370 に改善される。 さらなる研究を支援するため、我々はデータ準備スクリプトとともにモデルをリリースし、多言語ニューストピックセグメンテーションのオープンな研究を容易にする。

Recent advancements in speech-based topic segmentation have highlighted the potential of pretrained speech encoders to capture semantic representations directly from speech. Traditionally, topic segmentation has relied on a pipeline approach in which transcripts of the automatic speech recognition systems are generated, followed by text-based segmentation algorithms. In this paper, we introduce an end-to-end scheme that bypasses this conventional two-step process by directly employing semantic speech encoders for segmentation. Focused on the broadcasted news domain, which poses unique challenges due to the diversity of speakers and topics within single recordings, we address the challenge of accessing topic change points efficiently in an end-to-end manner. Furthermore, we propose a new benchmark for spoken news topic segmentation by utilizing a dataset featuring approximately 1000 hours of publicly available recordings across six European languages and including an evaluation set in Hindi to test the model's cross-domain performance in a cross-lingual, zero-shot scenario. This setup reflects real-world diversity and the need for models adapting to various linguistic settings. Our results demonstrate that while the traditional pipeline approach achieves a state-of-the-art $P_k$ score of 0.2431 for English, our end-to-end model delivers a competitive $P_k$ score of 0.2564. When trained multilingually, these scores further improve to 0.1988 and 0.2370, respectively. To support further research, we release our model along with data preparation scripts, facilitating open research on multilingual spoken news topic segmentation.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 大規模音声言語モデルに対する音声質問応答における時間的理解の促進

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models ( http://arxiv.org/abs/2409.06223v1 )

ライセンス: Link先を確認
Arvind Krishna Sridhar, Yinyi Guo, Erik Visser, (参考訳) 音声質問回答タスクには、音声イベント分類、音声キャプション、オープンエンド推論が含まれる。 近年,大規模音声言語モデルの出現により,音声質問応答が注目されている。 現在の文献では、プロジェクションモジュールを通じて音声エンコーダとテキストのみの大規模言語モデルを統合することで、LALMの構築に重点を置いている。 大規模音声言語モデルは一般的な音声理解において優れているが、時間的推論において制限されており、商用アプリケーションやデバイス展開を妨げている可能性がある。 本稿では,音声時間的推論におけるこれらの課題と限界について述べる。 まず、LLMを用いて、信頼性の高い音声時間的質問や回答を生成するためのデータ拡張手法を提案する。 第2に、微調整タスクの性能を損なうことなく、時間的推論を専門とする微調整カリキュラム学習戦略を提案する。 最後に,LLMが支援する信頼性と透過性を備えた自動メトリクスを開発し,大規模音声言語モデル応答と地上真実データとの相関関係をインテリジェントに測定する。 公開音声ベンチマークデータセットにおけるSOTA LALMを用いた提案手法の有効性を実証する。

The Audio Question Answering task includes audio event classification, audio captioning, and open ended reasoning. Recently, Audio Question Answering has garnered attention due to the advent of Large Audio Language Models. Current literature focuses on constructing LALMs by integrating audio encoders with text only Large Language Models through a projection module. While Large Audio Language Models excel in general audio understanding, they are limited in temporal reasoning which may hinder their commercial applications and on device deployment. This paper addresses these challenges and limitations in audio temporal reasoning. First, we introduce a data augmentation technique for generating reliable audio temporal questions and answers using an LLM. Second, we propose a continued finetuning curriculum learning strategy to specialize in temporal reasoning without compromising performance on finetuned tasks. Finally, we develop a reliable and transparent automated metric, assisted by an LLM, to measure the correlation between Large Audio Language Model responses and ground truth data intelligently. We demonstrate the effectiveness of our proposed techniques using SOTA LALMs on public audio benchmark datasets.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# MIP-GAF:最重要人物位置推定とグループコンテキスト理解のためのMLLMアノテーション付きベンチマーク

MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding ( http://arxiv.org/abs/2409.06224v1 )

ライセンス: Link先を確認
Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon, (参考訳) 社会的イベント設定において最も重要な人物(MIP)を推定することは、主にラベル付きデータのコンテキスト的複雑さと不足のために難しい問題である。 さらに、MIP推定の因果関係は、非常に主観的で多様である。 この目的のために,画像中の「最重要人物」(MIP)に関する人間の知覚を識別するために,大規模"in-the-wild"データセットに注釈を付けることで,この問題に対処することを目的とする。 本稿では,MLLMに基づくデータアノテーション戦略の詳細な説明と,データ品質解析について述べる。 さらに、最先端のMIPローカライゼーション手法を用いて提案したデータセットの総合的なベンチマークを行い、既存のデータセットと比較して性能が大幅に低下したことを示す。 性能低下は、既存のMIPローカライゼーションアルゴリズムが 'in-the-wild' 状況に対してより堅牢でなければならないことを示している。 提案したデータセットは,次世代の社会状況理解手法を構築する上で重要な役割を果たすものと信じている。 コードとデータはhttps://github.com/surbhimadan92/MIP-GAFで公開されている。

Estimating the Most Important Person (MIP) in any social event setup is a challenging problem mainly due to contextual complexity and scarcity of labeled data. Moreover, the causality aspects of MIP estimation are quite subjective and diverse. To this end, we aim to address the problem by annotating a large-scale `in-the-wild' dataset for identifying human perceptions about the `Most Important Person (MIP)' in an image. The paper provides a thorough description of our proposed Multimodal Large Language Model (MLLM) based data annotation strategy, and a thorough data quality analysis. Further, we perform a comprehensive benchmarking of the proposed dataset utilizing state-of-the-art MIP localization methods, indicating a significant drop in performance compared to existing datasets. The performance drop shows that the existing MIP localization algorithms must be more robust with respect to `in-the-wild' situations. We believe the proposed dataset will play a vital role in building the next-generation social situation understanding methods. The code and data is available at https://github.com/surbhimadan92/MIP-GAF.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 学術論文のNLP型リポジトリと検索エンジン:CyLitを用いたサイバーリスク文学を事例として

NLP-Powered Repository and Search Engine for Academic Papers: A Case Study on Cyber Risk Literature with CyLit ( http://arxiv.org/abs/2409.06226v1 )

ライセンス: Link先を確認
Linfeng Zhang, Changyue Hu, Zhiyu Quan, (参考訳) 学術文献の体系が成長を続けるにつれ、研究者は関連資源を効果的に探すのにますます困難に直面している。 既存のデータベースや検索エンジンは、学術文献の包括的かつ文脈的に関連するコレクションを提供するのに足りていないことが多い。 この問題に対処するために,自然言語処理(NLP)技術を活用した新しいフレームワークを提案する。 このフレームワークは、特定の研究領域内の学術文献の検索、要約、クラスタリングを自動化する。 提案手法の有効性を実証するため,サイバーリスク文献に特化して設計されたNLPベースのリポジトリであるCyLitを紹介した。 CyLitは、コンテキスト固有のリソースへのアクセスを提供し、動的で急速に進化するサイバーリスクの分野におけるトレンドの追跡を可能にすることによって、研究者に権限を与える。 大量のデータを自動的に処理することで,学術文献検索の効率性と特異性を大幅に向上させる。 我々は、CyLitの文献分類結果と、調査論文やChatGPTで作成されたものを比較し、このツールがサイバーリスク研究の文献にもたらす特徴的な洞察を強調した。 NLP技術を用いて、研究者が学術資源を発見し、分析し、活用する方法を革新し、最終的には様々な知識領域の進歩を促進することを目的としている。

As the body of academic literature continues to grow, researchers face increasing difficulties in effectively searching for relevant resources. Existing databases and search engines often fall short of providing a comprehensive and contextually relevant collection of academic literature. To address this issue, we propose a novel framework that leverages Natural Language Processing (NLP) techniques. This framework automates the retrieval, summarization, and clustering of academic literature within a specific research domain. To demonstrate the effectiveness of our approach, we introduce CyLit, an NLP-powered repository specifically designed for the cyber risk literature. CyLit empowers researchers by providing access to context-specific resources and enabling the tracking of trends in the dynamic and rapidly evolving field of cyber risk. Through the automatic processing of large volumes of data, our NLP-powered solution significantly enhances the efficiency and specificity of academic literature searches. We compare the literature categorization results of CyLit to those presented in survey papers or generated by ChatGPT, highlighting the distinctive insights this tool provides into cyber risk research literature. Using NLP techniques, we aim to revolutionize the way researchers discover, analyze, and utilize academic resources, ultimately fostering advancements in various domains of knowledge.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 複数の詳細レベルに対する潜入型3次元形状モデル

A Latent Implicit 3D Shape Model for Multiple Levels of Detail ( http://arxiv.org/abs/2409.06231v1 )

ライセンス: Link先を確認
Benoit Guillard, Marc Habermann, Christian Theobalt, Pascal Fua, (参考訳) 入射神経表現は、形状固有の潜伏符号と3D座標を対応する符号距離(SDF)の値にマッピングする。 しかし、このアプローチは1つのレベルの詳細しか提供しません。 浅いネットワークで低レベルのディテールをエミュレートすることは可能だが、生成された形状は概して滑らかではない。 あるいは、いくつかのネットワーク設計は、複数の詳細レベルを提供するが、単一のオブジェクトに過度に適合することに限定されている。 そこで本研究では,複数レベルのディテールを実現し,各レベルのスムーズな表面を保証できる新しい形状モデリング手法を提案する。 その中核として,マルチスケールで帯域制限のあるニューラルアーキテクチャのための新しい潜在条件を導入する。 これにより、複数の形状の深いパラメータ化が行われ、初期層は近似SDF値を素早く出力する。 これにより、単一のネットワーク内の速度と精度のバランスを保ち、暗黙のシーンレンダリングの効率を高めることができる。 ネットワークの帯域幅を制限することで、すべての詳細レベルにわたってスムーズな表面を維持することができることを示す。 より細かいレベルでは、レコンストラクションの品質は、単一の詳細レベルに限定される最先端のモデルと同等である。

Implicit neural representations map a shape-specific latent code and a 3D coordinate to its corresponding signed distance (SDF) value. However, this approach only offers a single level of detail. Emulating low levels of detail can be achieved with shallow networks, but the generated shapes are typically not smooth. Alternatively, some network designs offer multiple levels of detail, but are limited to overfitting a single object. To address this, we propose a new shape modeling approach, which enables multiple levels of detail and guarantees a smooth surface at each level. At the core, we introduce a novel latent conditioning for a multiscale and bandwith-limited neural architecture. This results in a deep parameterization of multiple shapes, where early layers quickly output approximated SDF values. This allows to balance speed and accuracy within a single network and enhance the efficiency of implicit scene rendering. We demonstrate that by limiting the bandwidth of the network, we can maintain smooth surfaces across all levels of detail. At finer levels, reconstruction quality is on par with the state of the art models, which are limited to a single level of detail.
翻訳日:2024-09-11 19:00:01 公開日:2024-09-10
# 静止画像のためのリカレントニューラルネットワーク

Recurrent Neural Networks for Still Images ( http://arxiv.org/abs/2409.06235v1 )

ライセンス: Link先を確認
Dmitri, Lvov, Yair Smadar, Ran Bezen, (参考訳) 本稿では、静止画像に対するリカレントニューラルネットワーク(RNN)の適用について検討する。 通常、畳み込みニューラルネットワーク(CNN)はこの種のデータに適用される一般的な手法であり、最近では大きなモデルを必要とするが、トランスフォーマーの人気が高まっている。 これらの方法とは異なり、RNNは一般的に単一の画像ではなく、時間とともに処理シーケンスと関連付けられている。 我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。 このアプローチは、リソースが限られている組み込みシステム用に設計されたコンパクトモデルに特に有利である。 さらに、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを導入する。 本研究では,これらのレイヤを畳み込み型リカレントニューラルネットワーク(CRNN)で検証した。 COCOとCIFAR100データセットの実験は、特に小さなネットワークにおいて、より良い結果を示している。

In this paper, we explore the application of Recurrent Neural Network (RNN) for still images. Typically, Convolutional Neural Networks (CNNs) are the prevalent method applied for this type of data, and more recently, transformers have gained popularity, although they often require large models. Unlike these methods, RNNs are generally associated with processing sequences over time rather than single images. We argue that RNNs can effectively handle still images by interpreting the pixels as a sequence. This approach could be particularly advantageous for compact models designed for embedded systems, where resources are limited. Additionally, we introduce a novel RNN design tailored for two-dimensional inputs, such as images, and a custom version of BiDirectional RNN (BiRNN) that is more memory-efficient than traditional implementations. In our research, we have tested these layers in Convolutional Recurrent Neural Networks (CRNNs), predominantly composed of Conv2D layers, with RNN layers at or close to the end. Experiments on the COCO and CIFAR100 datasets show better results, particularly for small networks.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# 機械学習による東アフリカにおける季節降水量の予測

Applications of machine learning to predict seasonal precipitation for East Africa ( http://arxiv.org/abs/2409.06238v1 )

ライセンス: Link先を確認
Michael Scheuerer, Claudio Heinrich-Mertsching, Titike K. Bahaga, Masilin Gudoshava, Thordis L. Thorarinsdottir, (参考訳) 季節的な気候予測は、大気、海洋、陸地、その他の地球系の構成要素間の相互作用を表現するために地球系のモデルを使用する、完全に結合した予測システムからのモデルに基づいて行われる。 近年,大規模気候変動が局所的・地域的温度や降水と線形的・非線形的に結びついている課題に対して,機械学習(ML)手法が研究されている。 本稿では,東アフリカにおける季節降水量の予測に解釈可能なML手法を用いることを検討した。 降水場を経験的直交関数 (EOFs) で分解することにより, 各因子の負荷だけを予測できる次元低減を行う。 大規模気候変動の指標-個々の指標の変化率と異なる指標間の相互作用を含む-は、解釈可能なMLアルゴリズムから致命的な予測を得るために潜在的特徴として使用される。 データの利用とモデル複雑さの影響に関するいくつかの研究課題が研究されている。 その結果,ECMWF 季節予報システム (SEAS5) を1993-2020 年の間に,MAM,JJAS,OND の3シーズンで比較した。 同じ期間の気候学と比較して、ECMWFの予測は、MAMとJJASでは負のスキルを持ち、ONDでは有意な正のスキルを持っている。 MLアプローチは、MAMおよびJJASの気候学と同等であり、OND ECMWF予測のレベルには達していないが、ONDでは極めて肯定的なスキルである。

Seasonal climate forecasts are commonly based on model runs from fully coupled forecasting systems that use Earth system models to represent interactions between the atmosphere, ocean, land and other Earth-system components. Recently, machine learning (ML) methods are increasingly being investigated for this task where large-scale climate variability is linked to local or regional temperature or precipitation in a linear or non-linear fashion. This paper investigates the use of interpretable ML methods to predict seasonal precipitation for East Africa in an operational setting. Dimension reduction is performed by decomposing the precipitation fields via empirical orthogonal functions (EOFs), such that only the respective factor loadings need to the predicted. Indices of large-scale climate variability--including the rate of change in individual indices as well as interactions between different indices--are then used as potential features to obtain tercile forecasts from an interpretable ML algorithm. Several research questions regarding the use of data and the effect of model complexity are studied. The results are compared against the ECMWF seasonal forecasting system (SEAS5) for three seasons--MAM, JJAS and OND--over the period 1993-2020. Compared to climatology for the same period, the ECMWF forecasts have negative skill in MAM and JJAS and significant positive skill in OND. The ML approach is on par with climatology in MAM and JJAS and a significantly positive skill in OND, if not quite at the level of the OND ECMWF forecast.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# イベントベース衛星データ推定におけるSim2Realギャップをブリッジするテストタイム認定セルフスーパービジョン

Test-Time Certifiable Self-Supervision to Bridge the Sim2Real Gap in Event-Based Satellite Pose Estimation ( http://arxiv.org/abs/2409.06240v1 )

ライセンス: Link先を確認
Mohsi Jawaid, Rajat Talak, Yasir Latif, Luca Carlone, Tat-Jun Chin, (参考訳) 深層学習は視覚ベースの衛星ポーズ推定において重要な役割を果たす。 しかし、宇宙環境からの実際のデータの不足は、深層モデルを合成データを用いて訓練する必要があることを意味するため、Sim2Realドメインギャップ問題を引き起こす。 Sim2Realのギャップの主な原因は、試験中に遭遇した新しい照明条件である。 イベントセンサは、視覚に基づくポーズ推定における照明の変動に対して、ある程度の堅牢性をもたらすことが示されている。 しかし、強い方向光による困難な照明条件は、ノイズ/スパージュイベントや不均一なイベント密度などの市販のオフザシェルフイベントセンサの出力に依然として好ましくない効果をもたらす可能性がある。 このような効果はソフトウェアでシミュレートするのは簡単ではないため、イベントドメインのSim2Realギャップにつながる。 イベントベースの衛星ポーズ推定におけるSim2Realギャップを埋めるため,認証モジュールを用いたテスト時間自己スーパービジョン方式を提案する。 セルフスーパービジョンは、予測された衛星の密度の高い点雲をイベントデータと整列させ、不正確な推定されたポーズを修正しようとする最適化ルーチンによって実現される。 認証者は修正されたポーズを検証しようと試み、認定されたテストタイム入力のみが暗黙の区別によって逆伝播され、予測されたランドマークを洗練し、ポーズ推定を改善し、Sim2Realギャップを閉じる。 その結果,本手法はテスト時間適応方式よりも優れていた。

Deep learning plays a critical role in vision-based satellite pose estimation. However, the scarcity of real data from the space environment means that deep models need to be trained using synthetic data, which raises the Sim2Real domain gap problem. A major cause of the Sim2Real gap are novel lighting conditions encountered during test time. Event sensors have been shown to provide some robustness against lighting variations in vision-based pose estimation. However, challenging lighting conditions due to strong directional light can still cause undesirable effects in the output of commercial off-the-shelf event sensors, such as noisy/spurious events and inhomogeneous event densities on the object. Such effects are non-trivial to simulate in software, thus leading to Sim2Real gap in the event domain. To close the Sim2Real gap in event-based satellite pose estimation, the paper proposes a test-time self-supervision scheme with a certifier module. Self-supervision is enabled by an optimisation routine that aligns a dense point cloud of the predicted satellite pose with the event data to attempt to rectify the inaccurately estimated pose. The certifier attempts to verify the corrected pose, and only certified test-time inputs are backpropagated via implicit differentiation to refine the predicted landmarks, thus improving the pose estimates and closing the Sim2Real gap. Results show that the our method outperforms established test-time adaptation schemes.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# DiPT:LLM推論の多角化による強化

DiPT: Enhancing LLM reasoning through diversified perspective-taking ( http://arxiv.org/abs/2409.06241v1 )

ライセンス: Link先を確認
Hoang Anh Just, Mahavir Dabas, Lifu Huang, Ming Jin, Ruoxi Jia, (参考訳) 言語モデルの推論を改善するための既存の作業は、通常、単一のソリューションパスを探索する。 社会的研究における視点取組みから着想を得たDiPTは,多様な視点を明示的に取り入れることで,現在の推論手法を補完する新しいアプローチである。 このアプローチにより、モデルは問題のコンテキストをより深く理解し、推論段階で最も効果的な解経路を特定することができる。 さらに、既存のデータを拡張するための一般的なデータ中心のAIレシピを提供し、微調整の質を向上させる。 実験結果から,DiPTは単一推論手法に焦点をあてた既存手法に柔軟に統合され,パラフレーズ付き問題を提示した場合の推論性能と安定性が向上することが示された。 さらに、デプロイされたモデルに組み込まれたセーフガードを回避すべく意図的に設計された「ジェイルブレイク」プロンプトに対して、モデルのセーフアウトプットを維持することで、コンテキスト理解を改善した。 最後に,多様な視点に富んだデータによる微調整が,生データのみによる微調整と比較してモデルの推論能力を高めることを示す。

Existing work on improving language model reasoning typically explores a single solution path, which can be prone to errors. Inspired by perspective-taking in social studies, this paper introduces DiPT, a novel approach that complements current reasoning methods by explicitly incorporating diversified viewpoints. This approach allows the model to gain a deeper understanding of the problem's context and identify the most effective solution path during the inference stage. Additionally, it provides a general data-centric AI recipe for augmenting existing data to improve their quality for fine-tuning. Our empirical results demonstrate that DiPT can be flexibly integrated into existing methods that focus on a single reasoning approach, enhancing their reasoning performance and stability when presented with paraphrased problems. Furthermore, we illustrate improved context understanding by maintaining the model's safe outputs against "jailbreaking" prompts intentionally designed to bypass safeguards built into deployed models. Lastly, we show that fine-tuning with data enriched with diverse perspectives can boost the reasoning capabilities of the model compared to fine-tuning with raw data alone.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# 推論は必要なすべて: ChatGPT を用いたクロスドメイン対話状態追跡のための自己例検索

Inference is All You Need: Self Example Retriever for Cross-domain Dialogue State Tracking with ChatGPT ( http://arxiv.org/abs/2409.06243v1 )

ライセンス: Link先を確認
Jihyun Lee, Gary Geunbae Lee, (参考訳) 従来の対話状態追跡アプローチは、拡張性や新しいドメインへの適応性を制限し、広範なトレーニングデータと手作りの機能に大きく依存している。 本稿では,ChatGPTを用いた推論と文脈内学習を,パラメータ更新を伴わずに,対話状態追跡におけるドメイン転送に活用する手法を提案する。 ChatGPTの思考の連鎖を導くことで、関係する例を検索し、知識を一般化し、単に推論によって、対話状態を正確に推測することができる。 MultiWOZデータセットの実験結果は、ドメイン間の競合性能と有望な一般化を示す。 我々のパラメータフリーアプローチは、スケーラブルで適応可能なソリューションを提供し、ドメイン転送学習における新しい研究方向を開く。

Traditional dialogue state tracking approaches heavily rely on extensive training data and handcrafted features, limiting their scalability and adaptability to new domains. In this paper, we propose a novel method that leverages inference and in-context learning with ChatGPT for domain transfer in dialogue state tracking, without any parameter updates. By guiding ChatGPT's chain of thought, we enable it to retrieve relevant examples and generalize knowledge to accurately infer dialogue states, solely through inference. Experimental results on the MultiWOZ dataset demonstrate competitive performance and promising generalization across domains. Our parameter-free approach offers a scalable and adaptable solution, opening new research directions in domain transfer learning.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# センサの循環システムにおける差分劣化脆弱性

Differential Degradation Vulnerabilities in Censorship Circumvention Systems ( http://arxiv.org/abs/2409.06247v1 )

ライセンス: Link先を確認
Zhen Sun, Vitaly Shmatikov, (参考訳) 最近提案された検閲回避システムは、一般的なアプリケーションの暗号化されたネットワークチャネルを使用して通信を隠蔽する。 例えば、Snowflakeと呼ばれるTorプラグ可能なトランスポートはWebRTCデータチャネルを使用し、Protozoaと呼ばれるシステムはWebRTCビデオコールアプリケーションでコンテンツを置換する。 カバーアプリケーションと同じチャネルと(Protozoaの場合)観測可能なトラフィック特性を一致させることで,大規模トラフィック分析が可能なネットワークベースの強力な検閲に抵抗することを目指している。 特にプロトゾアは、行動独立として知られる強い識別不可能な性質を達成している。 このタイプのシステムは、私たちが"差分劣化"と呼ぶ新しいタイプのアクティブアタックに対して、汎用的に脆弱であることを示す。 これらの攻撃は、マルチフローの測定やトラフィックの分類を必要としないため、現実世界のすべての検閲が利用できる。 回避システムの各ネットワーク要件とカバーアプリケーションとの相違点を利用する。 本稿では、WebRTCが公開している最小限のアプリケーションレベル情報を用いて、回避システムがカバーアプリケーションよりもはるかにパフォーマンスが低下する原因となるネットワーク条件を作成する方法を示す。 攻撃がネットワークのトラフィックと行動の独立性に観察可能な違いを生じさせないとしても、検閲は交通分析に頼らずに低コストで回避を阻止でき、非循環ユーザーには最小限の被害を与えることができる。 我々はスノーフレークとプロトゾアに対する効果的な差分分解攻撃を示す。 これらの脆弱性の根本原因を説明し、回避システムの設計者が直面するトレードオフを分析し、微分劣化攻撃に抵抗するプロトゾアの修正版を提案する。

Several recently proposed censorship circumvention systems use encrypted network channels of popular applications to hide their communications. For example, a Tor pluggable transport called Snowflake uses the WebRTC data channel, while a system called Protozoa substitutes content in a WebRTC video-call application. By using the same channel as the cover application and (in the case of Protozoa) matching its observable traffic characteristics, these systems aim to resist powerful network-based censors capable of large-scale traffic analysis. Protozoa, in particular, achieves a strong indistinguishability property known as behavioral independence. We demonstrate that this class of systems is generically vulnerable to a new type of active attacks we call "differential degradation." These attacks do not require multi-flow measurements or traffic classification and are thus available to all real-world censors. They exploit the discrepancies between the respective network requirements of the circumvention system and its cover application. We show how a censor can use the minimal application-level information exposed by WebRTC to create network conditions that cause the circumvention system to suffer a much bigger degradation in performance than the cover application. Even when the attack causes no observable differences in network traffic and behavioral independence still holds, the censor can block circumvention at a low cost, without resorting to traffic analysis, and with minimal collateral damage to non-circumvention users. We present effective differential degradation attacks against Snowflake and Protozoa. We explain the root cause of these vulnerabilities, analyze the tradeoffs faced by the designers of circumvention systems, and propose a modified version of Protozoa that resists differential degradation attacks.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# 単一スピン系におけるコヒーレントエルゴトロピーの実験的研究

Experimental investigation of coherent ergotropy in a single spin system ( http://arxiv.org/abs/2409.06249v1 )

ライセンス: Link先を確認
Zhibo Niu, Yang Wu, Yunhan Wang, Xing Rong, Jiangfeng Du, (参考訳) エルゴトロピー(Ergotropy)は、一様循環進化を通じて抽出できる最大作業量として定義される。 量子システムの作業能力を評価する上で重要な役割を果たす。 近年、仕事抽出における量子コヒーレンスの重要性が理論的に確認され、コヒーレンスがより高い量子状態は、非相性よりもエルゴトロピーを持つことが明らかになった。 しかし、コヒーレントエルゴトロピーの実験的な研究はいまだに残っていない。 本稿では, 単一スピン系におけるコヒーレントエルゴトロピーの実験的研究を報告する。 非平衡状態に対するエルゴトロピーのコヒーレント成分と非コヒーレント成分の両方をアンシラ量子ビットで測定する方法に基づいて抽出した。 系のコヒーレンスの増加に伴うエルゴトロピーの増加は状態のコヒーレンスの変化によって観察された。 我々の研究は、量子熱力学と量子情報理論の相互作用を明らかにし、将来の研究は、他の量子属性が熱力学プロトコルで果たす役割をさらに探求する可能性がある。

Ergotropy is defined as the maximum amount of work that can be extracted through a unitary cyclic evolution. It plays a crucial role in assessing the work capacity of a quantum system. Recently, the significance of quantum coherence in work extraction has been theoretically identified, revealing that quantum states with more coherence possess more ergotropy compared to their dephased counterparts. However, an experimental study of the coherent ergotropy remains absent. Here, we report an experimental investigation of the coherent ergotropy in a single spin system. Based on the method of measuring ergotropy with an ancilla qubit, both the coherent and incoherent components of the ergotropy for the non-equilibrium state were successfully extracted. The increase in ergotropy induced by the increase in the coherence of the system was observed by varying the coherence of the state. Our work reveals the interplay between quantum thermodynamics and quantum information theory, future investigations could further explore the role other quantum attributes play in thermodynamic protocols.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# サプライチェーンネットワークにおけるニュースフローに対する市場反応

Market Reaction to News Flows in Supply Chain Networks ( http://arxiv.org/abs/2409.06255v1 )

ライセンス: Link先を確認
Hiroyasu Inoue, Yasuyuki Todo, (参考訳) 本研究は, 企業に対する肯定的なニュースが株価を上昇させるのか, さらに, 企業のサプライヤーや顧客の株価を上昇させるのかを, 世界中の上場企業と日本の上場企業の大規模なサンプルを用いて検討する。 各ニュース記事の肯定性のレベルは、金融情報に特化した自然言語処理モデルであるFinBERTによって決定される。 世界中の企業のサプライチェーンは、主に財務諸表によって特定され、日本企業のサプライチェーンは、大規模な企業レベルの調査から取られている。 発表前の報道で言及された企業の株価の変動率は前向きなニュースで増加しており、おそらくは非公式チャンネルによる情報の拡散が原因と考えられる。 肯定的なニュースは、公開前にサプライヤーや顧客の株価を上昇させ、サプライチェーンを通じた市場価値の伝播を確認している。 また、概して、先物効果よりも先物企業やサプライヤー、顧客の株価に対する後物効果が大きい。 ポストニューズ効果とプレニューズ効果の正の差は、非公式な情報拡散を制御するポジティブニュースの開示の正の効果と見なすことができる。 しかし、我が国のサプライヤーや顧客に対するポストニューズ効果は、先ニューズ効果よりも小さい。 これは、日本企業のサプライチェーンリンクが世界のサプライチェーンより強いのに対して、そのような知識は選ばれた投資家に限られているためであろう。

This study examines whether positive news about firms increases their stock prices and, moreover, whether it increases stock prices of the firms' suppliers and customers, using a large sample of publicly listed firms across the world and another of Japanese listed firms. The level of positiveness of each news article is determined by FinBERT, a natural language processing model fine-tuned specifically for financial information. Supply chains of firms across the world are identified mostly by financial statements, while those of Japanese firms are taken from large-scale firm-level surveys. We find that positive news increases the change rate of stock prices of firms mentioned in the news before its disclosure, most likely because of diffusion of information through informal channels. Positive news also raises stock prices of the firms' suppliers and customers before its disclosure, confirming propagation of market values through supply chains. In addition, we generally find a larger post-news effect on stock prices of the mentioned firms and their suppliers and customers than the pre-news effect. The positive difference between the post- and pre-news effects can be considered as the net effect of the disclosure of positive news, controlling for informal information diffusion. However, the post-news effect on suppliers and customers in Japan is smaller than the pre-news effect, a result opposite to those from firms across the world. This notable result is possibly because supply chain links of Japanese firms are stronger than global supply chains while such knowledge is restricted to selected investors.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# ALSS-YOLO:UAV画像におけるTIR野生生物検出のための適応型軽量チャネル分割・シャッフルネットワーク

ALSS-YOLO: An Adaptive Lightweight Channel Split and Shuffling Network for TIR Wildlife Detection in UAV Imagery ( http://arxiv.org/abs/2409.06259v1 )

ライセンス: Link先を確認
Ang He, Xiaobo Li, Ximei Wu, Chengyue Su, Jing Chen, Sheng Xu, Xiaobin Guo, (参考訳) 熱赤外線カメラを搭載した無人航空機(UAV)は、夜間野生生物の密猟と戦う上で重要な役割を担っている。 しかし、TIR画像は、しばしばジッタや野生生物の重複といった課題に直面し、UAVがぼやけた小さな標的を識別する能力を持つ必要がある。 現在のUAVに展開されている従来の軽量ネットワークは、ぼやけた小さなターゲットから特徴を引き出すのに苦労している。 この問題に対処するため、TIR空中画像に最適化された効率的で軽量な検出器であるALSS-YOLOを開発した。 まず,Adaptive Lightweight Channel Split and Shuffling (ALSS)モジュールを提案する。 このモジュールは、特徴抽出を最適化するために適応的なチャネル分割戦略を採用し、チャネル間の情報交換を強化するためのチャネルシャッフル機構を統合する。 これにより、ジッタによって引き起こされるぼやけや重なり合うターゲットを扱うのに不可欠な、ぼやけた特徴の抽出が改善される。 次に,アダプティブプーリングとグループ畳み込みを用いた軽量協調注意モジュールを開発し,各次元にまたがる特徴情報を統合した。 このモジュールは、ジッタとターゲットの重なりに対する高い検出精度と堅牢性を維持しつつ、軽量な操作を保証する。 さらに,各チャネルの幅と高さを4次元のチャネル融合に集約する単一チャネルフォーカスモジュールを開発し,赤外線画像の特徴表現効率を向上させる。 最後に、局所化損失関数を変更し、小さなオブジェクトに関連付けられた損失値を強調し、局所化精度を向上させる。 BIRDSAIとISOD TIR UAVの野生生物データセットに関する大規模な実験は、ALSS-YOLOが最先端のパフォーマンスを達成したことを示している。

Unmanned aerial vehicles (UAVs) equipped with thermal infrared (TIR) cameras play a crucial role in combating nocturnal wildlife poaching. However, TIR images often face challenges such as jitter, and wildlife overlap, necessitating UAVs to possess the capability to identify blurred and overlapping small targets. Current traditional lightweight networks deployed on UAVs struggle to extract features from blurry small targets. To address this issue, we developed ALSS-YOLO, an efficient and lightweight detector optimized for TIR aerial images. Firstly, we propose a novel Adaptive Lightweight Channel Split and Shuffling (ALSS) module. This module employs an adaptive channel split strategy to optimize feature extraction and integrates a channel shuffling mechanism to enhance information exchange between channels. This improves the extraction of blurry features, crucial for handling jitter-induced blur and overlapping targets. Secondly, we developed a Lightweight Coordinate Attention (LCA) module that employs adaptive pooling and grouped convolution to integrate feature information across dimensions. This module ensures lightweight operation while maintaining high detection precision and robustness against jitter and target overlap. Additionally, we developed a single-channel focus module to aggregate the width and height information of each channel into four-dimensional channel fusion, which improves the feature representation efficiency of infrared images. Finally, we modify the localization loss function to emphasize the loss value associated with small objects to improve localization accuracy. Extensive experiments on the BIRDSAI and ISOD TIR UAV wildlife datasets show that ALSS-YOLO achieves state-of-the-art performance, Our code is openly available at https://github.com/helloworlder8/computer_vision.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# ロバスト対話状態追跡のためのキーワード認識型ASR誤り増大

Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking ( http://arxiv.org/abs/2409.06263v1 )

ライセンス: Link先を確認
Jihyun Lee, Solee Im, Wonjun Lee, Gary Geunbae Lee, (参考訳) 対話状態追跡(DST)はタスク指向の対話システムにおいて重要な部分であり、会話における重要な情報を特定する。 しかし、その精度は、自動音声認識(ASR)システムから命名されたエンティティエラーにより、音声対話環境において著しく低下する。 DSTモデルのロバスト性を改善するために,これらのエンティティをターゲットとした,シンプルで効果的なデータ拡張手法を提案する。 提案手法は,音声的に類似した誤りを導入しながら,キーワードハイライトのプロンプトを用いて誤りの配置を制御できる。 その結果,提案手法はキーワードの誤りパターンを十分に生成し,雑音および低精度のASR環境における精度を向上させることができた。

Dialogue State Tracking (DST) is a key part of task-oriented dialogue systems, identifying important information in conversations. However, its accuracy drops significantly in spoken dialogue environments due to named entity errors from Automatic Speech Recognition (ASR) systems. We introduce a simple yet effective data augmentation method that targets those entities to improve the robustness of DST model. Our novel method can control the placement of errors using keyword-highlighted prompts while introducing phonetically similar errors. As a result, our method generated sufficient error patterns on keywords, leading to improved accuracy in noised and low-accuracy ASR environments.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# オンライン学習欠陥予測におけるテスト戦略がオンライン最適化に及ぼす影響に関する実証的研究

An Empirical Study of the Impact of Test Strategies on Online Optimization for Ensemble-Learning Defect Prediction ( http://arxiv.org/abs/2409.06264v1 )

ライセンス: Link先を確認
Kensei Hamamoto, Masateru Tsunoda, Amjed Tahir, Kwabena Ebo Bennin, Akito Monden, Koji Toda, Keitaro Nakasai, Kenichi Matsumoto, (参考訳) 組立学習法は欠陥予測モデルの信頼性を高めるために用いられている。 しかし、様々なソフトウェアプロジェクトの中で最も精度の高い1つの方法には、決定的な安定性がある。 本研究は,最も高精度なアンサンブル手法の選択を支援することで,これらのプロジェクト間のアンサンブル学習欠陥予測の性能を向上させることを目的とする。 我々は,最高精度アンサンブル法を選択するために,オンライン最適化手法であるBanditアルゴリズム(BA)を用いる。 各ソフトウェアモジュールを逐次テストし、各モジュールのテスト結果を利用してアンサンブル学習手法の性能を評価する。 その後のテスト戦略は、オンライン最適化を適用する際のテストの取り組みと予測精度に影響を与える可能性がある。 そこで,テストオーダーがBAの性能に与える影響を解析した。 実験では,6つの一般的な欠陥予測データセット,バッグングのような4つのアンサンブル学習手法,および正の予測モジュールを最初にテストする(PF)3つのテスト戦略を用いた。 その結果, BAをPFに適用した場合, 予測精度は平均で向上し, 6つのデータセットのうち少なくとも5つのデータセットにおいて, 検出された欠陥数は7%増加した(ただし, 通常のアンサンブル学習では4%程度, テストの労力はわずかに増加した)。 したがって、PF戦略を持つBAは、様々なプロジェクトにおけるアンサンブル手法を用いて、最も高い予測精度を達成するのに最も効果的である。

Ensemble learning methods have been used to enhance the reliability of defect prediction models. However, there is an inconclusive stability of a single method attaining the highest accuracy among various software projects. This work aims to improve the performance of ensemble-learning defect prediction among such projects by helping select the highest accuracy ensemble methods. We employ bandit algorithms (BA), an online optimization method, to select the highest-accuracy ensemble method. Each software module is tested sequentially, and bandit algorithms utilize the test outcomes of the modules to evaluate the performance of the ensemble learning methods. The test strategy followed might impact the testing effort and prediction accuracy when applying online optimization. Hence, we analyzed the test order's influence on BA's performance. In our experiment, we used six popular defect prediction datasets, four ensemble learning methods such as bagging, and three test strategies such as testing positive-prediction modules first (PF). Our results show that when BA is applied with PF, the prediction accuracy improved on average, and the number of found defects increased by 7% on a minimum of five out of six datasets (although with a slight increase in the testing effort by about 4% from ordinal ensemble learning). Hence, BA with PF strategy is the most effective to attain the highest prediction accuracy using ensemble methods on various projects.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# Mahalanobis k-NN:ロバストポイントクラウド登録のための統計レンズ

Mahalanobis k-NN: A Statistical Lens for Robust Point-Cloud Registrations ( http://arxiv.org/abs/2409.06267v1 )

ライセンス: Link先を確認
Tejas Anvekar, Shivanand Venkanna Sheshappanavar, (参考訳) 本稿では,Mahalanobis k-NNについて述べる。これは,学習ベースポイントクラウド登録における特徴マッチングの課題に対処するために設計された統計レンズである。 本稿では,マハラノビスk-NNの固有特性を用いて局所近傍の分布と表面形状を捉える。 本手法は任意の局所グラフベースの点雲解析手法にシームレスに統合できる。 本稿では,Deep Closest Point (DCP) とDeep Universal Manifold Embedding (DeepUME) の2つの異なる手法に焦点を当てる。 ModelNet40とFaustデータセットの広範なベンチマークでは、ポイントクラウド登録タスクにおける提案手法の有効性を強調した。 さらに、ポイントクラウドの登録によって得られた特徴が本質的に識別能力を持つことができることを初めて確立した。 これは、ModelNet40とScanObjectNNでベンチマークされたポイントクラウドのいくつかのショット分類タスクで観測された平均精度が約20倍に改善されたことで明らかである。 コードはhttps://github.com/TejasAnvekar/Mahalanobis-k-NNで公開されている。

In this paper, we discuss Mahalanobis k-NN: a statistical lens designed to address the challenges of feature matching in learning-based point cloud registration when confronted with an arbitrary density of point clouds, either in the source or target point cloud. We tackle this by adopting Mahalanobis k-NN's inherent property to capture the distribution of the local neighborhood and surficial geometry. Our method can be seamlessly integrated into any local-graph-based point cloud analysis method. In this paper, we focus on two distinct methodologies: Deep Closest Point (DCP) and Deep Universal Manifold Embedding (DeepUME). Our extensive benchmarking on the ModelNet40 and Faust datasets highlights the efficacy of the proposed method in point cloud registration tasks. Moreover, we establish for the first time that the features acquired through point cloud registration inherently can possess discriminative capabilities. This is evident by a substantial improvement of about 20\% in the average accuracy observed in the point cloud few-shot classification task benchmarked on ModelNet40 and ScanObjectNN. The code is publicly available at https://github.com/TejasAnvekar/Mahalanobis-k-NN
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# Banditアルゴリズムのフォールトローカライゼーションへの応用について

On Applying Bandit Algorithm to Fault Localization Techniques ( http://arxiv.org/abs/2409.06268v1 )

ライセンス: Link先を確認
Masato Nakao, Kensei Hamamoto, Masateru Tsunoda, Amjed Tahir, Koji Toda, Akito Monden, Keitaro Nakasai, Kenichi Matsumoto, (参考訳) 開発者は利用可能なものから高性能なフォールトローカライゼーション(FL)テクニックを選択する必要がある。 従来の手法では,デバッグ動作前に高い性能を期待できるFLテクニックを1つだけ選択する。 対照的に,デバッグ時のFL手法を動的に選択する手法を提案する。

Developers must select a high-performance fault localization (FL) technique from available ones. A conventional approach is to try to select only one FL technique that is expected to attain high performance before debugging activity. In contrast, we propose a new approach that dynamically selects better FL techniques during debugging activity.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# ロバスト不確実性を考慮した不完全なマルチビュー分類を目指して

Towards Robust Uncertainty-Aware Incomplete Multi-View Classification ( http://arxiv.org/abs/2409.06270v1 )

ライセンス: Link先を確認
Mulin Chen, Haojian Huang, Qiang Li, (参考訳) 多視点分類における不完全データの扱いは、特に従来の計算手法が不確実性推定を損なうバイアスを導入した場合、困難である。 既存のEvidential Deep Learning (EDL) ベースのアプローチはこれらの問題に対処しようとするが、Dempster-Shaferの組み合わせルールの制限により、しばしば矛盾する証拠に悩まされ、信頼性の低い決定に繋がる。 これらの課題に対処するために、不完全なMVCシナリオにおけるEDLベースのメソッドを強化するために特別に設計されたAlternating Progressive Learning Network (APLN)を提案する。 我々のアプローチは、まず粗い計算を適用し、次にデータを潜在空間にマッピングすることで、破損した観測データからのバイアスを緩和する。 この潜伏空間では、段階的に対象領域と整合した証拠分布を学習し、EDLを通して不確実性を考慮した。 さらに,矛盾する証拠をよりよく扱えるように,コンフリクト対応のDempster-Shaferコンビネーションルール(DSCR)を導入する。 学習した分布から抽出することにより、不足するビューの潜在表現を最適化し、バイアスを低減し、意思決定の堅牢性を高める。 大規模な実験により、APLNはDSCRと組み合わせて従来の手法、特に高い不確実性と矛盾する証拠を特徴とする環境において著しく優れていることが示され、不完全なマルチビュー分類のための有望な解決策として確立された。

Handling incomplete data in multi-view classification is challenging, especially when traditional imputation methods introduce biases that compromise uncertainty estimation. Existing Evidential Deep Learning (EDL) based approaches attempt to address these issues, but they often struggle with conflicting evidence due to the limitations of the Dempster-Shafer combination rule, leading to unreliable decisions. To address these challenges, we propose the Alternating Progressive Learning Network (APLN), specifically designed to enhance EDL-based methods in incomplete MVC scenarios. Our approach mitigates bias from corrupted observed data by first applying coarse imputation, followed by mapping the data to a latent space. In this latent space, we progressively learn an evidence distribution aligned with the target domain, incorporating uncertainty considerations through EDL. Additionally, we introduce a conflict-aware Dempster-Shafer combination rule (DSCR) to better handle conflicting evidence. By sampling from the learned distribution, we optimize the latent representations of missing views, reducing bias and enhancing decision-making robustness. Extensive experiments demonstrate that APLN, combined with DSCR, significantly outperforms traditional methods, particularly in environments characterized by high uncertainty and conflicting evidence, establishing it as a promising solution for incomplete multi-view classification.
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# グローバル感度分析のための新しいパラダイム

A new paradigm for global sensitivity analysis ( http://arxiv.org/abs/2409.06271v1 )

ライセンス: Link先を確認
Gildas Mazo, (参考訳) ランダム出力の非線形機能的ANOVA分解に基づく大域感度解析のCurrent理論は、スコープにおいて制限されており、例えば、分析は出力の分散に制限されており、入力は相互独立でなければならない。 あるいは、任意のユーザ定義の重要度尺度のために構築された感度指標も提案されているが、体系的な方法で相互作用を定義したり、合計重要度尺度の分解を確立する理論はいまだに欠落している。 これらの重要な問題は,新しいパラダイムを採用することで,一度に解決できることが示されている。 入力を出力の変化の原因となるものとしないものとに分割することにより、任意のユーザ定義の変動度尺度を2段階の因子実験の結果と同定し、機能的分解を仮定せずにすべての因子的効果をもたらす。 文献の様々なよく知られた感度指標(ソボ指標とシェープ効果)をリンクするために、重み付けされた因子効果を研究、利用した。 </p></div。

<div><p>Current theory of global sensitivity analysis, based on a nonlinear functional ANOVA decomposition of the random output, is limited in scope-for instance, the analysis is limited to the output's variance and the inputs have to be mutually independent-and leads to sensitivity indices the interpretation of which is not fully clear, especially interaction effects. Alternatively, sensitivity indices built for arbitrary user-defined importance measures have been proposed but a theory to define interactions in a systematic fashion and/or establish a decomposition of the total importance measure is still missing. It is shown that these important problems are solved all at once by adopting a new paradigm. By partitioning the inputs into those causing the change in the output and those which do not, arbitrary user-defined variability measures are identified with the outcomes of a factorial experiment at two levels, leading to all factorial effects without assuming any functional decomposition. To link various well-known sensitivity indices of the literature (Sobol indices and Shapley effects), weighted factorial effects are studied and utilized.</p></div>
翻訳日:2024-09-11 18:50:07 公開日:2024-09-10
# Ferret: 大規模言語モデルのための大規模フルパラメータチューニング

Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models ( http://arxiv.org/abs/2409.06277v1 )

ライセンス: Link先を確認
Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu, (参考訳) 大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。 残念ながら、これらのモデルを大規模に微調整する、特にデータプライバシと通信効率が重要なフェデレーション環境では、大きな課題が浮かび上がっています。 既存の手法では、通信オーバーヘッドを軽減するためにパラメータ効率の良い微調整(PEFT)を用いることが多いが、これは典型的にはモデル精度のコストがかかる。 これらの制約に対処するため、分散データソース間のLLMのスケーラブルなフルパラメータチューニングを実現するために、LLM(Ferret)のスケールでのフェデレーションフルパラメータチューニング(Ferret)を提案する。 フェレットは,(1)効率的な局所的な更新のために広く応用された一階法,(2)コミュニケーションオーバーヘッドを著しく低減するためにこれらの更新を低次元空間に投影し,(3)この低次元空間からの局所的な更新を共有ランダム性で再構築し,効率的な全緯度グローバルアグリゲーションを促進し,迅速な収束と競争的な最終性能を確保する。 我々の厳密な理論的分析と知見は、フェレットが競争モデルの精度を維持しつつ、高い計算効率、通信オーバーヘッドの低減、高速収束を達成し、既存のフェデレーションフルパラメータチューニング手法のスケーラビリティを著しく向上させることを示した。 私たちの実装はhttps://github.com/allen4747/Ferret.comで公開されています。

Large Language Models (LLMs) have become indispensable in numerous real-world applications. Unfortunately, fine-tuning these models at scale, especially in federated settings where data privacy and communication efficiency are critical, presents significant challenges. Existing methods often resort to parameter-efficient fine-tuning (PEFT) to mitigate communication overhead, but this typically comes at the cost of model accuracy. To address these limitations, we propose federated full-parameter tuning at scale for LLMs (Ferret), the first first-order method with shared randomness to enable scalable full-parameter tuning of LLMs across decentralized data sources while maintaining competitive model accuracy. Ferret accomplishes this through three aspects: (1) it employs widely applied first-order methods for efficient local updates; (2) it projects these updates into a low-dimensional space to considerably reduce communication overhead; and (3) it reconstructs local updates from this low-dimensional space with shared randomness to facilitate effective full-parameter global aggregation, ensuring fast convergence and competitive final performance. Our rigorous theoretical analyses and insights along with extensive experiments, show that Ferret significantly enhances the scalability of existing federated full-parameter tuning approaches by achieving high computational efficiency, reduced communication overhead, and fast convergence, all while maintaining competitive model accuracy. Our implementation is available at https://github.com/allen4747/Ferret.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# Catch me if you can: Detecting Unauthorized Data Use in Deep Learning Models

Catch Me if You Can: Detecting Unauthorized Data Use in Deep Learning Models ( http://arxiv.org/abs/2409.06280v1 )

ライセンス: Link先を確認
Zitao Chen, Karthik Pattabiraman, (参考訳) 深層学習(DL)の台頭により、学習データに対する需要が急増し、DLモデルの作成者がインターネットを旅して教材を訓練するインセンティブがもたらされた。 一方、ユーザーは、自分のデータ(例えば、顔画像)が、同意なしにDLモデルを訓練するために使用されるかどうかを限定的にコントロールすることが多い。 本研究は,一般ユーザに対して,DLモデルのトレーニングにおいて,データの不正使用を検知する権限を付与する,実践的なデータ証明ツールである MembershipTracker を提案する。 我々は、メンバーシップ推論(MI)のレンズを通して、追跡データの出所を見ることができる。 MembershipTrackerは、ターゲットデータを小さく、ターゲットとする変更でマークする軽量なデータマーキングコンポーネントで構成され、トレーニングしたモデルによって強く記憶される。 全体として、CommanshipTrackerは、少数のデータ(トレーニングセットに比して0.005%から0.1%)をマークするだけでよい。 MembershipTrackerは、フルサイズのImageNet-1kデータセットの業界規模のトレーニングなど、さまざまな設定で非常に効果的であることを示す。 最終的に、複数の対策のクラスでCommanshipTrackerを評価した。

The rise of deep learning (DL) has led to a surging demand for training data, which incentivizes the creators of DL models to trawl through the Internet for training materials. Meanwhile, users often have limited control over whether their data (e.g., facial images) are used to train DL models without their consent, which has engendered pressing concerns. This work proposes MembershipTracker, a practical data provenance tool that can empower ordinary users to take agency in detecting the unauthorized use of their data in training DL models. We view tracing data provenance through the lens of membership inference (MI). MembershipTracker consists of a lightweight data marking component to mark the target data with small and targeted changes, which can be strongly memorized by the model trained on them; and a specialized MI-based verification process to audit whether the model exhibits strong memorization on the target samples. Overall, MembershipTracker only requires the users to mark a small fraction of data (0.005% to 0.1% in proportion to the training set), and it enables the users to reliably detect the unauthorized use of their data (average 0% FPR@100% TPR). We show that MembershipTracker is highly effective across various settings, including industry-scale training on the full-size ImageNet-1k dataset. We finally evaluate MembershipTracker under multiple classes of countermeasures.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 時系列予測のためのモデル動物園からの学習増強策

Learning Augmentation Policies from A Model Zoo for Time Series Forecasting ( http://arxiv.org/abs/2409.06282v1 )

ライセンス: Link先を確認
Haochen Yuan, Xuelin Li, Yunbo Wang, Xiaokang Yang, (参考訳) 時系列予測モデルは、通常、固定サイズのトレーニングセットに依存し、すべてのデータを均一に扱う。 この問題に対処するために,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。 私たちのアプローチは、トレーニングデータのどの部分を拡張すべきかを決定するための経験的分析から始まります。 具体的には,事前学習した予測モデル間の予測の多様性を考慮し,いわゆる辺縁標本を同定する。 次に、変動マスク付きオートエンコーダを拡張モデルとして使用し、ReINFORCEアルゴリズムを用いて、限界サンプルを新しいデータに変換することを提案する。 この生成モデルの目標は、実際のデータの分布を模倣するだけでなく、モデル動物園全体の予測誤差のばらつきを低減することである。 学習可能なポリシで限界サンプルを拡大することにより、AutoTSAugは予測性能を大幅に向上し、この分野での先行技術は最小限の計算コストで進歩する。

Time series forecasting models typically rely on a fixed-size training set and treat all data uniformly, which may not effectively capture the specific patterns present in more challenging training samples. To address this issue, we introduce AutoTSAug, a learnable data augmentation method based on reinforcement learning. Our approach begins with an empirical analysis to determine which parts of the training data should be augmented. Specifically, we identify the so-called marginal samples by considering the prediction diversity across a set of pretrained forecasting models. Next, we propose using variational masked autoencoders as the augmentation model and applying the REINFORCE algorithm to transform the marginal samples into new data. The goal of this generative model is not only to mimic the distribution of real data but also to reduce the variance of prediction errors across the model zoo. By augmenting the marginal samples with a learnable policy, AutoTSAug substantially improves forecasting performance, advancing the prior art in this field with minimal additional computational cost.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# Unified Unsupervised Anomaly Detection におけるコンテクスト強化と再構成

Context Enhancement with Reconstruction as Sequence for Unified Unsupervised Anomaly Detection ( http://arxiv.org/abs/2409.06285v1 )

ライセンス: Link先を確認
Hui-Yue Yang, Hui Chen, Lihao Liu, Zijia Lin, Kai Chen, Liejun Wang, Jungong Han, Guiguang Ding, (参考訳) 非教師付き異常検出(AD)は、正常なサンプルのみを用いて堅牢な検出モデルを訓練することを目的としており、未知の異常に対してうまく一般化することができる。 最近の研究は、すべてのクラス、すなわちn-class-one-modelパラダイムに対して1つのモデルのみをトレーニングする、統一された教師なしAD設定に焦点を当てている。 特徴再構成に基づく手法は、このシナリオで最先端のパフォーマンスを達成する。 しかし、既存の手法は十分な文脈認識の欠如に悩まされ、再建の質を損なうことも多い。 この課題に対処するために、シーケンスモデリングの観点から特徴再構成時の文脈対応性を高める新しいRAS法を提案する。 特に、トランス技術に基づいて、特殊なRASFormerブロックをRASに統合する。 このブロックは、異なる画像領域間の空間的関係のキャプチャを可能にし、再構成プロセス全体を通してシーケンシャルな依存関係を高める。 RASFormerブロックを組み込むことで、当社のRAS手法は文脈認識能力に優れ、優れた性能を実現している。 実験の結果,RASは競合する手法よりも優れており,本手法の有効性と優越性は良好であることがわかった。 私たちのコードはhttps://github.com/Nothingtolose9979/RASで利用可能です。

Unsupervised anomaly detection (AD) aims to train robust detection models using only normal samples, while can generalize well to unseen anomalies. Recent research focuses on a unified unsupervised AD setting in which only one model is trained for all classes, i.e., n-class-one-model paradigm. Feature-reconstruction-based methods achieve state-of-the-art performance in this scenario. However, existing methods often suffer from a lack of sufficient contextual awareness, thereby compromising the quality of the reconstruction. To address this issue, we introduce a novel Reconstruction as Sequence (RAS) method, which enhances the contextual correspondence during feature reconstruction from a sequence modeling perspective. In particular, based on the transformer technique, we integrate a specialized RASFormer block into RAS. This block enables the capture of spatial relationships among different image regions and enhances sequential dependencies throughout the reconstruction process. By incorporating the RASFormer block, our RAS method achieves superior contextual awareness capabilities, leading to remarkable performance. Experimental results show that our RAS significantly outperforms competing methods, well demonstrating the effectiveness and superiority of our method. Our code is available at https://github.com/Nothingtolose9979/RAS.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 量子投資におけるLCMによるオートメイト戦略

Automate Strategy Finding with LLM in Quant investment ( http://arxiv.org/abs/2409.06289v1 )

ライセンス: Link先を確認
Zhizhuo Kou, Holam Yu, Jingshu Peng, Lei Chen, (参考訳) 金融取引におけるディープラーニングの大幅な進歩にもかかわらず、既存のモデルは不安定性と高い不確実性に直面し、その実践的応用を妨げている。 大規模言語モデル(LLM)とマルチエージェントアーキテクチャの進歩を活用し,ポートフォリオ管理とアルファマイニングの定量的ストック投資のための新しい枠組みを提案する。 本フレームワークは,LSMを多元化アルファを生成するために統合し,市場条件を動的に評価するためにマルチエージェントアプローチを採用することで,これらの問題に対処する。 本稿では,大規模言語モデル(LLM)がマルチモーダル財務データからアルファ因子を抽出し,市場ダイナミクスの包括的理解を確保する枠組みを提案する。 最初のモジュールは、数値データ、研究論文、視覚チャートを統合することで予測信号を抽出する。 第2のモジュールは、アンサンブル学習を使用して、さまざまなリスク嗜好を持つさまざまなトレーディングエージェントのプールを構築し、より広範な市場分析を通じて戦略パフォーマンスを向上させる。 第3のモジュールでは、動的重み付け機構がリアルタイム市場条件に基づいて最も関連性の高いエージェントを選択し、割り当て、適応的でコンテキスト対応の複合アルファ式を作成することができる。 中国株式市場での大規模な実験は、この枠組みが複数の金融指標で最先端のベースラインを大幅に上回っていることを示している。 その結果,LLM生成アルファとマルチエージェントアーキテクチャを組み合わせることにより,取引性能と安定性が向上した。 この研究は、量的投資戦略を強化するためのAI駆動アプローチの可能性を強調し、金融取引に先進的な機械学習技術を統合するための新しいベンチマークを、多様な市場にも適用することができる。

Despite significant progress in deep learning for financial trading, existing models often face instability and high uncertainty, hindering their practical application. Leveraging advancements in Large Language Models (LLMs) and multi-agent architectures, we propose a novel framework for quantitative stock investment in portfolio management and alpha mining. Our framework addresses these issues by integrating LLMs to generate diversified alphas and employing a multi-agent approach to dynamically evaluate market conditions. This paper proposes a framework where large language models (LLMs) mine alpha factors from multimodal financial data, ensuring a comprehensive understanding of market dynamics. The first module extracts predictive signals by integrating numerical data, research papers, and visual charts. The second module uses ensemble learning to construct a diverse pool of trading agents with varying risk preferences, enhancing strategy performance through a broader market analysis. In the third module, a dynamic weight-gating mechanism selects and assigns weights to the most relevant agents based on real-time market conditions, enabling the creation of an adaptive and context-aware composite alpha formula. Extensive experiments on the Chinese stock markets demonstrate that this framework significantly outperforms state-of-the-art baselines across multiple financial metrics. The results underscore the efficacy of combining LLM-generated alphas with a multi-agent architecture to achieve superior trading performance and stability. This work highlights the potential of AI-driven approaches in enhancing quantitative investment strategies and sets a new benchmark for integrating advanced machine learning techniques in financial trading can also be applied on diverse markets.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# EntAugment: 画像分類のためのエントロピー駆動適応データ拡張フレームワーク

EntAugment: Entropy-Driven Adaptive Data Augmentation Framework for Image Classification ( http://arxiv.org/abs/2409.06290v1 )

ライセンス: Link先を確認
Suorong Yang, Furao Shen, Jian Zhao, (参考訳) データ拡張(DA)は、ディープニューラルネットワークの一般化を改善するために広く利用されている。 既存のDA法は有効であることが証明されているが、各サンプルにランダムな大きさの拡張演算に依存することが多い。 しかし、このアプローチは必然的にノイズを導入し、分布シフトを誘導し、過度に適合するリスクを増大させる。 本稿では,チューニング不要かつ適応的なDAフレームワークであるEntAugmentを提案する。 以前の作業とは異なり、EntAugmentはトレーニング中の各サンプルの増大度を動的に評価し、調整し、トレーニングサンプルの本質的な複雑さと深層モデルの進化状況の両方に関する洞察を活用する。 具体的には、EntAugmentでは、モデルの出力にソフトマックス関数を適用した確率分布から得られる情報エントロピーによって、その大きさが決定される。 さらに,EntAugmentの有効性をさらに高めるために,EntAugmentアプローチを補完する新しいエントロピー正規化用語EntLossを導入する。 理論的解析により、EntLossは従来のクロスエントロピー損失と比較して、モデル分布と基礎となるデータセット分布との密接な整合性を実現することが示される。 さらに、EntAugmentとEntLossは別々または共同で使用できる。 我々は,既存のDA手法を徹底的に比較して,複数の画像分類タスクとネットワークアーキテクチャの広範な実験を行う。 重要なことに、提案手法は補助モデルや目立った計算コストを伴わずに他よりも優れており、有効性と効率性の両方を強調している。 コードはhttps://github.com/Jackbrocp/EntAugment.comで入手できる。

Data augmentation (DA) has been widely used to improve the generalization of deep neural networks. While existing DA methods have proven effective, they often rely on augmentation operations with random magnitudes to each sample. However, this approach can inadvertently introduce noise, induce distribution shifts, and increase the risk of overfitting. In this paper, we propose EntAugment, a tuning-free and adaptive DA framework. Unlike previous work, EntAugment dynamically assesses and adjusts the augmentation magnitudes for each sample during training, leveraging insights into both the inherent complexities of training samples and the evolving status of deep models. Specifically, in EntAugment, the magnitudes are determined by the information entropy derived from the probability distribution obtained by applying the softmax function to the model's output. In addition, to further enhance the efficacy of EntAugment, we introduce a novel entropy regularization term, EntLoss, which complements the EntAugment approach. Theoretical analysis further demonstrates that EntLoss, compared to traditional cross-entropy loss, achieves closer alignment between the model distributions and underlying dataset distributions. Moreover, EntAugment and EntLoss can be utilized separately or jointly. We conduct extensive experiments across multiple image classification tasks and network architectures with thorough comparisons of existing DA methods. Importantly, the proposed methods outperform others without introducing any auxiliary models or noticeable extra computational costs, highlighting both effectiveness and efficiency. Code is available at https://github.com/Jackbrocp/EntAugment.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 映画レコメンデーションのテンプレートに基づく説明と大規模言語モデルのユーザの嗜好:パイロット研究

User Preferences for Large Language Model versus Template-Based Explanations of Movie Recommendations: A Pilot Study ( http://arxiv.org/abs/2409.06297v1 )

ライセンス: Link先を確認
Julien Albert, Martin Balfroid, Miriam Doh, Jeremie Bogaert, Luca La Fisca, Liesbet De Vos, Bryan Renard, Vincent Stragier, Emmanuel Jean, (参考訳) オンラインショッピングからストリーミングプラットフォームに至るまで、リコメンダシステムは私たちのデジタル体験に不可欠なものになっています。 それでも、提案の背後にある理論的根拠は、ユーザにとって不透明なままであることが多い。 一部のシステムはグラフベースのアプローチを採用しており、推奨項目とシード項目を関連付ける経路を通じて固有の説明性を提供するが、専門家でない者はこれらの説明を容易に理解できなかった。 グラフベースの説明をテンプレートとアルゴリズムを使ってテキストに変換するのが一般的な方法であり、ここでは 'テンプレートベース' の説明と表現する。 しかし、これらは時々、非人格的、または意図的でないものとして見受けられる。 この目的のために、我々は'LLM-based'と表現する、大きな言語モデル(LLM)を採用する新しい手法を提案する。 LLMの有効性を評価するため,25名の被験者を対象に実験を行った。 1) 従来のテンプレートベース, (2) LLMベースのテンプレート出力の言い換え, (3) 純粋に LLM に基づく説明をグラフベースの説明から導いた。 高いばらつきはあるものの、予備的な知見は、LCMに基づく説明は、よりリッチで魅力的なユーザーエクスペリエンスを提供し、さらにユーザ期待に合致する可能性があることを示唆している。 本研究は、現在の説明手法の潜在的な限界に光を当て、ユーザ満足度の向上とレコメンダシステムへの信頼のために、大規模言語モデルを活用するための有望な方向性を提供する。

Recommender systems have become integral to our digital experiences, from online shopping to streaming platforms. Still, the rationale behind their suggestions often remains opaque to users. While some systems employ a graph-based approach, offering inherent explainability through paths associating recommended items and seed items, non-experts could not easily understand these explanations. A popular alternative is to convert graph-based explanations into textual ones using a template and an algorithm, which we denote here as ''template-based'' explanations. Yet, these can sometimes come across as impersonal or uninspiring. A novel method would be to employ large language models (LLMs) for this purpose, which we denote as ''LLM-based''. To assess the effectiveness of LLMs in generating more resonant explanations, we conducted a pilot study with 25 participants. They were presented with three explanations: (1) traditional template-based, (2) LLM-based rephrasing of the template output, and (3) purely LLM-based explanations derived from the graph-based explanations. Although subject to high variance, preliminary findings suggest that LLM-based explanations may provide a richer and more engaging user experience, further aligning with user expectations. This study sheds light on the potential limitations of current explanation methods and offers promising directions for leveraging large language models to improve user satisfaction and trust in recommender systems.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 階層型イベントベースメモリによるロングビデオ理解の強化

Enhancing Long Video Understanding via Hierarchical Event-Based Memory ( http://arxiv.org/abs/2409.06299v1 )

ライセンス: Link先を確認
Dingxin Cheng, Mingda Li, Jingyu Liu, Yongxin Guo, Bin Jiang, Qingbin Liu, Xi Chen, Bo Zhao, (参考訳) 近年,映像理解システムの構築に視覚基礎モデルを大型言語モデル(LLM)に統合する動きが注目されている。 既存のモデルのほとんどは、ビデオ全体の中で多様な意味情報を圧縮し、コンテンツ理解のためにLLMにフィードする。 この手法は、短いビデオ理解において優れているが、粗い圧縮により複数のイベント情報が長いビデオに混ざり合った結果、情報の冗長性が生じる可能性がある。 その結果、重要なイベントの意味は、モデルの理解能力を妨げる膨大な情報の中に隠蔽される可能性がある。 この問題に対処するため,階層型イベントベースメモリ拡張LDM (HEM-LLM) を提案する。 まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。 このようにして、各イベントの個別メモリモデリングを行い、イベント内コンテキスト接続を確立することにより、情報の冗長性を低減できる。 第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。 最後に,様々な映像理解タスクについて広範な実験を行い,その結果から,我々のモデルが最先端のパフォーマンスを達成することを示す。

Recently, integrating visual foundation models into large language models (LLMs) to form video understanding systems has attracted widespread attention. Most of the existing models compress diverse semantic information within the whole video and feed it into LLMs for content comprehension. While this method excels in short video understanding, it may result in a blend of multiple event information in long videos due to coarse compression, which causes information redundancy. Consequently, the semantics of key events might be obscured within the vast information that hinders the model's understanding capabilities. To address this issue, we propose a Hierarchical Event-based Memory-enhanced LLM (HEM-LLM) for better understanding of long videos. Firstly, we design a novel adaptive sequence segmentation scheme to divide multiple events within long videos. In this way, we can perform individual memory modeling for each event to establish intra-event contextual connections, thereby reducing information redundancy. Secondly, while modeling current event, we compress and inject the information of the previous event to enhance the long-term inter-event dependencies in videos. Finally, we perform extensive experiments on various video understanding tasks and the results show that our model achieves state-of-the-art performances.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# A Attribute-Enriched DatasetとAuto Annotated Pipeline for Open Detection

An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open Detection ( http://arxiv.org/abs/2409.06300v1 )

ライセンス: Link先を確認
Pengfei Qi, Yifei Zhang, Wenqiang Li, Youwen Hu, Kunlong Bai, (参考訳) 言語を通して関心のあるオブジェクトを検出することは、特に、自動モデルと人間のアノテーションの間に知覚上の相違があるため、記述するのが一般的で複雑なオブジェクトに対して、しばしば課題を提起する。 これらの課題は、詳細な属性記述を組み込むことで、標準オブジェクトラベルを超える包括的なデータセットの必要性を強調している。 このニーズに対処するために、既存のObjects365データセットの拡張であるObjects365-Attrデータセットを紹介します。 このデータセットは、色、材料、状態、テクスチャ、トーンを含む幅広い属性のスペクトルを統合することで、オブジェクト検出の不整合を低減する。 5.6Mのオブジェクトレベルの属性記述の広範なコレクションが含まれており、1.4Mのバウンディングボックスに細心の注意を払って注釈付けされている。 さらに、データセットの有効性を検証するために、YOLO-Worldをさまざまなスケールで厳密な評価を行い、その検出性能を測定し、オブジェクト検出の進歩に対するデータセットの貢献を実証する。

Detecting objects of interest through language often presents challenges, particularly with objects that are uncommon or complex to describe, due to perceptual discrepancies between automated models and human annotators. These challenges highlight the need for comprehensive datasets that go beyond standard object labels by incorporating detailed attribute descriptions. To address this need, we introduce the Objects365-Attr dataset, an extension of the existing Objects365 dataset, distinguished by its attribute annotations. This dataset reduces inconsistencies in object detection by integrating a broad spectrum of attributes, including color, material, state, texture and tone. It contains an extensive collection of 5.6M object-level attribute descriptions, meticulously annotated across 1.4M bounding boxes. Additionally, to validate the dataset's effectiveness, we conduct a rigorous evaluation of YOLO-World at different scales, measuring their detection performance and demonstrating the dataset's contribution to advancing object detection.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 分割ネットワーク空間の幾何学:統一理論と計算の枠組み

Geometry of the Space of Partitioned Networks: A Unified Theoretical and Computational Framework ( http://arxiv.org/abs/2409.06302v1 )

ライセンス: Link先を確認
Stephen Y Zhang, Fangfei Lan, Youjia Zhou, Agnese Barbensi, Michael P H Stumpf, Bei Wang, Tom Needham, (参考訳) オブジェクト間の相互作用と関係性は、自然界においてペアワイズまたは高次のものになりうるので、ネットワーク価値のデータは現実の世界においてユビキタスである。 しかし「ネットワークの空間」は、従来の統計ツールでは適切に説明できない複雑な構造を持つ。 本稿では,グラフやハイパーグラフ,あるいはノードが分類クラスに分割されたグラフなどの一般化されたネットワーク構造をモデル化するための測度理論形式について紹介する。 次に,グラフ間のGromov-Wasserstein距離とハイパーグラフ間の共最適輸送距離を拡大する計量を提案する。 この空間の幾何学を特徴付けることにより、ペアワイドの場合を含む一般化されたネットワークの統一的な理論的処理と高次関係を提供する。 特に、我々の計量は非負曲率のアレクサンドロフ空間であることを示し、この構造を利用して、幾何データ解析タスクで一般的に生じる特定の関数の勾配を定義する。 我々は、頂点にラベル情報が追加されるような設定まで分析を拡張し、実際に使用する効率的な計算スキームを導出する。 これらの理論および計算ツールを具備し、ハイパーグラフアライメント、クラスタリング、アンサンブルデータからの辞書学習、マルチオミクスアライメント、マルチスケールネットワークアライメントなどの一連のアプリケーションにおいて、我々のフレームワークの有用性を実証する。

Interactions and relations between objects may be pairwise or higher-order in nature, and so network-valued data are ubiquitous in the real world. The "space of networks", however, has a complex structure that cannot be adequately described using conventional statistical tools. We introduce a measure-theoretic formalism for modeling generalized network structures such as graphs, hypergraphs, or graphs whose nodes come with a partition into categorical classes. We then propose a metric that extends the Gromov-Wasserstein distance between graphs and the co-optimal transport distance between hypergraphs. We characterize the geometry of this space, thereby providing a unified theoretical treatment of generalized networks that encompasses the cases of pairwise, as well as higher-order, relations. In particular, we show that our metric is an Alexandrov space of non-negative curvature, and leverage this structure to define gradients for certain functionals commonly arising in geometric data analysis tasks. We extend our analysis to the setting where vertices have additional label information, and derive efficient computational schemes to use in practice. Equipped with these theoretical and computational tools, we demonstrate the utility of our framework in a suite of applications, including hypergraph alignment, clustering and dictionary learning from ensemble data, multi-omics alignment, as well as multiscale network alignment.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 基礎モデルを用いた高性能Few-Shotセグメンテーション : 実証的研究

High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study ( http://arxiv.org/abs/2409.06305v1 )

ライセンス: Link先を確認
Shijie Chang, Lihe Zhang, Huchuan Lu, (参考訳) 既存の数ショットセグメンテーション(FSS)手法は主に、トレーニング済みのバックボーンにおける暗黙の知識を活用するための新しいサポートクエリマッチングと自己マッチング機構の設計に焦点を当てている。 しかし、これらの手法の性能は、しばしば分類タスクで事前訓練されたモデルによって制約される。 事前訓練されたモデルの種類を調べることで、FSSに対してより有益な暗黙の知識を提供することができる。 本稿では,基礎的コンピュータビジョンモデルの表現一貫性に着想を得て,基礎モデルに基づくFSSフレームワークを開発する。 具体的には、基礎モデルから暗黙的な知識を抽出して粗い対応を構築するための簡単なアプローチを提案し、細かなセグメンテーションのために粗い対応を洗練するための軽量デコーダを提案する。 本研究では, FSS 上での各種基礎モデルの性能を体系的に要約し, これらのモデル内の暗黙的知識は, 分類タスクで事前訓練されたモデルよりも, FSS にとって有益であることを示す。 2つの広く使われているデータセットに対する大規模な実験は、基礎モデルの暗黙的な知識を活用する上で、我々のアプローチの有効性を実証している。 特に、DINOv2とDFNの組み合わせはCOCO-20iで従来の最先端の手法を17.5%上回っている。 コードはhttps://github.com/DUT-CSJ/FoundationFSSで入手できる。

Existing few-shot segmentation (FSS) methods mainly focus on designing novel support-query matching and self-matching mechanisms to exploit implicit knowledge in pre-trained backbones. However, the performance of these methods is often constrained by models pre-trained on classification tasks. The exploration of what types of pre-trained models can provide more beneficial implicit knowledge for FSS remains limited. In this paper, inspired by the representation consistency of foundational computer vision models, we develop a FSS framework based on foundation models. To be specific, we propose a simple approach to extract implicit knowledge from foundation models to construct coarse correspondence and introduce a lightweight decoder to refine coarse correspondence for fine-grained segmentation. We systematically summarize the performance of various foundation models on FSS and discover that the implicit knowledge within some of these models is more beneficial for FSS than models pre-trained on classification tasks. Extensive experiments on two widely used datasets demonstrate the effectiveness of our approach in leveraging the implicit knowledge of foundation models. Notably, the combination of DINOv2 and DFN exceeds previous state-of-the-art methods by 17.5% on COCO-20i. Code is available at https://github.com/DUT-CSJ/FoundationFSS.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# 和音合成のためのエンドツーエンドアプローチ

An End-to-End Approach for Chord-Conditioned Song Generation ( http://arxiv.org/abs/2409.06307v1 )

ライセンス: Link先を確認
Shuochen Gao, Shun Lei, Fan Zhuo, Hangyu Liu, Feng Liu, Boshi Tang, Qiaochu Huang, Shiyin Kang, Zhiyong Wu, (参考訳) 歌生成課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。 既存の手法であるJukeboxは、この課題を探求しているが、世代に対する制約のある制御は、しばしば音楽演奏の欠如につながる。 この問題を緩和するため,曲生成ネットワークにおいて,曲構成,すなわち和音から重要な概念を導入する。 和音は伴奏の基礎を形成し、関連する調和を伴う声の旋律を提供する。 自動コード抽出器の不正確さを考慮し、動的重み付けを付加した頑健なクロスアテンション機構を考案し、抽出したコード情報を歌の生成とフレームレベルの欠陥を低減し、それに基づく新しいモデルであるコードコンディション・ソングジェネレータ(CSG)を提案する。 実験的な証拠は,提案手法が曲の演奏性や制御精度において他の手法よりも優れていることを示している。

The Song Generation task aims to synthesize music composed of vocals and accompaniment from given lyrics. While the existing method, Jukebox, has explored this task, its constrained control over the generations often leads to deficiency in music performance. To mitigate the issue, we introduce an important concept from music composition, namely chords, to song generation networks. Chords form the foundation of accompaniment and provide vocal melody with associated harmony. Given the inaccuracy of automatic chord extractors, we devise a robust cross-attention mechanism augmented with dynamic weight sequence to integrate extracted chord information into song generations and reduce frame-level flaws, and propose a novel model termed Chord-Conditioned Song Generator (CSG) based on it. Experimental evidence demonstrates our proposed method outperforms other approaches in terms of musical performance and control precision of generated songs.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# PPMamba:リモートセンシング画像セマンティックセマンティックセグメンテーションのための局所SSMモデル

PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2409.06309v1 )

ライセンス: Link先を確認
Yin Hu, Xianping Ma, Jialu Sui, Man-On Pun, (参考訳) セマンティックセグメンテーションはリモートセンシング(RS)分野において重要な課題である。 しかし、従来の畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのモデルは、長距離依存をキャプチャする際の制限に直面している。 近年,Mambaと呼ばれる先進状態空間モデル(SSM)が導入された。 これらの利点にもかかわらず、Mambaベースの手法は、局所的な意味情報を保存する上での課題に直面する。 本稿では,これらの課題に対処するために,CNN と Mamba を統合した RS セマンティックセグメンテーションタスクのための新しいネットワークである Pyramid Pooling Mamba (PPMamba) を提案する。 ピラミッドプール状態空間モデル(PP-SSM)ブロックであるPPMambaの中核構造は、局所的な補助機構と、全方位状態空間モデル(OSS)を組み合わせて、8方向から特徴マップを選択的にスキャンし、包括的な特徴情報をキャプチャする。 さらに補助機構には、複数のスケールで特徴を引き出すように設計されたピラミッド形の畳み込み枝が含まれる。 ISPRS VaihingenとLoveDA Urbanの2つの広く使われているデータセットに対する大規模な実験は、PPMambaが最先端のモデルと比較して競争力を発揮することを示した。

Semantic segmentation is a vital task in the field of remote sensing (RS). However, conventional convolutional neural network (CNN) and transformer-based models face limitations in capturing long-range dependencies or are often computationally intensive. Recently, an advanced state space model (SSM), namely Mamba, was introduced, offering linear computational complexity while effectively establishing long-distance dependencies. Despite their advantages, Mamba-based methods encounter challenges in preserving local semantic information. To cope with these challenges, this paper proposes a novel network called Pyramid Pooling Mamba (PPMamba), which integrates CNN and Mamba for RS semantic segmentation tasks. The core structure of PPMamba, the Pyramid Pooling-State Space Model (PP-SSM) block, combines a local auxiliary mechanism with an omnidirectional state space model (OSS) that selectively scans feature maps from eight directions, capturing comprehensive feature information. Additionally, the auxiliary mechanism includes pyramid-shaped convolutional branches designed to extract features at multiple scales. Extensive experiments on two widely-used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate that PPMamba achieves competitive performance compared to state-of-the-art models.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# ノイズ量子ダイナミクスと測定誘起相転移

Noisy Quantum Dynamics and Measurement Induced Phase Transitions ( http://arxiv.org/abs/2409.06310v1 )

ライセンス: Link先を確認
Alexios Christopoulos, Alessandro Santini, Guido Giachetti, (参考訳) 本稿では、量子系における測定誘起相転移(MIPT)の文脈における最近の知見を包括的に分析し、特に1次元のモデル系としてのハイブリッド量子回路に焦点をあてる。 解析の結果, 射影率の変動が相転移を誘発し, 絡み合い特性の急激な変化をもたらすことが明らかとなった。 古典的統計モデルへのマッピングと複製場理論の応用を通して、単体進化と測定過程の相互作用を考察する。 低絡み合い状態から、システムの一部に異なる二分性絡み合いエントロピーのダイナミクスを特徴とする3つの状態を特定する: 急激な絡み合い飽和(エリア法)につながるハイレート測定、線形絡み合い成長を可能にするローレート測定(ボリューム法まで)、絡み合いが対数的に増加する臨界速度。 相補的な主題として,友長・ラッティンガー液中における臨界基底状態の場理論を検証し,局所測定の非局所的効果について検討する。

We provide a comprehensive analysis of recent results in the context of measurement-induced phase transitions (MIPT) in quantum systems, with a particular focus on hybrid quantum circuits as a model system in one dimension. Our analysis shows how varying the rate of projective measurements can induce phase transitions, resulting in abrupt changes in the properties of the entanglement. Through mappings to classical statistical models and the application of replica field theory techniques, we investigate the interplay between unitary evolution and measurement processes. Starting from a low entangled state, we identify three regimes characterized by different dynamics of bipartite entanglement entropies for a portion of the system: high-rate measurements leading to rapid entanglement saturation (area law), low-rate measurements allowing linear entanglement growth (up to volume law), and a critical rate at which entanglement grows logarithmically. As a complementary subject, we explore the non-local effects of local measurements by examining the field theory of critical ground states in Tomonaga-Luttinger liquids.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# CNNの機能ポーリングとしてのシーム彫刻

Seam Carving as Feature Pooling in CNN ( http://arxiv.org/abs/2409.06311v1 )

ライセンス: Link先を確認
Mohammad Imrul Jubair, (参考訳) 本研究では,画像分類作業における畳み込みニューラルネットワーク(CNN)の機能プーリング手法としてのシーム彫刻の可能性について検討する。 従来の最大プール層をシーム彫刻操作に置き換えることを提案する。 筆者らはCaltech-UCSD Birds 200-2011データセットを用いて, 精度, 精度, リコール, F1スコアなどの指標に基づいて, 最大プーリングを利用したモデルと比較して, シーム彫刻に基づくCNNの方が優れた性能が得られることを示した。 さらに特徴地図の可視化により, 両手法の挙動を解析し, シーム彫刻は, プールの過程で, より構造的な情報を保存できる可能性が示唆された。 さらに,本手法の限界について考察し,今後の研究の方向性を提案する。

This work investigates the potential of seam carving as a feature pooling technique within Convolutional Neural Networks (CNNs) for image classification tasks. We propose replacing the traditional max pooling layer with a seam carving operation. Our experiments on the Caltech-UCSD Birds 200-2011 dataset demonstrate that the seam carving-based CNN achieves better performance compared to the model utilizing max pooling, based on metrics such as accuracy, precision, recall, and F1-score. We further analyze the behavior of both approaches through feature map visualizations, suggesting that seam carving might preserve more structural information during the pooling process. Additionally, we discuss the limitations of our approach and propose potential future directions for research.
翻訳日:2024-09-11 18:40:09 公開日:2024-09-10
# ゲルマニウム原子価多ビットノードにおける長寿命核記憶スピンのコヒーレント制御

Coherent Control of a Long-Lived Nuclear Memory Spin in a Germanium-Vacancy Multi-Qubit Node ( http://arxiv.org/abs/2409.06313v1 )

ライセンス: Link先を確認
Nick Grimm, Katharina Senkalla, Philipp J. Vetter, Jurek Frey, Prithvi Gundlapalli, Tommaso Calarco, Genko Genov, Matthias M. Müller, Fedor Jelezko, (参考訳) 周囲の核スピンに関する情報を処理し保存する能力は、グループIV色中心に基づくリピータノードの主要な要件である。 我々は、mK温度で2.5sを超えるコヒーレンス時間を持つダイヤモンド中の負電荷ゲルマニウム空洞中心に強く結合した${}^{13}$C核スピンのコヒーレント制御を実証した。 詳細な分析により、システムのダイナミクスをモデル化し、結合パラメータを抽出し、ノイズを特徴づけることができる。 我々は、加熱制限を考慮した18.1秒の達成可能なメモリ時間を推定し、量子リピータノードとして成功したアプリケーションへの道を開く。

The ability to process and store information on surrounding nuclear spins is a major requirement for group-IV color center-based repeater nodes. We demonstrate coherent control of a ${}^{13}$C nuclear spin strongly coupled to a negatively charged germanium-vacancy center in diamond with coherence times beyond 2.5s at mK temperatures, which is the longest reported for group-IV defects. Detailed analysis allows us to model the system's dynamics, extract the coupling parameters, and characterize noise. We estimate an achievable memory time of 18.1s with heating limitations considered, paving the way to successful applications as a quantum repeater node.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# PharmacoMatch: 神経サブグラフマッチングによる効率的な3D薬局スクリーニング

PharmacoMatch: Efficient 3D Pharmacophore Screening through Neural Subgraph Matching ( http://arxiv.org/abs/2409.06316v1 )

ライセンス: Link先を確認
Daniel Rose, Oliver Wieder, Thomas Seidel, Thierry Langer, (参考訳) スクリーニングライブラリのサイズが大きくなることは、ドラッグ発見のための仮想スクリーニング方法の開発に重大な課題をもたらし、ビッグデータの時代における従来のアプローチの再評価を必要としている。 3D薬局検診は依然として一般的な手法であるが、非常に大規模なデータセットへの適用は、クエリ薬局検診とデータベースのリガンドとのマッチングに伴う計算コストによって制限されている。 本研究では,ニューラルサブグラフマッチングに基づく新しいコントラスト学習手法であるPharmacoMatchを紹介する。 本手法は, 医薬検診を近似的なサブグラフマッチング問題として再解釈し, 組込み空間における問合せターゲット関係を符号化することにより, コンフォメーションデータベースの効率的な問合せを可能にする。 学習した表現の包括的評価を行い、ゼロショット設定で仮想スクリーニングデータセット上で手法をベンチマークする。 以上の結果から,製薬室マッチングのランタイムが大幅に短くなり,非常に大規模なデータセットのスクリーニングに有望なスピードアップが期待できることがわかった。

The increasing size of screening libraries poses a significant challenge for the development of virtual screening methods for drug discovery, necessitating a re-evaluation of traditional approaches in the era of big data. Although 3D pharmacophore screening remains a prevalent technique, its application to very large datasets is limited by the computational cost associated with matching query pharmacophores to database ligands. In this study, we introduce PharmacoMatch, a novel contrastive learning approach based on neural subgraph matching. Our method reinterprets pharmacophore screening as an approximate subgraph matching problem and enables efficient querying of conformational databases by encoding query-target relationships in the embedding space. We conduct comprehensive evaluations of the learned representations and benchmark our method on virtual screening datasets in a zero-shot setting. Our findings demonstrate significantly shorter runtimes for pharmacophore matching, offering a promising speed-up for screening very large datasets.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 完全な量子世界におけるブラックボックスシミュレーションバリア

The Black-Box Simulation Barrier Persists in a Fully Quantum World ( http://arxiv.org/abs/2409.06317v1 )

ライセンス: Link先を確認
Nai-Hui Chia, Kai-Min Chung, Xiao Liang, Jiahui Liu, (参考訳) Zero-Knowledge (ZK) プロトコルは、その基本的な重要性と汎用性から、非常に研究されている。 しかし、量子情報の固有の違いはランドスケープを大きく変え、ZK設計の再検討を必要とした。 重要な側面はラウンド複雑性であり、ZK定義とセキュリティ証明の基礎となる$\textit{simulation}$に関連付けられている。 $\textit{post-quantum}$ set, where honest parties and channel are classical but adversaries quantum, Chia et al [FOCS'21] showed constant-round $\textit{black-box-simulatable}$ ZK arguments (BBZK) for $\mathbf{NP}$は$\mathbf{NP} \subseteq \mathbf{BQP}$でない限り不可能である。 しかし、すべての当事者とコミュニケーションが量子である場合、この問題は未解決のままである。 実際、この問題は量子コンピューティングのより広範な理論に関心がある。 量子パワーが$\textit{unconditional}$ QKDのセキュリティやMiniQCryptにOTを組み込むようなタスクをどのように変更するかを調べることは、非常に重要です。 さらに、量子通信はコミットメントと対話的議論のためのラウンド圧縮を可能にした。 この線に沿って、量子コンピューティングがZKプロトコルを根本的に変えることができるかどうかを理解することが不可欠である。 この問題は、$\mathbf{BQP}$ admit constant-round $\textit{fully-quantum}$ BBZK の言語のみを許容することを証明することで解決した。 この結果は大きな意味を持つ。 まず、量子ゼロ知識の性質を照らし、量子領域における将来のプロトコルを設計するための貴重な洞察を提供する。 第二に、ZK のラウンド複雑性は $\mathbf{BQP}$ と $\mathbf{QMA}$ の興味深い問題と関連している。 最後に、$\textit{non-black-box}$ シミュレーション技術や、既存の定ラウンド完全量子BBZKプロトコルで使用される緩和されたセキュリティ概念の必要性を正当化する。

Zero-Knowledge (ZK) protocols have been intensely studied due to their fundamental importance and versatility. However, quantum information's inherent differences significantly alter the landscape, necessitating a re-examination of ZK designs. A crucial aspect is round complexity, linked to $\textit{simulation}$, which forms the foundation of ZK definition and security proofs. In the $\textit{post-quantum}$ setting, where honest parties and channels are classical but adversaries quantum, Chia et al. [FOCS'21] showed constant-round $\textit{black-box-simulatable}$ ZK arguments (BBZK) for $\mathbf{NP}$ are impossible unless $\mathbf{NP} \subseteq \mathbf{BQP}$. But this problem remains open when all parties and communication are quantum. Indeed, this problem interests the broader theory of quantum computing. Investigating how quantum power alters tasks like the $\textit{unconditional}$ security of QKD and incorporating OT in MiniQCrypt has been crucial. Moreover, quantum communication has enabled round compression for commitments and interactive arguments. Along this line, understanding if quantum computing could fundamentally change ZK protocols is vital. We resolved this problem by proving that only languages in $\mathbf{BQP}$ admit constant-round $\textit{fully-quantum}$ BBZK. This result holds significant implications. Firstly, it illuminates the nature of quantum zero-knowledge and provides valuable insights for designing future protocols in the quantum realm. Secondly, it relates ZK round complexity with the intriguing problem of $\mathbf{BQP}$ vs $\mathbf{QMA}$, which is out of the reach of previous analogue impossibility results in the classical or post-quantum setting. Lastly, it justifies the need for the $\textit{non-black-box}$ simulation techniques or the relaxed security notions employed in existing constant-round fully-quantum BBZK protocols.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 複数系における高忠実なホロノミックゲート動作のための光-物質相互作用のモデル化

Tailoring the light-matter interaction for high-fidelity holonomic gate operations in multiple systems ( http://arxiv.org/abs/2409.06318v1 )

ライセンス: Link先を確認
Zhihuang Kang, Shutong Wu, Kunji Han, Jiamin Qiu, Joel Moser, Jie Lu, Ying Yan, (参考訳) 量子コンピューティングの実現には、デコヒーレンス、制御エラー、環境騒音に耐性のある高忠実な量子ゲートの開発が必要である。 非断熱的ホロノミック量子計算(NHQC)は有望なアプローチを提供するが、システム固有の調整を必要とすることが多い。 本研究は、遺伝的アルゴリズムを用いて複数の自由度を最適化することにより、複数のキュービットシステムにまたがるNHQCゲートを実装するための汎用的なスキームを提案する。 この方式は3つの量子ビット系に適用される: アンサンブルレアアースイオン(REI)量子ビット、単一REI量子ビット、超伝導トランスモン量子ビット。 数値シミュレーションにより、最適化されたゲート演算は周波数デチューニングに対して堅牢であり、オフ共鳴励起が低いことを示し、このスキームは様々なプラットフォームにわたってフォールトトレラント量子計算を前進させるのに有効である。

Realization of quantum computing requires the development of high-fidelity quantum gates that are resilient to decoherence, control errors, and environmental noise. While non-adiabatic holonomic quantum computation (NHQC) offers a promising approach, it often necessitates system-specific adjustments. This work presents a versatile scheme for implementing NHQC gates across multiple qubit systems by optimizing multiple degrees of freedom using a genetic algorithm. The scheme is applied to three qubit systems: ensemble rare-earth ion (REI) qubits, single REI qubits, and superconducting transmon qubits. Numerical simulations demonstrate that the optimized gate operations are robust against frequency detuning and induce low off-resonant excitations, making the scheme effective for advancing fault-tolerant quantum computation across various platforms.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 通信効率の良いフェデレーション学習のためのレート制約量子化

Rate-Constrained Quantization for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2409.06319v1 )

ライセンス: Link先を確認
Shayan Mohajer Hamidi, Ali Bereyhi, (参考訳) 量子化は、連合学習(FL)の通信コストを軽減するための一般的なアプローチである。 実際、量子化された局所パラメータは、効率的なデータ圧縮のために、ハフマン符号のようなエントロピー符号化技術によってさらに符号化される。 この場合、正確な通信オーバーヘッドは符号化された勾配のビットレートによって決定される。 この事実を認識して、この研究は文献における既存のアプローチから逸脱し、新しい量子化FLフレームワークである \textbf{r}ate-\textbf{c}onstrained \textbf{fed}erated learning (RC-FED) を開発した。 我々は、符号化された勾配の速度を目標閾値以下に保ちながら、量子化歪みを最小限に抑える共同最適化として、このスキームを定式化する。 これにより、量子化歪みと通信コストの間の調整可能なトレードオフが可能になる。 RC-FEDの収束挙動を解析し,いくつかのデータセット上でのベースライン量子化FLスキームに対して優れた性能を示す。

Quantization is a common approach to mitigate the communication cost of federated learning (FL). In practice, the quantized local parameters are further encoded via an entropy coding technique, such as Huffman coding, for efficient data compression. In this case, the exact communication overhead is determined by the bit rate of the encoded gradients. Recognizing this fact, this work deviates from the existing approaches in the literature and develops a novel quantized FL framework, called \textbf{r}ate-\textbf{c}onstrained \textbf{fed}erated learning (RC-FED), in which the gradients are quantized subject to both fidelity and data rate constraints. We formulate this scheme, as a joint optimization in which the quantization distortion is minimized while the rate of encoded gradients is kept below a target threshold. This enables for a tunable trade-off between quantization distortion and communication cost. We analyze the convergence behavior of RC-FED, and show its superior performance against baseline quantized FL schemes on several datasets.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# G3PT: クロススケールクエリ変換器による3次元生成における自己回帰モデリングのパワーを解き放つ

G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer ( http://arxiv.org/abs/2409.06322v1 )

ライセンス: Link先を確認
Jinzhi Zhang, Feng Xiong, Mu Xu, (参考訳) 自己回帰変換器は言語処理における生成モデルに革命をもたらし、画像およびビデオ生成において大きな可能性を示してきた。 しかし、これらのモデルは、3Dデータの非順序の性質と相容れないトークン列を学習するための次のトークン列の予測に依存するため、3D生成タスクに拡張された場合、重大な課題に直面している。 本稿では,3次元データに人工的な順序を与える代わりに,大規模クエリ変換器を用いたスケーラブルな粗い3次元生成モデルであるG3PTを紹介する。 鍵となるのは、ポイントベースの3Dデータを異なるレベルの詳細を持つ離散トークンにマッピングし、自然に自己回帰モデリングに適した異なるレベルのシーケンシャルな関係を確立することである。 さらに、クロススケールクエリ変換器は、順序づけられたシーケンスを必要とせずに、さまざまな詳細レベルのトークンをグローバルに接続する。 このアプローチの恩恵を受け、G3PTは多用途な3D生成パイプラインを備え、多様な条件構造をサポートし、様々な種類の条件から3D形状を生成することができる。 広汎な実験により,G3PTは従来の3次元生成法に比べて優れた生成品質と一般化能力が得られることが示された。 最も重要なことは、3D世代で初めて、G3PTのスケールアップによって、異なるパワールールのスケーリング動作が明らかになることだ。

Autoregressive transformers have revolutionized generative models in language processing and shown substantial promise in image and video generation. However, these models face significant challenges when extended to 3D generation tasks due to their reliance on next-token prediction to learn token sequences, which is incompatible with the unordered nature of 3D data. Instead of imposing an artificial order on 3D data, in this paper, we introduce G3PT, a scalable coarse-to-fine 3D generative model utilizing a cross-scale querying transformer. The key is to map point-based 3D data into discrete tokens with different levels of detail, naturally establishing a sequential relationship between different levels suitable for autoregressive modeling. Additionally, the cross-scale querying transformer connects tokens globally across different levels of detail without requiring an ordered sequence. Benefiting from this approach, G3PT features a versatile 3D generation pipeline that effortlessly supports diverse conditional structures, enabling the generation of 3D shapes from various types of conditions. Extensive experiments demonstrate that G3PT achieves superior generation quality and generalization ability compared to previous 3D generation methods. Most importantly, for the first time in 3D generation, scaling up G3PT reveals distinct power-law scaling behaviors.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# LAMP:不均一グラフのための学習可能なメタパスガイド付き対数コントラスト学習

LAMP: Learnable Meta-Path Guided Adversarial Contrastive Learning for Heterogeneous Graphs ( http://arxiv.org/abs/2409.06323v1 )

ライセンス: Link先を確認
Siqing Li, Jin-Duk Park, Wei Huang, Xin Cao, Won-Yong Shin, Zhiqiang Xu, (参考訳) 不均一グラフニューラルネットワーク(HGNN)は情報検索(IR)分野を著しく推進している。 それでも、HGNNの有効性は高品質なラベルに大きく依存している。 この課題は、通常、定義済みのメタパスを必要とする不均一グラフコントラスト学習(HGCL)に注意を向けている。 しかし,本研究では,メタパスの組み合わせが教師なし設定の性能に大きく影響していることが判明した。 既存のHGCL法は、異なるメタパスの組み合わせによる結果にかなりのばらつきがあり、一貫した高い性能を達成するために最適化プロセスに挑戦する。 これに対し,様々なメタパス部分グラフを統一的かつ安定的な構造に統合し,それらの部分グラフ間の重なりを生かした,新しい対角学習手法である \textsf{LAMP} (\underline{\textbf{L}}earn\underline{\textbf{A}}ble \underline{\textbf{M}}eta-\underline{\textbf{P}}ath を導入する。 この統合されたサブグラフの密集性に対処するため、モデル性能とロバスト性を高めるために、エッジプルーニングのための対角的トレーニング戦略を提案する。 メタパスとネットワークスキーマビューの違いを最大化して、コントラスト学習を指導し、最も意味のある情報をキャプチャすることを目的としている。 Heterogeneous Graph Benchmark (HGB) から得られた4つの多種多様なデータセットを用いて行った大規模な実験により,既存の最先端の教師なしモデルよりも精度とロバスト性において有意に優れていることが示された。

Heterogeneous graph neural networks (HGNNs) have significantly propelled the information retrieval (IR) field. Still, the effectiveness of HGNNs heavily relies on high-quality labels, which are often expensive to acquire. This challenge has shifted attention towards Heterogeneous Graph Contrastive Learning (HGCL), which usually requires pre-defined meta-paths. However, our findings reveal that meta-path combinations significantly affect performance in unsupervised settings, an aspect often overlooked in current literature. Existing HGCL methods have considerable variability in outcomes across different meta-path combinations, thereby challenging the optimization process to achieve consistent and high performance. In response, we introduce \textsf{LAMP} (\underline{\textbf{L}}earn\underline{\textbf{A}}ble \underline{\textbf{M}}eta-\underline{\textbf{P}}ath), a novel adversarial contrastive learning approach that integrates various meta-path sub-graphs into a unified and stable structure, leveraging the overlap among these sub-graphs. To address the denseness of this integrated sub-graph, we propose an adversarial training strategy for edge pruning, maintaining sparsity to enhance model performance and robustness. \textsf{LAMP} aims to maximize the difference between meta-path and network schema views for guiding contrastive learning to capture the most meaningful information. Our extensive experimental study conducted on four diverse datasets from the Heterogeneous Graph Benchmark (HGB) demonstrates that \textsf{LAMP} significantly outperforms existing state-of-the-art unsupervised models in terms of accuracy and robustness.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# SDF-Net:造影CT画像を用いた縦隔リンパ節検出のためのハイブリッド検出ネットワーク

SDF-Net: A Hybrid Detection Network for Mediastinal Lymph Node Detection on Contrast CT Images ( http://arxiv.org/abs/2409.06324v1 )

ライセンス: Link先を確認
Jiuli Xiong, Lanzhuju Mei, Jiameng Liu, Dinggang Shen, Zhong Xue, Xiaohuan Cao, (参考訳) リンパ節の正確な検出と定量化は、治療計画や予後に影響を及ぼすため、造影CT画像の診断とステージングに不可欠である。 しかし、縦隔領域のリンパ節の検出は、その低コントラスト、不規則な形状、分散分布のために困難を生じさせる。 本稿では,リンパ節を効果的に検出するSwing-Det Fusion Network (SDF-Net)を提案する。 SDF-Netはセグメンテーションと検出の両方の機能を統合し、さまざまな形状と大きさのリンパ節の検出能力を向上する。 具体的には、自動融合モジュールは、セグメンテーションと検出ネットワークの機能マップを異なるレベルでマージするように設計されている。 マスクアノテーションを使わずに効果的な学習を容易にするため,訓練段階におけるリンパ節表現のための形状適応型ガウスカーネルを導入し,効果的な学習のための解剖学的情報を提供する。 その結果、複雑なリンパ節検出問題に対処する上で有望な性能を示した。

Accurate lymph node detection and quantification are crucial for cancer diagnosis and staging on contrast-enhanced CT images, as they impact treatment planning and prognosis. However, detecting lymph nodes in the mediastinal area poses challenges due to their low contrast, irregular shapes and dispersed distribution. In this paper, we propose a Swin-Det Fusion Network (SDF-Net) to effectively detect lymph nodes. SDF-Net integrates features from both segmentation and detection to enhance the detection capability of lymph nodes with various shapes and sizes. Specifically, an auto-fusion module is designed to merge the feature maps of segmentation and detection networks at different levels. To facilitate effective learning without mask annotations, we introduce a shape-adaptive Gaussian kernel to represent lymph node in the training stage and provide more anatomical information for effective learning. Comparative results demonstrate promising performance in addressing the complex lymph node detection problem.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 開量子系における定常状態絡み合いのスケーリング:いくつかのマスター方程式の比較

Steady-state entanglement scaling in open quantum systems: A comparison between several master equations ( http://arxiv.org/abs/2409.06326v1 )

ライセンス: Link先を確認
Antonio D'Abbruzzo, Davide Rossini, Vittorio Giovannetti, Vincenzo Alba, (参考訳) 本研究では, フェルミオン対数ネガティビティ (FLN) を駆動散逸性固結合臨界鎖の定常状態における相補的間隔間でのスケーリングについて検討した。 我々は、非局所リンドブラッド方程式、レッドフィールド方程式、最近提案された普遍リンドブラッド方程式(ULE)の3つの異なるマスター方程式の予測を比較した。 非局所リンドブラッド方程式のアプローチでは、FLNはシステムバス結合とバスパラメータの任意の値に対して、サブシステムサイズ$$\ell$と対数的に成長する。 これは[B 106, 235149 (2022)]で解析的に示された相互情報の対数スケーリングと一致する。 超弱結合系では、レッドフィールド方程式とULEは同じ対数増加を示すが、そのような挙動は、中程度の弱い結合と$\ell$の中間値に移動するときにも成り立つ。 しかし、この状態を超えると、FLNは両方の方程式の超対数スケーリングに渡る。

We investigate the scaling of the fermionic logarithmic negativity (FLN) between complementary intervals in the steady state of a driven-dissipative tight-binding critical chain, coupled to two thermal reservoirs at its edges. We compare the predictions of three different master equations, namely a nonlocal Lindblad equation, the Redfield equation, and the recently proposed universal Lindblad equation (ULE). Within the nonlocal Lindblad equation approach, the FLN grows logarithmically with the subsystem size $\ell$, for any value of the system-bath coupling and of the bath parameters. This is consistent with the logarithmic scaling of the mutual information analytically demonstrated in [Phys. Rev. B 106, 235149 (2022)]. In the ultraweak-coupling regime, the Redfield equation and the ULE exhibit the same logarithmic increase; such behavior holds even when moving to moderately weak coupling and intermediate values of $\ell$. However, when venturing beyond this regime, the FLN crosses over to superlogarithmic scaling for both equations.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# LLM Token Activation からのパラグラフ抽出

Extracting Paragraphs from LLM Token Activations ( http://arxiv.org/abs/2409.06328v1 )

ライセンス: Link先を確認
Nicholas Pochinkov, Angelo Benoit, Lovkush Agarwal, Zainab Ali Majid, Lucile Ter-Minassian, (参考訳) 生成的大規模言語モデル(LLM)は自然言語処理のタスクに優れるが、その内部の動作はトークンレベルの予測を超えていない。 本研究では,これらのモデルが段落の内容を決定する度合いについて検討し,その文脈的理解に光を当てる。 シングルトークンアクティベーション、特に「\textbackslash n\textbackslash n」ダブルライントークンで符号化された情報を調べることで、これらのアクティベーションにパッチを当てることによって、次の段落のコンテキストに関する重要な情報を伝達し、モデルが計画する能力についてより深い洞察を与えることができることを示す。

Generative large language models (LLMs) excel in natural language processing tasks, yet their inner workings remain underexplored beyond token-level predictions. This study investigates the degree to which these models decide the content of a paragraph at its onset, shedding light on their contextual understanding. By examining the information encoded in single-token activations, specifically the "\textbackslash n\textbackslash n" double newline token, we demonstrate that patching these activations can transfer significant information about the context of the following paragraph, providing further insights into the model's capacity to plan ahead.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 線形帯域に対する修正メタトンプソンサンプリングとそのベイズレギュレット解析

Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis ( http://arxiv.org/abs/2409.06329v1 )

ライセンス: Link先を確認
Hao Li, Dong Liang, Zheng Xie, (参考訳) メタラーニングは、学習方法を学ぶ能力によって特徴付けられ、異なるタスクにまたがる学習戦略の適応を可能にする。 最近の研究はMeta-Thompson Smpling (Meta-TS)を導入し、メタプライアからサンプリングされた未知の事前分布をメタプライアから引き出されたバンディットインスタンスと相互作用させることでメタ学習する。 しかし、その分析はガウスの盗賊に限られていた。 文脈的マルチアーム・バンディット・フレームワークはガウス・バンディットの拡張であり、文脈ベクトルを用いて最も価値のある武器を予測し、時間の経過とともに後悔を最小限に抑えるために探索と搾取を最適にバランスさせることに挑戦する。 本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。 理論的にはMeta-TSLBを解析し、$ O\left( \left(m+\log \left(m \right) \right) \sqrt{n\log \left(n \right)} \right)$をベイズ後悔に縛り付ける。 さらに,線形文脈帯域に対するMeta-TSの解析を補完する。 Meta-TSLBの性能を異なる設定で実験的に評価し、Meta-TSLBの一般化能力を実験・解析し、未確認のインスタンスに適応する可能性を示す。

Meta-learning is characterized by its ability to learn how to learn, enabling the adaptation of learning strategies across different tasks. Recent research introduced the Meta-Thompson Sampling (Meta-TS), which meta-learns an unknown prior distribution sampled from a meta-prior by interacting with bandit instances drawn from it. However, its analysis was limited to Gaussian bandit. The contextual multi-armed bandit framework is an extension of the Gaussian Bandit, which challenges agent to utilize context vectors to predict the most valuable arms, optimally balancing exploration and exploitation to minimize regret over time. This paper introduces Meta-TSLB algorithm, a modified Meta-TS for linear contextual bandits. We theoretically analyze Meta-TSLB and derive an $ O\left( \left( m+\log \left( m \right) \right) \sqrt{n\log \left( n \right)} \right)$ bound on its Bayes regret, in which $m$ represents the number of bandit instances, and $n$ the number of rounds of Thompson Sampling. Additionally, our work complements the analysis of Meta-TS for linear contextual bandits. The performance of Meta-TSLB is evaluated experimentally under different settings, and we experimente and analyze the generalization capability of Meta-TSLB, showcasing its potential to adapt to unseen instances.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# ヒストグラムに基づく変圧器特徴強調によるマルチウェザー画像復元

Multi-Weather Image Restoration via Histogram-Based Transformer Feature Enhancement ( http://arxiv.org/abs/2409.06334v1 )

ライセンス: Link先を確認
Yang Wen, Anyu Lai, Bo Qian, Hao Wang, Wuzhen Shi, Wenming Cao, (参考訳) 現在、悪天候下でのメインストリームの復旧作業は、主に単一天候シナリオに重点を置いている。 しかし実際には、複数の気象条件は常に共存しており、その混合度は通常不明である。 このような複雑で多様な気象条件下では、単一天候の復元モデルは現実的な要求を満たすのに苦労する。 これは特に自律運転のような分野において重要であり、混合気象条件を効果的に処理し、画像品質を自動的に向上できるモデルが緊急に必要である。 本稿では、タスク内パッチブロックと連動して、劣化した画像に埋め込まれたタスク固有の特徴を効果的に抽出するタスクシーケンス生成モジュールを提案する。 Task In-patch Blockは、タスク固有の情報をキャプチャするネットワークを支援する外部学習可能なシーケンスを導入している。 さらに,ネットワークのバックボーンとしてヒストグラムベースのトランスフォーマーモジュールを用い,グローバルおよびローカルなダイナミックレンジ特徴のキャプチャを可能にした。 提案モデルは,公開データセット上での最先端性能を実現する。

Currently, the mainstream restoration tasks under adverse weather conditions have predominantly focused on single-weather scenarios. However, in reality, multiple weather conditions always coexist and their degree of mixing is usually unknown. Under such complex and diverse weather conditions, single-weather restoration models struggle to meet practical demands. This is particularly critical in fields such as autonomous driving, where there is an urgent need for a model capable of effectively handling mixed weather conditions and enhancing image quality in an automated manner. In this paper, we propose a Task Sequence Generator module that, in conjunction with the Task Intra-patch Block, effectively extracts task-specific features embedded in degraded images. The Task Intra-patch Block introduces an external learnable sequence that aids the network in capturing task-specific information. Additionally, we employ a histogram-based transformer module as the backbone of our network, enabling the capture of both global and local dynamic range features. Our proposed model achieves state-of-the-art performance on public datasets.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 粒子加速器のエージェントAIを目指して

Towards Agentic AI on Particle Accelerators ( http://arxiv.org/abs/2409.06336v1 )

ライセンス: Link先を確認
Antonin Sulc, Thorsten Hellert, Raimund Kammering, Hayden Houscher, Jason St. John, (参考訳) 粒子加速器が複雑さを増すにつれて、従来の制御手法は最適な性能を達成するための課題に直面する。 本稿では,大規模言語モデル(LLM)を駆使し,自律エージェント間で分散した,アクセラレータ制御のための分散マルチエージェントフレームワークであるパラダイムシフトを構想する。 本稿では,知的エージェントがハイレベルなタスクやコミュニケーションを処理し,各エージェントが個別のアクセラレーターコンポーネントを個別に制御する自己改善型分散システムを提案する。 このアプローチはいくつかの疑問を提起する。 粒子加速器におけるAIの将来的な応用は何か? エージェントが経験と人間のフィードバックを通じて徐々に改善する粒子加速器のような自律的な複雑なシステムをどのように実装するか。 運用データをラベル付けし、専門家のガイダンスを提供するために、Human-in-the-loopコンポーネントを統合することが意味するところは何ですか? このようなアーキテクチャの実現可能性を示す2つの例を示す。

As particle accelerators grow in complexity, traditional control methods face increasing challenges in achieving optimal performance. This paper envisions a paradigm shift: a decentralized multi-agent framework for accelerator control, powered by Large Language Models (LLMs) and distributed among autonomous agents. We present a proposition of a self-improving decentralized system where intelligent agents handle high-level tasks and communication and each agent is specialized control individual accelerator components. This approach raises some questions: What are the future applications of AI in particle accelerators? How can we implement an autonomous complex system such as a particle accelerator where agents gradually improve through experience and human feedback? What are the implications of integrating a human-in-the-loop component for labeling operational data and providing expert guidance? We show two examples, where we demonstrate viability of such architecture.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 検索的・全体論的理解 : 長期評価課題の相違

Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks ( http://arxiv.org/abs/2409.06338v1 )

ライセンス: Link先を確認
Zi Yang, (参考訳) 長い文脈理解には、検索と全体的理解という2つの大きな特徴がある、と我々は主張する。 LLMの長期コンテキスト機能を理解し、さらに改善することは、タスクのフォーカスカテゴリを知らなければ不可能である。 本研究の目的は,ベンチマークのスイートから,検索に焦点を絞った全体的理解に焦点を絞った問題を自動的に識別し,各焦点内の難易度を定量的に測定することである。 本稿では,各問題を$\lambda$(複雑度)と$k$(冗長性)でパラメータ化し,予め定義された5つの焦点カテゴリのうちの1つに割り当てるDolceフレームワークを提案する。 本稿では,全文脈から短い文脈をサンプリングし,LLMがサンプルスパンを用いて問題を解く確率を推定する。 それぞれの問題に対して$\lambda$と$k$を求めるために、さらにパラメトリックなバックグラウンドノイズ成分とパラメトリック/ノンパラメトリックなハイブリッドオラクル成分の混合モデルを提案し、そこでは、COW(or-wrong)シナリオとPIG(partial-point-in-grading)シナリオの両方に対して$\lambda$と$k$でパラメータ化された確率関数を導出する。 提案手法では,検索対象の0%から67%が検索対象であり,0%から90%が既存の44の長期文脈評価タスクに焦点を絞った総合的理解である。

We argue that there are two major distinct capabilities in long context understanding: retrieval and holistic understanding. Understanding and further improving LLMs' long context capabilities would not be possible without knowing the tasks' focus categories. We aim to automatically identify retrieval focused and holistic understanding focused problems from suites of benchmarks and quantitatively measure the difficulty within each focus. In this paper, we present the Dolce framework, which parameterizes each problem by $\lambda$ (complexity) and $k$ (redundancy) and assigns to one of five predefined focus categories. We propose to sample short contexts from the full context and estimate the probability an LLM solves the problem using the sampled spans. To find the $\lambda$ and $k$ for each problem, we further propose a mixture model of a non-parametric background noise component and a parametric/non-parametric hybrid oracle component, where we derive the probability functions parameterized by $\lambda$ and $k$ for both the correct-or-wrong (COW) scenario and the partial-point-in-grading (PIG) scenario. Our proposed methods can identify 0% to 67% of the problems are retrieval focused and 0% to 90% of the problems are holistic understanding focused across 44 existing long context evaluation tasks.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# 変分量子線形解法の有効性に関する実証分析

An Empirical Analysis on the Effectiveness of the Variational Quantum Linear Solver ( http://arxiv.org/abs/2409.06339v1 )

ライセンス: Link先を確認
Gloria Turati, Alessia Marruzzo, Maurizio Ferrari Dacrema, Paolo Cremonesi, (参考訳) 変分量子アルゴリズム(VQA)は、短期量子デバイスにおける複雑な問題に対処するための有望な手法として登場した。 これらのアルゴリズムの中で、変分量子線形ソルバー (VQLS) は、$Ax=b$ という形の線形系に対処し、$A|x\rangle$ が$b$ に対応する量子状態に比例するような量子状態 $|x\rangle$ を準備することを目的としている。 VQLSの重要な利点は振幅符号化を使うことであり、これは線形システムサイズと対数的にスケールする多数の量子ビットを必要とする。 しかし、既存の文献は主に、限られた大きさまたは特定の構造を持つ線形システムに焦点を当てている。 本研究では,VQLSの適用範囲を,状態準備が非自明な問題や流体力学の実領域における問題など,より一般的な,より大規模な問題に拡張する。 本研究は,VQLS固有の重要な課題として,十分に表現可能なアンサッツの必要性,コスト関数を推定するために必要な多数の回路実行,最も一般的な設定における回路のゲート数などを挙げる。 我々の分析は、VQLSの幅広い応用に対処する必要がある障害を強調し、現実世界の問題に対処するアルゴリズムの能力を十分に活用するためには、さらなる研究が必要であると結論付けている。

Variational Quantum Algorithms (VQAs) have emerged as promising methods for tackling complex problems on near-term quantum devices. Among these algorithms, the Variational Quantum Linear Solver (VQLS) addresses linear systems of the form $Ax=b$, aiming to prepare a quantum state $|x\rangle$ such that $A|x\rangle$ is proportional to the quantum state corresponding to $b$. A key advantage of VQLS is its use of amplitude encoding, which requires a number of qubits that scales logarithmically with the linear system size. However, the existing literature has primarily focused on linear systems of limited size or with a specific structure. In this study, we extend the application of VQLS to more general and larger problem instances, including problems where state preparation is non-trivial and problems within the real domain of fluid dynamics. Our investigation reveals some critical challenges inherent to VQLS, including the need for a sufficiently expressive ansatz, the large number of circuit executions required to estimate the cost function, and the high gate count in the circuits in the most general setting. Our analysis highlights the obstacles that need to be addressed for a broader application of VQLS and concludes that further research is necessary to fully leverage the algorithm's capabilities in addressing real-world problems.
翻訳日:2024-09-11 18:30:15 公開日:2024-09-10
# Compute-Update Federated Learning:格子符号化アプローチ

Compute-Update Federated Learning: A Lattice Coding Approach ( http://arxiv.org/abs/2409.06343v1 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Lav R. Varshney, (参考訳) 本稿では,新たなジョイントソースチャネル符号化方式を用いて,デジタル通信による無線通信によるオーバー・ザ・エア計算を実現するためのフェデレート学習フレームワークを提案する。 このスキームは、デバイスにおけるチャネル状態情報に頼ることなく、モデルパラメータの定量化とデバイスからの干渉の活用の両方に格子コードを使用する。 本稿では, 量子化モデルパラメータの整数結合を, 集約のための格子点として確実に復号化するように設計した, サーバにおける新しい受信構造を提案する。 本稿では,提案手法の収束を導出する数学的手法を提案し,設計上の留意点を提供する。 この文脈では、各通信ラウンドにおけるアグリゲーションの有効な整数係数を決定するために、アグリゲーションメトリックとそれに対応するアルゴリズムを提案する。 提案手法は, チャネル力学やデータ不均一性によらず, 様々なパラメータの学習精度を常に向上させ, その他のオーバー・ザ・エア手法を著しく上回っていることを示す。

This paper introduces a federated learning framework that enables over-the-air computation via digital communications, using a new joint source-channel coding scheme. Without relying on channel state information at devices, this scheme employs lattice codes to both quantize model parameters and exploit interference from the devices. We propose a novel receiver structure at the server, designed to reliably decode an integer combination of the quantized model parameters as a lattice point for the purpose of aggregation. We present a mathematical approach to derive a convergence bound for the proposed scheme and offer design remarks. In this context, we suggest an aggregation metric and a corresponding algorithm to determine effective integer coefficients for the aggregation in each communication round. Our results illustrate that, regardless of channel dynamics and data heterogeneity, our scheme consistently delivers superior learning accuracy across various parameters and markedly surpasses other over-the-air methodologies.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# VoiceWukong: ディープフェイク音声検出のベンチマーク

VoiceWukong: Benchmarking Deepfake Voice Detection ( http://arxiv.org/abs/2409.06348v1 )

ライセンス: Link先を確認
Ziwei Yan, Yanjie Zhao, Haoyu Wang, (参考訳) テキスト音声(TTS)や音声変換(VC)といった技術が急速に進歩し、ディープフェイク音声の検出がますます重要になっている。 しかし、学術と産業の両方では、検出器を評価するための総合的で直感的なベンチマークが欠落している。 既存のデータセットは言語の多様性に制限があり、現実のプロダクション環境で発生する多くの操作が欠如している。 このギャップを埋めるために、ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを提案する。 データセットを構築するために、私たちはまず19の高度で広く認識されている商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。 次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。 VoiceWukongには265,200の英語と148,200の中国語のディープフェイク音声サンプルが含まれている。 VoiceWukongを用いて12個の最先端検出器を評価した。 AASIST2は13.50%の誤差率(EER)を達成し、その他の全てのエラーは20%を超えた。 その結果,これらの検出器は実世界の応用において重大な課題に直面しており,性能は劇的に低下していることがわかった。 また,300名以上の参加者を対象にユーザスタディを実施した。 結果は、12の検出器と、Qwen2-Audioと呼ばれる多モデル大言語モデル(MLLM)の性能と比較される。 さらに、ディープフェイク音声検出のためのリーダーボード(https://voicewukong.github.io})も公開しています。

With the rapid advancement of technologies like text-to-speech (TTS) and voice conversion (VC), detecting deepfake voices has become increasingly crucial. However, both academia and industry lack a comprehensive and intuitive benchmark for evaluating detectors. Existing datasets are limited in language diversity and lack many manipulations encountered in real-world production environments. To fill this gap, we propose VoiceWukong, a benchmark designed to evaluate the performance of deepfake voice detectors. To build the dataset, we first collected deepfake voices generated by 19 advanced and widely recognized commercial tools and 15 open-source tools. We then created 38 data variants covering six types of manipulations, constructing the evaluation dataset for deepfake voice detection. VoiceWukong thus includes 265,200 English and 148,200 Chinese deepfake voice samples. Using VoiceWukong, we evaluated 12 state-of-the-art detectors. AASIST2 achieved the best equal error rate (EER) of 13.50%, while all others exceeded 20%. Our findings reveal that these detectors face significant challenges in real-world applications, with dramatically declining performance. In addition, we conducted a user study with more than 300 participants. The results are compared with the performance of the 12 detectors and a multimodel large language model (MLLM), i.e., Qwen2-Audio, where different detectors and humans exhibit varying identification capabilities for deepfake voices at different deception levels, while the LALM demonstrates no detection ability at all. Furthermore, we provide a leaderboard for deepfake voice detection, publicly available at {https://voicewukong.github.io}.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# Match-3ゲームにおける自動検証による条件レベル生成の改善

Improving Conditional Level Generation using Automated Validation in Match-3 Games ( http://arxiv.org/abs/2409.06349v1 )

ライセンス: Link先を確認
Monica Villanueva Aylagas, Joakim Bergdahl, Jonas Gillberg, Alessandro Sestini, Theodor Tolstoy, Linus Gisslén, (参考訳) レベル生成のための生成モデルは、ゲーム生産に大きな可能性を示している。 しかし、それらはしばしば生成を限定的に制御し、生成されたレベルの妥当性は信頼できない。 この事実にもかかわらず、既存のデータから学習するアプローチは、ユーザが生成を制御する方法を提供し、同時に解決不可能なレベルの生成に対処する。 自動化によって生成されたレベルが解決できないため、バリデーションが必要になる可能性がある。 常に関与し 挑戦し 解決できるわけではありません 本稿では,ゲームプレイから抽出した難易度統計を用いて,既存のレベル設計から学習するモデルを改善する新しい手法であるAvalonを提案する。 特に、条件付き変分オートエンコーダを用いて、Match-3レベルのレイアウトを生成し、難易度のようなゲーム力学や、サイズや対称性のような関連する視覚的特徴といった事前コンパイルされた統計にモデルを条件付けする。 我々の手法は、これらの統計を生成するために複数のアプローチを使用できるほど一般的である。 条件付けの困難さを伴わないアブレーションモデルと比較することにより,我々のアプローチを定量的に評価する。 さらに、データセットのスタイルが生成されたレベルに保存されているかどうかを定量的に、質的に分析する。 提案手法は条件付けを困難にすることなく,同じ手法よりも有効なレベルを生成する。

Generative models for level generation have shown great potential in game production. However, they often provide limited control over the generation, and the validity of the generated levels is unreliable. Despite this fact, only a few approaches that learn from existing data provide the users with ways of controlling the generation, simultaneously addressing the generation of unsolvable levels. %One of the main challenges it faces is that levels generated through automation may not be solvable thus requiring validation. are not always engaging, challenging, or even solvable. This paper proposes Avalon, a novel method to improve models that learn from existing level designs using difficulty statistics extracted from gameplay. In particular, we use a conditional variational autoencoder to generate layouts for match-3 levels, conditioning the model on pre-collected statistics such as game mechanics like difficulty and relevant visual features like size and symmetry. Our method is general enough that multiple approaches could potentially be used to generate these statistics. We quantitatively evaluate our approach by comparing it to an ablated model without difficulty conditioning. Additionally, we analyze both quantitatively and qualitatively whether the style of the dataset is preserved in the generated levels. Our approach generates more valid levels than the same method without difficulty conditioning.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# MAGDA : マルチエージェントガイドリン駆動型診断支援

MAGDA: Multi-agent guideline-driven diagnostic assistance ( http://arxiv.org/abs/2409.06351v1 )

ライセンス: Link先を確認
David Bani-Harouni, Nassir Navab, Matthias Keicher, (参考訳) 救急部門、地方病院、未開発地域の診療所では、臨床医は訓練された放射線技師による高速画像解析を欠いていることが多く、患者の医療に有害な影響を及ぼす可能性がある。 大きな言語モデル(LLM)は、意思決定に役立つ洞察を提供することで、これらの臨床医からのプレッシャーを緩和する可能性がある。 これらのLSMは、その理論的な医学的知識を示す医学試験において高い試験結果を得るが、医学的ガイドラインに従わない傾向にある。 本研究では,ゼロショットガイドライン駆動意思決定支援のための新しいアプローチを提案する。 我々は、患者診断に到達するために協調する、対照的な視覚言語モデルで強化された複数のLLMエージェントのシステムをモデル化する。 簡単な診断ガイドラインをエージェントに提供した後、プロンプトを合成し、これらのガイドラインに従って画像を表示する。 最後に、彼らは診断のための理解可能なチェーン・オブ・シークレットの推論を提供し、疾患間の依存性を検討するために自己修正される。 本手法はゼロショットであるため、トレーニングデータに制限がある稀な疾患の設定に適応できるが、専門家が作成した疾患の記述は利用可能である。 胸部X線データセットであるCheXpertとChestX-ray 14 Longtailについて検討し,既存のゼロショット法に対する性能改善と稀な疾患に対する一般化性を示した。

In emergency departments, rural hospitals, or clinics in less developed regions, clinicians often lack fast image analysis by trained radiologists, which can have a detrimental effect on patients' healthcare. Large Language Models (LLMs) have the potential to alleviate some pressure from these clinicians by providing insights that can help them in their decision-making. While these LLMs achieve high test results on medical exams showcasing their great theoretical medical knowledge, they tend not to follow medical guidelines. In this work, we introduce a new approach for zero-shot guideline-driven decision support. We model a system of multiple LLM agents augmented with a contrastive vision-language model that collaborate to reach a patient diagnosis. After providing the agents with simple diagnostic guidelines, they will synthesize prompts and screen the image for findings following these guidelines. Finally, they provide understandable chain-of-thought reasoning for their diagnosis, which is then self-refined to consider inter-dependencies between diseases. As our method is zero-shot, it is adaptable to settings with rare diseases, where training data is limited, but expert-crafted disease descriptions are available. We evaluate our method on two chest X-ray datasets, CheXpert and ChestX-ray 14 Longtail, showcasing performance improvement over existing zero-shot methods and generalizability to rare diseases.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# DiffQRCoder: 走査ロバスト性誘導反復リファインメントによる拡散型審美QRコード生成

DiffQRCoder: Diffusion-based Aesthetic QR Code Generation with Scanning Robustness Guided Iterative Refinement ( http://arxiv.org/abs/2409.06355v1 )

ライセンス: Link先を確認
Jia-Wei Liao, Winston Wang, Tzu-Sian Wang, Li-Xuan Peng, Ju-Hsuan Weng, Cheng-Fu Chou, Jun-Cheng Chen, (参考訳) 画像生成のための拡散モデルの成功により、これらの技術は美的クイックレスポンス(QR)コード生成にも革命をもたらした。 美化されたコードの視覚的魅力は大幅に改善されているが、そのスキャン能力は通常犠牲にされ、現実のシナリオにおける実用性を妨げている。 この問題に対処するために,DiffusionベースのQRコード生成器(DiffQRCoder)を提案する。 提案手法では,Diffusion Models の新たな拡散誘導である Scanning-Robust Perceptual Guidance (SRPG) を導入し,Diffusion Models が生成した審美コードに対して,デノナイジング過程における魅力を維持しつつ,基礎的なQRコードに従うことを保証した。 さらに,Scanning Robust Manifold Projected Gradient Descent (SR-MPGD) も提案する。 より広範な実験により,本手法は,SSR(Scanning Success Rate)とCLIP-aes(CLIP-aes.)の他の比較手法よりも優れるだけでなく,コントロールネットのみのアプローチのSSRを60%から99%に向上させることが示された。 主観的評価は,提案手法がユーザにとって有望な視覚的魅力を実現することを示唆している。 最後に、異なる走査角と最も厳密なエラートレランス設定であっても、95%以上のSSRを確実に達成し、実世界のアプリケーションにその能力を示す。

With the success of Diffusion Models for image generation, the technologies also have revolutionized the aesthetic Quick Response (QR) code generation. Despite significant improvements in visual attractiveness for the beautified codes, their scannabilities are usually sacrificed and thus hinder their practical uses in real-world scenarios. To address this issue, we propose a novel Diffusion-based QR Code generator (DiffQRCoder) to effectively craft both scannable and visually pleasing QR codes. The proposed approach introduces Scanning-Robust Perceptual Guidance (SRPG), a new diffusion guidance for Diffusion Models to guarantee the generated aesthetic codes to obey the ground-truth QR codes while maintaining their attractiveness during the denoising process. Additionally, we present another post-processing technique, Scanning Robust Manifold Projected Gradient Descent (SR-MPGD), to further enhance their scanning robustness through iterative latent space optimization. With extensive experiments, the results demonstrate that our approach not only outperforms other compared methods in Scanning Success Rate (SSR) with better or comparable CLIP aesthetic score (CLIP-aes.) but also significantly improves the SSR of the ControlNet-only approach from 60% to 99%. The subjective evaluation indicates that our approach achieves promising visual attractiveness to users as well. Finally, even with different scanning angles and the most rigorous error tolerance settings, our approach robustly achieves over 95% SSR, demonstrating its capability for real-world applications.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# 深層強化学習の拡張による二重逐次過剰緩和Q-Learning

Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning ( http://arxiv.org/abs/2409.06356v1 )

ライセンス: Link先を確認
Shreyas S R, (参考訳) Q-ラーニングは強化学習(RL)において広く用いられているアルゴリズムであるが、特に割引係数が1に近い場合、その収束は遅くなる可能性がある。 逐次的過剰緩和(SOR) Q-ラーニング(英語版)は収束をスピードアップする緩和因子を導入し、この問題に対処するが、2つの大きな制限がある: 表の設定では、緩和パラメータは遷移確率に依存し、完全にモデルなしではなく、過大評価バイアスに悩まされる。 これらの制限を克服するために、サンプルベースでモデルなしの二重SORQ学習アルゴリズムを提案する。 理論的、実験的に、このアルゴリズムはSOR Q-learningよりもバイアスが少ないことが示されている。 さらに、表面設定では、反復体上の有界性仮定に基づく収束解析について論じる。 提案アルゴリズムは深部RLを用いて大規模問題に拡張される。 最後に、提案アルゴリズムの表型バージョンをルーレットとグリッドワールド環境を用いて比較し、深いRLバージョンを最大化バイアス例とOpenAI Gym環境でテストする。

Q-learning is a widely used algorithm in reinforcement learning (RL), but its convergence can be slow, especially when the discount factor is close to one. Successive Over-Relaxation (SOR) Q-learning, which introduces a relaxation factor to speed up convergence, addresses this issue but has two major limitations: In the tabular setting, the relaxation parameter depends on transition probability, making it not entirely model-free, and it suffers from overestimation bias. To overcome these limitations, we propose a sample-based, model-free double SOR Q-learning algorithm. Theoretically and empirically, this algorithm is shown to be less biased than SOR Q-learning. Further, in the tabular setting, the convergence analysis under boundedness assumptions on iterates is discussed. The proposed algorithm is extended to large-scale problems using deep RL. Finally, the tabular version of the proposed algorithm is compared using roulette and grid world environments, while the deep RL version is tested on a maximization bias example and OpenAI Gym environments.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# レーザー照射によるダイヤモンドの発色中心の光活性化

Photoactivation of color centers induced by laser irradiation in ion-implanted diamond ( http://arxiv.org/abs/2409.06359v1 )

ライセンス: Link先を確認
V. Pugliese, E. Nieto Hernández, E. Corte, M. Govoni, S. Ditalia Tchernij, P. Olivero, J. Forneris, (参考訳) ダイヤモンド中のスプリット空調色中心は、フォトニック量子技術の実装のための固体プラットフォームを約束している。 これらの発光欠陥は、一般的に低エネルギーイオン注入とその後の熱アニールによって作られる。 その技術的取り込みには、局所化された個々の光子エミッタの制御された大規模生産のための信頼性の高い方法が必要とされる。 この課題は、ホスト材料に選択された不純物を導入するために、制御されたイオン注入によって部分的に達成され、単一イオン検出技術と組み合わさったビーム集束法やコリメーション法の開発が必要である。 我々は,mW光出力における連続波レーザーによる局所処理によるダイヤモンド中のスプリット空白色中心の直接的光活性化のプロトコルについて報告する。 イオン注入高純度ダイヤモンド結晶における発光Mg-およびSn関連中心のアンサンブルおよび単一光子エミッタレベルの活性化を熱処理なしで実証した。 提案したリソグラフィー法は, 実時間その場監視を行う比較的安価な装置を用いて, 大規模試料の特定位置における個々の色中心の活性化を可能にする。

Split-vacancy color centers in diamond are promising solid state platforms for the implementation of photonic quantum technologies. These luminescent defects are commonly fabricated upon low energy ion implantation and subsequent thermal annealing. Their technological uptake will require the availability of reliable methods for the controlled, large scale production of localized individual photon emitters. This task is partially achieved by controlled ion implantation to introduce selected impurities in the host material, and requires the development of challenging beam focusing or collimation procedures coupled with single-ion detection techniques. We report on protocol for the direct optical activation of split-vacancy color centers in diamond via localized processing with continuous wave laser at mW optical powers. We demonstrate the activation of photoluminescent Mg- and Sn-related centers at both the ensemble and single-photon emitter level in ion-implanted, high-purity diamond crystals without further thermal processing. The proposed lithographic method enables the activation of individual color centers at specific positions of a large area sample by means of a relatively inexpensive equipment offering the real-time, in situ monitoring of the process.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# SoK:5Gプロトコルをレガシーに対して評価し、プライバシとセキュリティの攻撃を発生させる

SoK: Evaluating 5G Protocols Against Legacy and Emerging Privacy and Security Attacks ( http://arxiv.org/abs/2409.06360v1 )

ライセンス: Link先を確認
Stavros Eleftherakis, Domenico Giustiniano, Nicolas Kourtellis, (参考訳) ユーザプライバシの確保は、特に相互接続されたデバイスやサービスが急増していることを考えると、モバイルの携帯電話ネットワークにおいて重要な関心事である。 実際、ユーザーのプライバシー問題は2G、3G、4G/LTEネットワークで起きている。 この一般的な懸念を認識して、3GPPは5Gリリース15以降、ユーザのプライバシを高めるために多数の修正を実装した5Gの開発において、これらの問題に対処することを優先している。 本稿では,まず,携帯電話ネットワークにおけるプライバシとセキュリティ関連攻撃を研究するためのフレームワークを提供する。 このフレームワークを用いて,プレ5Gネットワークにおける既存のプライバシとセキュリティ攻撃について議論し,これらの攻撃の原因となる弱点を分析した。 さらに,新しいリリース19までの5Gのセキュリティ特性を徹底的に検討し,特定した5G前攻撃に対する5Gの緩和機構について検討した。 その後、最近の5G攻撃がこれらの緩和メカニズムを克服しようとしているかを分析した。 最後に、5Gのセキュリティにおける現在の制限とオープンな問題を特定し、今後の作業の方向性を提案する。

Ensuring user privacy remains a critical concern within mobile cellular networks, particularly given the proliferation of interconnected devices and services. In fact, a lot of user privacy issues have been raised in 2G, 3G, 4G/LTE networks. Recognizing this general concern, 3GPP has prioritized addressing these issues in the development of 5G, implementing numerous modifications to enhance user privacy since 5G Release 15. In this systematization of knowledge paper, we first provide a framework for studying privacy and security related attacks in cellular networks, setting as privacy objective the User Identity Confidentiality defined in 3GPP standards. Using this framework, we discuss existing privacy and security attacks in pre-5G networks, analyzing the weaknesses that lead to these attacks. Furthermore, we thoroughly study the security characteristics of 5G up to the new Release 19, and examine mitigation mechanisms of 5G to the identified pre-5G attacks. Afterwards, we analyze how recent 5G attacks try to overcome these mitigation mechanisms. Finally, we identify current limitations and open problems in security of 5G, and propose directions for future work.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# ディープニューラルネットワークにおける接続概念の凸性と人間-機械配向

Connecting Concept Convexity and Human-Machine Alignment in Deep Neural Networks ( http://arxiv.org/abs/2409.06362v1 )

ライセンス: Link先を確認
Teresa Dorszewski, Lenka Tětková, Lorenz Linhardt, Lars Kai Hansen, (参考訳) ニューラルネットワークと人間の認知プロセスの整合性を理解することは、より解釈可能で信頼性の高いAIシステムを開発するための重要なステップである。 本研究では,人間の認知理論に触発され,ニューラルネットワーク表現における「emph{convexity}」と「emph{human-machine alignment}」の関係を行動データに基づいて検討した。 予め訓練された視覚変換器モデルと微調整された視覚変換器モデルとの相関関係を同定する。 以上の結果から,ニューラルネットワークの潜在空間に形成される凸領域は,人間の定義したカテゴリとある程度一致し,認知タスクにおいて人間が使用する類似性関係を反映していることが示唆された。 アライメントの最適化は一般に凸性を高めるが、細調整による凸性の増加はアライメントに矛盾する影響を生じさせ、両者の複雑な関係が示唆される。 本研究は、潜在表現の凸性と人間と機械のアライメントの関係を理解するための第一歩である。

Understanding how neural networks align with human cognitive processes is a crucial step toward developing more interpretable and reliable AI systems. Motivated by theories of human cognition, this study examines the relationship between \emph{convexity} in neural network representations and \emph{human-machine alignment} based on behavioral data. We identify a correlation between these two dimensions in pretrained and fine-tuned vision transformer models. Our findings suggest that the convex regions formed in latent spaces of neural networks to some extent align with human-defined categories and reflect the similarity relations humans use in cognitive tasks. While optimizing for alignment generally enhances convexity, increasing convexity through fine-tuning yields inconsistent effects on alignment, which suggests a complex relationship between the two. This study presents a first step toward understanding the relationship between the convexity of latent representations and human-machine alignment.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# モデルが条件付きである場合、拡散モデルに何が起こるか?

What happens to diffusion model likelihood when your model is conditional? ( http://arxiv.org/abs/2409.06364v1 )

ライセンス: Link先を確認
Mattias Cross, Anton Ragni, (参考訳) 拡散モデル(DM)は、ランダムサンプルを反復的に識別して高品質なデータを生成する。 反復サンプリングプロセスは確率微分方程式(SDE)から導出され、推論で選択された速度品質のトレードオフを可能にする。 微分方程式を用いたサンプリングのもう1つの利点は、正確な近似計算である。 これらの可能性は、非条件DMのランク付けや領域外分類に使われてきた。 DMの可能性は存在するが、特にText-To-Image (TTI) や Text-To-Speech synthesis (TTS) のような条件付き文脈では、その特徴は分かっていない。 意外なことに、TTS DMの可能性はテキスト入力に依存しない。 TTIはより表現力が高いが、欠点のあるプロンプトを識別することはできない。 その結果,条件付きタスクにDMを適用すると不整合が明らかになり,DMの特性が不明である可能性が示唆された。 この影響は、これまで知られていなかったDMの可能性に光を当てる。 条件DMは確率を最大化するが、問題の確率は期待する条件入力に敏感ではない。 この研究は拡散可能性の新しい視点を提供する。

Diffusion Models (DMs) iteratively denoise random samples to produce high-quality data. The iterative sampling process is derived from Stochastic Differential Equations (SDEs), allowing a speed-quality trade-off chosen at inference. Another advantage of sampling with differential equations is exact likelihood computation. These likelihoods have been used to rank unconditional DMs and for out-of-domain classification. Despite the many existing and possible uses of DM likelihoods, the distinct properties captured are unknown, especially in conditional contexts such as Text-To-Image (TTI) or Text-To-Speech synthesis (TTS). Surprisingly, we find that TTS DM likelihoods are agnostic to the text input. TTI likelihood is more expressive but cannot discern confounding prompts. Our results show that applying DMs to conditional tasks reveals inconsistencies and strengthens claims that the properties of DM likelihood are unknown. This impact sheds light on the previously unknown nature of DM likelihoods. Although conditional DMs maximise likelihood, the likelihood in question is not as sensitive to the conditioning input as one expects. This investigation provides a new point-of-view on diffusion likelihoods.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# エンド・ツー・エンド・エンド・ラーニング・アプローチによるマルチ・エボディメント・ロコモーション

One Policy to Run Them All: an End-to-end Learning Approach to Multi-Embodiment Locomotion ( http://arxiv.org/abs/2409.06366v1 )

ライセンス: Link先を確認
Nico Bohlinger, Grzegorz Czechmanowski, Maciej Krupka, Piotr Kicki, Krzysztof Walas, Jan Peters, Davide Tateo, (参考訳) 深層強化学習技術は、頑丈な足の移動において最先端の結果を達成する。 四足歩行、ヒューマノイド、ヘキサポッドなどの多種多様な脚を持つプラットフォームが存在するが、この分野には、これらの異なる実施物を簡単かつ効果的に制御できる単一の学習フレームワークがまだ欠けている。 本稿では,このギャップを埋めるために,統一ロボット形態学アーキテクチャであるURMAを紹介する。 筆者らのフレームワークは,脚ロボットの領域にエンド・ツー・エンドのマルチタスク強化学習アプローチを導入し,学習方針がロボット形態を制御できるようにする。 提案手法の鍵となる考え方は,形態に依存しないエンコーダとデコーダにより,ネットワークがエボディメント間でシームレスに共有できる抽象的な移動制御器を学習できるようにすることである。 この柔軟なアーキテクチャは、足歩行ロボットの移動の基礎モデルを構築するための第一歩となる可能性がある。 実験の結果,URMAは,シミュレーションや実世界において,見えないロボットプラットフォームに容易に移動可能な,複数の実施形態の移動ポリシーを学習できることが判明した。

Deep Reinforcement Learning techniques are achieving state-of-the-art results in robust legged locomotion. While there exists a wide variety of legged platforms such as quadruped, humanoids, and hexapods, the field is still missing a single learning framework that can control all these different embodiments easily and effectively and possibly transfer, zero or few-shot, to unseen robot embodiments. We introduce URMA, the Unified Robot Morphology Architecture, to close this gap. Our framework brings the end-to-end Multi-Task Reinforcement Learning approach to the realm of legged robots, enabling the learned policy to control any type of robot morphology. The key idea of our method is to allow the network to learn an abstract locomotion controller that can be seamlessly shared between embodiments thanks to our morphology-agnostic encoders and decoders. This flexible architecture can be seen as a potential first step in building a foundation model for legged robot locomotion. Our experiments show that URMA can learn a locomotion policy on multiple embodiments that can be easily transferred to unseen robot platforms in simulation and the real world.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# Texture-AD: リアルアルゴリズム開発のための異常検出データセットとベンチマーク

Texture-AD: An Anomaly Detection Dataset and Benchmark for Real Algorithm Development ( http://arxiv.org/abs/2409.06367v1 )

ライセンス: Link先を確認
Tianwu Lei, Bohan Wang, Silin Chen, Shurong Cao, Ningmu Zou, (参考訳) 異常検出は工業生産において重要なプロセスであり、近年は大きな進歩を遂げている。 しかし、開発で使用されるデータと生産環境によって収集されるデータの間には大きなばらつきがある。 そこで本研究では,テクスチャに基づく代表的な異常検出に基づくTexture-ADベンチマークを提案し,実世界のアプリケーションにおける教師なし異常検出アルゴリズムの有効性を評価する。 このデータセットには、15の異なる布、14の半導体ウェハ、10の金属プレートが異なる光学方式で取得されている。 さらに、スクラッチ、しわ、色の変化、点欠陥など、実際の製造プロセスで生成される10以上の異なるタイプの欠陥が含まれており、既存のデータセットよりも検出が難しいことが多い。 全ての異常領域には、異常検出モデルを用いた包括的な評価を容易にするピクセルレベルのアノテーションが提供されている。 具体的には、自動パイプラインにおける多種多様な製品に適応するために、ベースラインアルゴリズムの新たな評価方法と結果を提案する。 実験の結果,Texture-ADは最先端のアルゴリズムでは難しい課題であることがわかった。 私たちの知る限り、Texture-ADは、産業的欠陥検出アルゴリズムを実世界で評価するための最初のデータセットです。 データセットはhttps://XXX.orgで公開されている。

Anomaly detection is a crucial process in industrial manufacturing and has made significant advancements recently. However, there is a large variance between the data used in the development and the data collected by the production environment. Therefore, we present the Texture-AD benchmark based on representative texture-based anomaly detection to evaluate the effectiveness of unsupervised anomaly detection algorithms in real-world applications. This dataset includes images of 15 different cloth, 14 semiconductor wafers and 10 metal plates acquired under different optical schemes. In addition, it includes more than 10 different types of defects produced during real manufacturing processes, such as scratches, wrinkles, color variations and point defects, which are often more difficult to detect than existing datasets. All anomalous areas are provided with pixel-level annotations to facilitate comprehensive evaluation using anomaly detection models. Specifically, to adapt to diverse products in automated pipelines, we present a new evaluation method and results of baseline algorithms. The experimental results show that Texture-AD is a difficult challenge for state-of-the-art algorithms. To our knowledge, Texture-AD is the first dataset to be devoted to evaluating industrial defect detection algorithms in the real world. The dataset is available at https://XXX.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# 極低解像度顔認識のための発音識別表現の蒸留

Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition ( http://arxiv.org/abs/2409.06371v1 )

ライセンス: Link先を確認
Junzheng Zhang, Weijia Guo, Bochao Liu, Ruixin Shi, Yong Li, Shiming Ge, (参考訳) 非常に低解像度の顔認識は、分解能劣化における情報的な顔の細部が著しく失われているため困難である。 本稿では,生成表現とクロスレゾリューション・アライメント・アライメント・ナレッジ・蒸留を組み合わせた生成-識別的表現蒸留手法を提案する。 このアプローチは、2つの蒸留モジュールを通して生成モデルと識別モデルを共同で蒸留することで、非常に低解像度の顔認識を促進する。 まず、生成表現蒸留は、顔超解像のために予め訓練された拡散モデルのエンコーダを生成教師として、特徴回帰により生徒のバックボーンの学習を監督し、学生のバックボーンを凍結させる。 その後、識別表現蒸留は、予め訓練された顔認識器を、クロスレゾリューションリレーショナルコントラスト蒸留により、生徒の学習を監督する識別教師とみなす。 このようにして、一般的なバックボーン表現は差別的頭部表現に変換することができ、非常に低解像度の顔認識のための頑健で差別的な学生モデルをもたらす。 提案手法は, 極めて低解像度な面における詳細の欠落の回復を改善し, より優れた知識伝達を実現する。 顔データセットに対する大規模な実験により、我々のアプローチは、非常に低解像度の顔の認識精度を高め、その有効性と適応性を示す。

Very low-resolution face recognition is challenging due to the serious loss of informative facial details in resolution degradation. In this paper, we propose a generative-discriminative representation distillation approach that combines generative representation with cross-resolution aligned knowledge distillation. This approach facilitates very low-resolution face recognition by jointly distilling generative and discriminative models via two distillation modules. Firstly, the generative representation distillation takes the encoder of a diffusion model pretrained for face super-resolution as the generative teacher to supervise the learning of the student backbone via feature regression, and then freezes the student backbone. After that, the discriminative representation distillation further considers a pretrained face recognizer as the discriminative teacher to supervise the learning of the student head via cross-resolution relational contrastive distillation. In this way, the general backbone representation can be transformed into discriminative head representation, leading to a robust and discriminative student model for very low-resolution face recognition. Our approach improves the recovery of the missing details in very low-resolution faces and achieves better knowledge transfer. Extensive experiments on face datasets demonstrate that our approach enhances the recognition accuracy of very low-resolution faces, showcasing its effectiveness and adaptability.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# SpeechTaxi:多言語セマンティック音声分類について

SpeechTaxi: On Multilingual Semantic Speech Classification ( http://arxiv.org/abs/2409.06372v1 )

ライセンス: Link先を確認
Lennart Keller, Goran Glavaš, (参考訳) 近年の多言語音声符号化の進歩と書き起こしは、意味音声分類における最も効果的なアプローチの疑問を提起している。 具体的には、(1)最先端の多言語音声エンコーダ(MSE)を微調整して得られるエンドツーエンド(E2E)分類器を、(2)カスケード(CA)の性能に適合させるか、又は超過させることで、まず音声をテキストに書き起こし、分類をテキストベース分類器に委譲することができる。 そこで我々はまず,28の多言語を対象とする,聖書の意味的音声分類のための80時間多言語データセットであるSpeechTaxiを構築した。 次に、SpeechTaxiを用いて、単言語意味音声分類や言語間移動において、E2EとCAを比較した幅広い実験を行う。 MSEをベースとしたE2Eは、言語内データでトレーニングされた場合、単言語的な設定でCAを上回っている。 しかし、MSEは言語間移動能力が劣っているようで、E2Eは(1)訓練で見えない言語へのゼロショット転送と(2)多言語訓練、すなわち複数の言語での共同訓練の両方でCAを大幅に遅れている。 最後に, 言語に依存しない中間表現として, ローマ字文への書き起こしに基づく新しいCAアプローチを考案し, ネイティブなASRサポートを持たない言語に対する堅牢な解であることを示す。 SpeechTaxiデータセットは、https://huggingface.co/ datasets/LennartKeller/SpeechTaxi/で公開されています。

Recent advancements in multilingual speech encoding as well as transcription raise the question of the most effective approach to semantic speech classification. Concretely, can (1) end-to-end (E2E) classifiers obtained by fine-tuning state-of-the-art multilingual speech encoders (MSEs) match or surpass the performance of (2) cascading (CA), where speech is first transcribed into text and classification is delegated to a text-based classifier. To answer this, we first construct SpeechTaxi, an 80-hour multilingual dataset for semantic speech classification of Bible verses, covering 28 diverse languages. We then leverage SpeechTaxi to conduct a wide range of experiments comparing E2E and CA in monolingual semantic speech classification as well as in cross-lingual transfer. We find that E2E based on MSEs outperforms CA in monolingual setups, i.e., when trained on in-language data. However, MSEs seem to have poor cross-lingual transfer abilities, with E2E substantially lagging CA both in (1) zero-shot transfer to languages unseen in training and (2) multilingual training, i.e., joint training on multiple languages. Finally, we devise a novel CA approach based on transcription to Romanized text as a language-agnostic intermediate representation and show that it represents a robust solution for languages without native ASR support. Our SpeechTaxi dataset is publicly available at: https://huggingface.co/ datasets/LennartKeller/SpeechTaxi/.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# 多視点反射と反復によるシーケンスレコメンデーションの強化

Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration ( http://arxiv.org/abs/2409.06377v1 )

ライセンス: Link先を確認
Weicong Qin, Yi Xu, Weijie Yu, Chenglei Shen, Xiao Zhang, Ming He, Jianping Fan, Jun Xu, (参考訳) シーケンスレコメンデーション(SeqRec)は、ユーザの意図を理解し、協調的なフィルタリング情報を活用することによって、ユーザが対話する次の項目を予測することを目的としている。 大規模言語モデル(LLM)は、プロンプトベース、固定されたリフレクションライブラリ、微調整技術を通じて推奨タスクにおいて大きな可能性を示してきた。 しかし、これらの手法は、監督の欠如、反射源を最適化できないこと、多様なユーザニーズに対する柔軟性、高い計算コストなど、課題に直面している。 有望な結果にもかかわらず、最近の研究では主にユーザの明示的な嗜好(例:アイテムタイトル)の反映に焦点を当て、暗黙的な選好(例:ブランド)や協調的なフィルタリング情報を無視している。 この監視は、好みのシフトや動的なユーザー行動の捕捉を妨げる。 さらに、既存のアプローチではリフレクション評価とイテレーションのメカニズムが欠如しており、しばしば準最適リコメンデーションにつながっている。 これらの問題に対処するために,SeqRecで動的ユーザの好みをモデル化し学習するためのMixture of Reflectors (MoRE)フレームワークを提案する。 特に、MoREは、明示的な嗜好、暗黙的な嗜好、協調的な信号に関するLLMベースのリフレクションを生成するための3つのリフレクタを導入している。 各リフレクタには自己改善戦略(refining-and-iteration)が組み込まれており、リフレクタの評価と反復的にリフレクタを更新する。 さらに、メタリフレクタはコンテキスト的バンディットアルゴリズムを用いて、各ユーザの推薦に最も適した専門家とそれに対応するリフレクションを選択し、動的嗜好を効果的にキャプチャする。 3つの実世界のデータセットに対する大規模な実験により、MoREは、SeqRecの他のLLMベースのアプローチと比較して、トレーニング時間とGPUメモリを少なくして、最先端のメソッドを一貫して上回ることを示した。

Sequence recommendation (SeqRec) aims to predict the next item a user will interact with by understanding user intentions and leveraging collaborative filtering information. Large language models (LLMs) have shown great promise in recommendation tasks through prompt-based, fixed reflection libraries, and fine-tuning techniques. However, these methods face challenges, including lack of supervision, inability to optimize reflection sources, inflexibility to diverse user needs, and high computational costs. Despite promising results, current studies primarily focus on reflections of users' explicit preferences (e.g., item titles) while neglecting implicit preferences (e.g., brands) and collaborative filtering information. This oversight hinders the capture of preference shifts and dynamic user behaviors. Additionally, existing approaches lack mechanisms for reflection evaluation and iteration, often leading to suboptimal recommendations. To address these issues, we propose the Mixture of REflectors (MoRE) framework, designed to model and learn dynamic user preferences in SeqRec. Specifically, MoRE introduces three reflectors for generating LLM-based reflections on explicit preferences, implicit preferences, and collaborative signals. Each reflector incorporates a self-improving strategy, termed refining-and-iteration, to evaluate and iteratively update reflections. Furthermore, a meta-reflector employs a contextual bandit algorithm to select the most suitable expert and corresponding reflections for each user's recommendation, effectively capturing dynamic preferences. Extensive experiments on three real-world datasets demonstrate that MoRE consistently outperforms state-of-the-art methods, requiring less training time and GPU memory compared to other LLM-based approaches in SeqRec.
翻訳日:2024-09-11 18:19:52 公開日:2024-09-10
# 非解読型Oracle骨碑文認識のためのクロスフォン画像検索ネットワーク

A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions ( http://arxiv.org/abs/2409.06381v1 )

ライセンス: Link先を確認
Zhicong Wu, Qifeng Su, Ke Gu, Xiaodong Shi, (参考訳) Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムであり、ヒエログリフの開発において重要な段階である。 それでも、未解読のOBI文字のかなりの量は学者にとって永続的な課題であり続けており、従来の書体研究の手法は時間がかかり、労働集約的である。 本稿では,OBI文字と他のスクリプト形式との関連性を確立し,古文学者の解釈行動をシミュレートすることで,OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。 具体的には,様々なフォントの文字画像から深い特徴を抽出するシマセフレームワークを用いて,設計したマルチスケール特徴統合(MFI)モジュールとマルチスケール精細分類器(MRC)を用いて,解像度の異なる構造手がかりを探索する。 3つの難解なクロスファント画像検索データセットに対する大規模な実験により、未解読のOBI文字が与えられた場合、我々のCFIRNは、他のギャラリーフォントの文字との正確なマッチングを効果的に達成できることを示した。

Oracle Bone Inscription (OBI) is the earliest mature writing system known in China to date, which represents a crucial stage in the development of hieroglyphs. Nevertheless, the substantial quantity of undeciphered OBI characters continues to pose a persistent challenge for scholars, while conventional methods of ancient script research are both time-consuming and labor-intensive. In this paper, we propose a cross-font image retrieval network (CFIRN) to decipher OBI characters by establishing associations between OBI characters and other script forms, simulating the interpretive behavior of paleography scholars. Concretely, our network employs a siamese framework to extract deep features from character images of various fonts, fully exploring structure clues with different resolution by designed multiscale feature integration (MFI) module and multiscale refinement classifier (MRC). Extensive experiments on three challenging cross-font image retrieval datasets demonstrate that, given undeciphered OBI characters, our CFIRN can effectively achieve accurate matches with characters from other gallery fonts.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# AMNS:テキスト・画像検索のための注意重み付き選択マスクとノイズラベル抑圧

AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval ( http://arxiv.org/abs/2409.06385v1 )

ライセンス: Link先を確認
Runqing Zhang, Xue Zhou, (参考訳) テキスト・トゥ・イメージ・パーソン検索は、与えられたテキスト記述を検索することを目的としており、ほとんどの手法では、トレーニング用画像・テキストペアが正しく一致していると暗黙的に仮定するが、実際には、画像品質と誤ラベルが原因で、画像・テキストペアに対して非相関性および偽相関性の問題が発生する。 一方、ランダムマスキング強化戦略は、画像の語彙要素とテキスト記述との間のノイズの多いペアリングを発生させる問題となる意味的コンテンツを誤って破棄する可能性がある。 これら2つの問題を解決するため、注意重み付き選択マスク戦略により、ランダムマスクが生み出す問題を緩和する新しいノイズラベル抑制手法を提案する。 ノイズラベル抑制法では、逆KL散乱損失と重み調整焦点損失を組み合わせた逆KL散乱損失を考慮してモデルが過信されることを防止し、より難しいサンプルに対するモデルの認識能力を向上することにより、ノイズラベルの効果を抑制する。 一方、Attention-Weighted Selective Maskは、画像エンコーダのEMAバージョンを介して生画像を処理する。 多くの実験でノイズ問題に対処する手法の有効性が検証されている。 コードは近々https://github.com/RunQing715/AMNS.git.comで公開される。

Text-to-image person retrieval aims to retrieve images of person given textual descriptions, and most methods implicitly assume that the training image-text pairs are correctly aligned, but in practice, under-correlated and false-correlated problems arise for image-text pairs due to poor image quality and mislabeling. Meanwhile, the random masking augmentation strategy may incorrectly discard semantic content resulting in the problem of generating noisy pairings between image lexical elements and text descriptions. To solve these two problems, we propose a new noise label suppression method and alleviate the problem generated by random mask through an attention-weighted selective mask strategy. In the proposed noise label suppression method, the effect of noise labels is suppressed by preventing the model from being overconfident by considering the inverse KL scatter loss, which is combined with the weight adjustment focus loss to further improve the model's recognition ability on difficult samples. On the other hand, Attention-Weighted Selective Mask processes the raw image through the EMA version of the image encoder, retaining some of the tokens with strong semantic associations with the corresponding text descriptions in order to extract better features. Numerous experiments validate the effectiveness of our approach in terms of dealing with noisy problems. The code will be available soon at https://github.com/RunQing715/AMNS.git.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 英語辞書のセマンティックマッチングに基づく粗粒センスインベントリ

Coarse-Grained Sense Inventories Based on Semantic Matching between English Dictionaries ( http://arxiv.org/abs/2409.06386v1 )

ライセンス: Link先を確認
Masato Kikuchi, Masatsugu Ono, Toshioki Soga, Tetsu Tanabe, Tadachika Ozono, (参考訳) WordNetは、意味的関係を通じて単語接続を視覚化する、手作りのコンセプト辞書としては最大級である。 自然言語処理タスクのワードセンスインベントリとして広く使用されている。 しかし、WordNetのきめ細かい感覚は、ユーザビリティを制限しているとして批判されている。 本稿では,ケンブリッジの辞書とWordNetの感覚定義を意味的にマッチングし,より粗い感覚の在庫を新たに開発する。 それらのセマンティック・コヒーレンスと粗いセンス・インベントリのセマンティック・コヒーレンスを比較して、在庫の有効性を検証する。 提案された在庫の利点は、大規模資源への依存度が低いこと、密接に関連する感覚の集約性の向上、CEFRレベルの割り当て、拡張と改善の容易さである。

WordNet is one of the largest handcrafted concept dictionaries visualizing word connections through semantic relationships. It is widely used as a word sense inventory in natural language processing tasks. However, WordNet's fine-grained senses have been criticized for limiting its usability. In this paper, we semantically match sense definitions from Cambridge dictionaries and WordNet and develop new coarse-grained sense inventories. We verify the effectiveness of our inventories by comparing their semantic coherences with that of Coarse Sense Inventory. The advantages of the proposed inventories include their low dependency on large-scale resources, better aggregation of closely related senses, CEFR-level assignments, and ease of expansion and improvement.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 開量子臨界系における断熱へのショートカット

Shortcuts to adiabaticity in open quantum critical systems ( http://arxiv.org/abs/2409.06387v1 )

ライセンス: Link先を確認
Shishira Mahunta, Victor Mukherjee, (参考訳) 量子臨界系における反断熱駆動による断熱へのショートカット(STA)について,散逸の存在下で検討する。 系密度行列は時間依存参照ハミルトニアンの固有状態に対応する所定の軌道を任意のタイミングで従うように、ユニタリだけでなく非ユニタリ制御も評価する。 低エネルギー状態に対する散逸子制御項の強さは、臨界に近い普遍的なスケーリングを示している。 逆場イジングモデルの例を用いて、閉量子臨界系におけるSTAとは対照的に、STAは時間依存的目標状態のエントロピーの変化のため、臨界性から離れても多体相互作用項を必要とする可能性があることを示す。 さらに、関連する熱電流は極端を示し、電力の消散により曲率が変化し、臨界に近づき、一元制御に類似するが、正確な反断熱ハミルトニアンの実装に運用コストはかからない。 本研究は,多体オープン量子系におけるSTAの理解において基本的重要性が期待され,量子計算や多体量子熱エンジンなどのオープン多体量子系に関わる様々なトピックに非常に関係している。

We study shortcuts to adiabaticity (STA) through counterdiabatic driving in quantum critical systems, in the presence of dissipation. We evaluate unitary as well as non-unitary controls, such that the system density matrix follows a prescribed trajectory corresponding to the eigenstates of a time-dependent reference Hamiltonian, at any instant of time. The strength of the dissipator control term for the low energy states show universal scaling close to criticality. Using the example of the transverse-field Ising model, we show that in contrast to STA in closed quantum critical systems, here STA may require multi-body interactions terms, even away from criticality, owing to change in entropy of the time-dependent target state. Further, the associated heat current shows extremum, while power dissipated changes curvature, close to criticality, and analogous to unitary control, no operational cost is associated with implementation of the exact counterdiabatic Hamiltonian. We expect the counterdiabatic protocol studied here can be of fundamental importance for understanding STA in many-body open quantum systems, and can be highly relevant for varied topics involving open many-body quantum systems, such as quantum computation and many-body quantum heat engines.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# SBOM発電機がPythonの脆弱性評価に及ぼす影響 : 比較と新しいアプローチ

The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach ( http://arxiv.org/abs/2409.06390v1 )

ライセンス: Link先を確認
Giacomo Benedetti, Serena Cofano, Alessandro Brighente, Mauro Conti, (参考訳) ソフトウェアサプライチェーン(SSC)のセキュリティは、ユーザと開発者にとっても重要な懸念事項です。 最近の出来事、例えばSolarWinds Orionの妥協は、妥協されたソフトウェアの配布による広範な影響を証明した。 現代のソフトウェアの重要な部分を占めるオープンソースコンポーネントへの依存は、このリスクをさらに悪化させます。 SSCのセキュリティを強化するため、ソフトウェア構成における透明性と検証可能性を高めるツールとして、SBOM(Software Bill of Materials)が推進されている。 しかし、その約束にもかかわらず、SBOMは制限がないわけではない。 現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされ、SSCの誤った表現や不完全な表現が生成される。 これらの制限を暴露する既存の研究にもかかわらず、セキュリティツールの脆弱性検出能力への影響はまだ分かっていない。 本稿では,SBOMを入力として受信するツールの脆弱性検出機能について,最初のセキュリティ解析を行う。 我々は、脆弱性識別ソフトウェアに出力を提供することにより、SBOM生成ツールを包括的に評価する。 本研究は,これらのツールの非効率性の根本原因を同定し,その欠点に対処する新しいピップインスパイアされたソリューションであるPIP-sbomを提案する。 PIP-sbomは、コンポーネント識別と依存性解決の精度を向上させる。 最先端のツールと比較して、PIP-sbomは平均精度とリコールを60%増加させ、偽陽性の10倍減少させる。

The Software Supply Chain (SSC) security is a critical concern for both users and developers. Recent incidents, like the SolarWinds Orion compromise, proved the widespread impact resulting from the distribution of compromised software. The reliance on open-source components, which constitute a significant portion of modern software, further exacerbates this risk. To enhance SSC security, the Software Bill of Materials (SBOM) has been promoted as a tool to increase transparency and verifiability in software composition. However, despite its promise, SBOMs are not without limitations. Current SBOM generation tools often suffer from inaccuracies in identifying components and dependencies, leading to the creation of erroneous or incomplete representations of the SSC. Despite existing studies exposing these limitations, their impact on the vulnerability detection capabilities of security tools is still unknown. In this paper, we perform the first security analysis on the vulnerability detection capabilities of tools receiving SBOMs as input. We comprehensively evaluate SBOM generation tools by providing their outputs to vulnerability identification software. Based on our results, we identify the root causes of these tools' ineffectiveness and propose PIP-sbom, a novel pip-inspired solution that addresses their shortcomings. PIP-sbom provides improved accuracy in component identification and dependency resolution. Compared to best-performing state-of-the-art tools, PIP-sbom increases the average precision and recall by 60%, and reduces by ten times the number of false positives.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 粒子物理におけるロバスト半パラメトリック信号検出

Robust semi-parametric signal detection in particle physics with classifiers decorrelated via optimal transport ( http://arxiv.org/abs/2409.06399v1 )

ライセンス: Link先を確認
Purvasha Chakravarti, Lucas Kania, Olaf Behnke, Mikael Kuusela, Larry Wasserman, (参考訳) 粒子物理学における新しい信号の探索は通常、教師付き分類器を訓練して、既知の標準模型物理学(バックグラウンドモデルとも呼ばれる)から信号モデルを分離することで行われる。 しかし、信号モデルが正しい場合でも、背景モデルの体系的誤差は教師付き分類器に影響を与え、信号検出手順に悪影響を及ぼす可能性がある。 この問題に対処するためには、予備的な信号富化ステップを実行し、実際の実験データのみを用いて信号富化サンプルにバンプハントを実行するという方法がある。 この手順を動作させるためには、信号検出ステップで使用される1つ以上の保護変数と非相関な分類器が必要である。 我々は、バックグラウンドで保護された変数(s)から独立させる分類器出力の最適トランスポートマップを考慮し、これを行う。 次に、半パラメトリック混合モデルを変換された分類器にカットした後、保護された変数の分布に適合させ、信号の存在を検出する。 我々は,このデコリレーション法と従来の手法との比較と対比し,このデコリレーション法が中程度の背景不特定に頑健であることを示し,信号検出テストのパワーを分類器上のカットの関数として分析する。

Searches of new signals in particle physics are usually done by training a supervised classifier to separate a signal model from the known Standard Model physics (also called the background model). However, even when the signal model is correct, systematic errors in the background model can influence supervised classifiers and might adversely affect the signal detection procedure. To tackle this problem, one approach is to use the (possibly misspecified) classifier only to perform a preliminary signal-enrichment step and then to carry out a bump hunt on the signal-rich sample using only the real experimental data. For this procedure to work, we need a classifier constrained to be decorrelated with one or more protected variables used for the signal detection step. We do this by considering an optimal transport map of the classifier output that makes it independent of the protected variable(s) for the background. We then fit a semi-parametric mixture model to the distribution of the protected variable after making cuts on the transformed classifier to detect the presence of a signal. We compare and contrast this decorrelation method with previous approaches, show that the decorrelation procedure is robust to moderate background misspecification, and analyse the power of the signal detection test as a function of the cut on the classifier.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# ニューラルネットワーク最適化における対称性の破れ:入力次元拡大からの考察

Symmetry Breaking in Neural Network Optimization: Insights from Input Dimension Expansion ( http://arxiv.org/abs/2409.06402v1 )

ライセンス: Link先を確認
Jun-Jie Zhang, Nan Cheng, Fu-Peng Li, Xiu-Cheng Wang, Jian-Nan Chen, Long-Gang Pang, Deyu Meng, (参考訳) ニューラルネットワーク最適化の背後にあるメカニズムを理解することは、ネットワーク設計と性能を改善する上で不可欠である。 様々な最適化技術が開発されているが、これらの技術を管理する基礎となる原則の包括的な理解はいまだ解明されていない。 特に、物理における基本的な概念である対称性の破れの役割は、ニューラルネットワークの最適化において完全には研究されていない。 この知識のギャップは、効率的かつ効果的にネットワークを設計する能力を制限します。 本稿では,ニューラルネットワーク最適化の強化における対称性破れの意義を明らかにするために,対称性破れ仮説を提案する。 単純な入力拡張は様々なタスクにおけるネットワーク性能を著しく向上させることができることを実証し、この改善は基礎となる対称性の破れ機構によるものであることを示す。 さらに、ニューラルネットワークにおける対称性の破れの程度を定量化する指標を開発し、ネットワーク設計の評価とガイドを行うための実践的なアプローチを提供する。 その結果, 対称性の破れは, ドロップアウト, バッチ正規化, 等分散など, 様々な最適化手法の基盤となる基本原理であることが確認された。 対称性の破れの度合いを定量化することにより、我々の研究は、パフォーマンス向上のための実践的な技術と、完全なデータセットや広範なトレーニングプロセスを必要としない、ネットワーク設計をガイドする指標を提供する。

Understanding the mechanisms behind neural network optimization is crucial for improving network design and performance. While various optimization techniques have been developed, a comprehensive understanding of the underlying principles that govern these techniques remains elusive. Specifically, the role of symmetry breaking, a fundamental concept in physics, has not been fully explored in neural network optimization. This gap in knowledge limits our ability to design networks that are both efficient and effective. Here, we propose the symmetry breaking hypothesis to elucidate the significance of symmetry breaking in enhancing neural network optimization. We demonstrate that a simple input expansion can significantly improve network performance across various tasks, and we show that this improvement can be attributed to the underlying symmetry breaking mechanism. We further develop a metric to quantify the degree of symmetry breaking in neural networks, providing a practical approach to evaluate and guide network design. Our findings confirm that symmetry breaking is a fundamental principle that underpins various optimization techniques, including dropout, batch normalization, and equivariance. By quantifying the degree of symmetry breaking, our work offers a practical technique for performance enhancement and a metric to guide network design without the need for complete datasets and extensive training processes.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 量子コンピュータにおける数体QCDに向けて

Towards few-body QCD on a quantum computer ( http://arxiv.org/abs/2409.06403v1 )

ライセンス: Link先を確認
J. J. Galvez-Viruet, (参考訳) 量子コンピュータは多体システムのシミュレーションに有望なツールであり、中でもQCDは豊かな現象論で際立っている。 それぞれのシミュレーションは符号化から始まり、ここではレジスタと粒子の識別に基づいて新たに開発されたコンパクトエンコーディングを精査し、量子メモリをレジスタに分割し、それぞれに符号化された粒子の自由度の次元のヒルベルト空間を関連付ける。 このようにして、多くの自由度を持つ低数の粒子に対して、直接符号化よりも指数的な圧縮が得られる。 例えば、このエンコーディングを2レジスタメモリに適用し、アンチシンメトリゼーションと指数アルゴリズムを実装します。

Quantum computers are promising tools for the simulation of many-body systems, and among those, QCD stands out by its rich phenomenology. Every simulation starts with a codification, and here we succently review a newly developed compact encoding based on the identification between registers and particles; the quantum memory is divided into registers, and to each we associate a Hilbert space of dimension the number of degrees of freedom of the codified particles. In this way we gain an exponential compression over direct encodings for a low number of particles with many degrees of freedom. As an example we apply this encoding on a two-register memory and implement antisymmetrization and exponentiation algorithms.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 3次元シーン再構成における不確かさの源泉

Sources of Uncertainty in 3D Scene Reconstruction ( http://arxiv.org/abs/2409.06407v1 )

ライセンス: Link先を確認
Marcus Klasson, Riccardo Mereu, Juho Kannala, Arno Solin, (参考訳) 3次元シーン再構成のプロセスは、現実世界のシーンにおける多くの不確実性ソースに影響される可能性がある。 Neural Radiance Fields (NeRF) と 3D Gaussian Splatting (GS) は高忠実なレンダリングを実現するが、ノイズ、閉塞、不正確なカメラポーズの入力から生じる不確実性に直接対処または定量化するための組み込みメカニズムは欠如している。 本稿では,これらの手法に固有の不確実性の原因を分類する分類法を提案する。 さらに,NeRFおよびGSに基づく手法を,不確実性出力やアンサンブルの学習を含む不確実性推定手法で拡張し,再現の感度を捉える能力を評価するための実証的研究を行った。 本研究では,NeRF/GSをベースとした3次元再構成手法の設計において,様々な不確実性に対処する必要性を強調した。

The process of 3D scene reconstruction can be affected by numerous uncertainty sources in real-world scenes. While Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (GS) achieve high-fidelity rendering, they lack built-in mechanisms to directly address or quantify uncertainties arising from the presence of noise, occlusions, confounding outliers, and imprecise camera pose inputs. In this paper, we introduce a taxonomy that categorizes different sources of uncertainty inherent in these methods. Moreover, we extend NeRF- and GS-based methods with uncertainty estimation techniques, including learning uncertainty outputs and ensembles, and perform an empirical study to assess their ability to capture the sensitivity of the reconstruction. Our study highlights the need for addressing various uncertainty aspects when designing NeRF/GS-based methods for uncertainty-aware 3D reconstruction.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 方向性優先最適化における長さ脱感作

Length Desensitization in Directed Preference Optimization ( http://arxiv.org/abs/2409.06411v1 )

ライセンス: Link先を確認
Wei Liu, Yang Bai, Chengcheng Han, Rongxiang Weng, Jun Xu, Xuezhi Cao, Jingang Wang, Xunliang Cai, (参考訳) 直接選好最適化(DPO)はRLHF(Reinforcement Learning from Human Feedback)フェーズで広く利用されており、大きな言語モデル(LLM)を人間の嗜好と整合させ、それらの無害性と有効性の両方を高める。 しかし、DPOは冗長性に対して過度に最適化される傾向にあり、パフォーマンスとユーザエクスペリエンスの両方に有害に影響を及ぼす可能性がある。 本稿では,DPOの最適化目標の詳細な理論的解析を行い,その暗黙の報酬とデータ長との間に強い相関関係を示す。 この相関関係は最適化方向を誤解し、DPOトレーニング中に長さ感度を低下させ、冗長性をもたらす。 そこで本研究では,LD-DPOと呼ばれるDPOの時間依存性改善手法を提案する。 提案手法は,他の暗黙的選好から比較的重要でない明示的な長さ選好を分離することにより,データ長へのDPOの脱感化を図り,本質的な選好をより効果的に学習することを目的とする。 Llama2-13B, Llama3-8B, Qwen2-7Bの2つの設定(ベースとインストラクション)をMT-Bench, AlpacaEval2などの各種ベンチマークで実験的に検証した。 実験結果から,LD-DPOはDPOと他のベースライン法を一貫して上回り,DPOと比較して10~40倍の短縮でより簡潔な応答が得られた。 我々は,LD-DPOが実際に長さの脱感作を実現し,モデルと人間の嗜好をより緊密に調整できることを実証するために,詳細な実験分析を行った。

Direct Preference Optimization (DPO) is widely utilized in the Reinforcement Learning from Human Feedback (RLHF) phase to align Large Language Models (LLMs) with human preferences, thereby enhancing both their harmlessness and efficacy. However, it has been observed that DPO tends to over-optimize for verbosity, which can detrimentally affect both performance and user experience. In this paper, we conduct an in-depth theoretical analysis of DPO's optimization objective and reveal a strong correlation between its implicit reward and data length. This correlation misguides the optimization direction, resulting in length sensitivity during the DPO training and leading to verbosity. To address this issue, we propose a length-desensitization improvement method for DPO, termed LD-DPO. The proposed method aims to desensitize DPO to data length by decoupling explicit length preference, which is relatively insignificant, from the other implicit preferences, thereby enabling more effective learning of the intrinsic preferences. We utilized two settings (Base and Instruct) of Llama2-13B, Llama3-8B, and Qwen2-7B for experimental validation on various benchmarks including MT-Bench and AlpacaEval 2. The experimental results indicate that LD-DPO consistently outperforms DPO and other baseline methods, achieving more concise responses with a 10-40\% reduction in length compared to DPO. We conducted in-depth experimental analyses to demonstrate that LD-DPO can indeed achieve length desensitization and align the model more closely with human-real preferences.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 量子古典波動関数を用いた連続空間系のシミュレーション

Simulating continuous-space systems with quantum-classical wave functions ( http://arxiv.org/abs/2409.06415v1 )

ライセンス: Link先を確認
Friederike Metz, Gabriel Pescia, Giuseppe Carleo, (参考訳) ほとんどの非相対論的相互作用量子多体系、例えば原子と分子のアンサンブルや材料は、自然に連続空間ハミルトニアンによって記述される。 デジタル量子コンピュータ上での基底状態特性のシミュレーションは、現在のアルゴリズムは離散化を必要とするため、通常は有限基底セットを選択する必要があるため、必然的にエラーを発生させる。 本研究では,古典的資源と量子的資源を大域的変分アンザッツに組み合わせ,モンテカルロ変分アンザッツの枠組みを用いて最適化する手法を提案する。 一次元量子ローターモデル、一次元と二次元のヘリウム3粒子の系、二次元同質電子ガスの3つのパラダイム的連続空間系について、純粋に量子的およびハイブリッドな量子古典的アンサツェを紹介する。 フェルミオン波動関数の反対称性のような関連する制約をアンザッツに直接埋め込む。 多体相関は、パラメータ化量子回路で表されるバックフロー変換によってもたらされる。 回路パラメータの数を増やすことでシミュレーションの精度を体系的に改善できることを示し、ショットノイズの影響について検討する。 さらに、このハイブリッドアンザッツは、純粋に古典的な波動関数を用いて得られる基底状態エネルギーを改善することを示す。

Most non-relativistic interacting quantum many-body systems, such as atomic and molecular ensembles or materials, are naturally described in terms of continuous-space Hamiltonians. The simulation of their ground-state properties on digital quantum computers is challenging because current algorithms require discretization, which usually amounts to choosing a finite basis set, inevitably introducing errors. In this work, we propose an alternative, discretization-free approach that combines classical and quantum resources in a global variational ansatz, optimized using the framework of variational Monte Carlo. We introduce both purely quantum as well as hybrid quantum-classical ansatze and benchmark them on three paradigmatic continuous-space systems that are either very challenging or beyond the reach of current quantum approaches: the one-dimensional quantum rotor model, a system of Helium-3 particles in one and two dimensions, and the two-dimensional homogeneous electron gas. We embed relevant constraints such as the antisymmetry of fermionic wave functions directly into the ansatz. Many-body correlations are introduced via backflow transformations represented by parameterized quantum circuits. We demonstrate that the accuracy of the simulation can be systematically improved by increasing the number of circuit parameters and study the effects of shot noise. Furthermore, we show that the hybrid ansatz improves the ground-state energies obtained using the purely classical wave function.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 産業試験保守プロセスにおける大規模言語モデルの統合の探求

Exploring the Integration of Large Language Models in Industrial Test Maintenance Processes ( http://arxiv.org/abs/2409.06416v1 )

ライセンス: Link先を確認
Ludvig Lemner, Linnea Wahlgren, Gregory Gay, Nasser Mohammadiha, Jingxiong Liu, Joakim Wennerberg, (参考訳) テストスイートとシステムアンダーテストの同期を維持するためにテストケースの追加、削除、修正、あるいはそれ以外は品質を改善するために、ソフトウェアテストプロセスに必要なコストと労力の多くをテストメンテナンスの実行に費やします。 ツールのサポートは、プロセスの側面を自動化したり、開発者にガイダンスやサポートを提供することによって、テストメンテナンスのコストを削減し、品質を改善します。 本研究では,大規模言語モデル (LLM) - テキスト解析に適応した複雑な機械学習モデル - の機能と応用について検討し,テストメンテナンスを支援する。 我々はEricsson ABでケーススタディを行い、テストメンテナンスの必要性を示すトリガ、LCMが取るべき行動、産業環境でのLCMの展開時に行うべきことの考察を行った。 また、ソースコードの変更後、どのテストケースがメンテナンスを必要とするかを予測できる2つのマルチエージェントアーキテクチャの実装を提案し、実証した。 これらの貢献は, 産業用試験保守プロセスの恩恵を受けるため, LLMの展開方法に関する理論的, 実践的な理解を深めるものである。

Much of the cost and effort required during the software testing process is invested in performing test maintenance - the addition, removal, or modification of test cases to keep the test suite in sync with the system-under-test or to otherwise improve its quality. Tool support could reduce the cost - and improve the quality - of test maintenance by automating aspects of the process or by providing guidance and support to developers. In this study, we explore the capabilities and applications of large language models (LLMs) - complex machine learning models adapted to textual analysis - to support test maintenance. We conducted a case study at Ericsson AB where we explored the triggers that indicate the need for test maintenance, the actions that LLMs can take, and the considerations that must be made when deploying LLMs in an industrial setting. We also proposed and demonstrated implementations of two multi-agent architectures that can predict which test cases require maintenance following a change to the source code. Collectively, these contributions advance our theoretical and practical understanding of how LLMs can be deployed to benefit industrial test maintenance processes.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 未発見の脅威:水中画像強調モデルの逆方向ロバスト性に関する総合的研究

Unrevealed Threats: A Comprehensive Study of the Adversarial Robustness of Underwater Image Enhancement Models ( http://arxiv.org/abs/2409.06420v1 )

ライセンス: Link先を確認
Siyu Zhai, Zhibo He, Xiaofeng Cong, Junming Hou, Jie Gui, Jian Wei You, Xin Gong, James Tin-Yau Kwok, Yuan Yan Tang, (参考訳) 水中画像強調学習法 (UWIE) は広範囲にわたる探索が行われている。 しかしながら、学習ベースのモデルは通常、UWIEモデルのような敵の例に対して脆弱である。 我々の知る限り、UWIEモデルの敵対的堅牢性に関する包括的な研究は存在せず、UWIEモデルが敵対的攻撃の脅威にさらされている可能性を示唆している。 本稿では,汎用攻撃プロトコルを提案する。 5つのよく設計されたUWIEモデルに対して、3つの共通の水中画像ベンチマークデータセット上で敵攻撃を行うための最初の試みを行う。 水中環境における光の散乱と吸収を考えると、色補正と水中画像強調の間には強い相関関係がある。 また,異なる色空間を対象とする画素攻撃とカラーシフト攻撃という2つの有効なUWIE指向の対角攻撃手法を設計した。 その結果、5つのモデルが敵攻撃に対する様々な脆弱性を示し、劣化した画像に対する十分に設計された小さな摂動は、UWIEモデルが強化された結果を生み出すのを防ぐことができることを示した。 さらに,これらのモデルに対して対人訓練を行い,対人攻撃の有効性を軽減した。 要約すると、UWIEモデルの敵対的脆弱性を明らかにし、UWIEモデルの新たな評価次元を提案する。

Learning-based methods for underwater image enhancement (UWIE) have undergone extensive exploration. However, learning-based models are usually vulnerable to adversarial examples so as the UWIE models. To the best of our knowledge, there is no comprehensive study on the adversarial robustness of UWIE models, which indicates that UWIE models are potentially under the threat of adversarial attacks. In this paper, we propose a general adversarial attack protocol. We make a first attempt to conduct adversarial attacks on five well-designed UWIE models on three common underwater image benchmark datasets. Considering the scattering and absorption of light in the underwater environment, there exists a strong correlation between color correction and underwater image enhancement. On the basis of that, we also design two effective UWIE-oriented adversarial attack methods Pixel Attack and Color Shift Attack targeting different color spaces. The results show that five models exhibit varying degrees of vulnerability to adversarial attacks and well-designed small perturbations on degraded images are capable of preventing UWIE models from generating enhanced results. Further, we conduct adversarial training on these models and successfully mitigated the effectiveness of adversarial attacks. In summary, we reveal the adversarial vulnerability of UWIE models and propose a new evaluation dimension of UWIE models.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 広汎で効率的かつプライベートな未来:ハイブリッド同型暗号化によるプライバシ保護機械学習の実現

A Pervasive, Efficient and Private Future: Realizing Privacy-Preserving Machine Learning Through Hybrid Homomorphic Encryption ( http://arxiv.org/abs/2409.06422v1 )

ライセンス: Link先を確認
Khoa Nguyen, Mindaugas Budzys, Eugene Frimpong, Tanveer Khan, Antonis Michalas, (参考訳) 近年、機械学習(ML)はデータサイエンスの最も影響力のある分野の1つとなっている。 しかし、MLに対する重大な懸念は、MLモデルに対する攻撃の増加によるプライバシーリスクである。 プライバシ保存機械学習(PPML)手法は、MLモデルのプライバシとセキュリティリスクを軽減するために提案されている。 PPMLを達成するための一般的なアプローチは、homomorphic Encryption (HE) である。 しかし、HEの高度に公表された非効率さは、リソース制約のあるデバイスによる高度にスケーラブルなシナリオには適さない。 したがって、対称暗号とHEを組み合わせた現代的な暗号化スキームであるHybrid Homomorphic Encryption (HHE)が最近導入され、これらの課題に対処している。 HHEは、高価なHE操作をクラウドに転送する、新しい効率的でプライバシ保護サービスを構築する基盤を提供する可能性がある。 本研究は,エッジデバイス向けのリソースフレンドリなPPMLプロトコルを提案することにより,HHEをML分野に導入する。 より正確には、HHEをPPMLプロトコルの主要なビルディングブロックとして利用しています。 まず,ダミーデータセット上で各プロトコルの通信コストと計算コストを広範囲に評価し,BFVを用いて実装した類似プロトコルと比較することにより,プロトコルの効率性を示す。 その後,HHEを基礎として心電図データに基づいて心臓病を分類する実際のPPMLアプリケーションを構築することで,建設の現実的な適用性を実証した。

Machine Learning (ML) has become one of the most impactful fields of data science in recent years. However, a significant concern with ML is its privacy risks due to rising attacks against ML models. Privacy-Preserving Machine Learning (PPML) methods have been proposed to mitigate the privacy and security risks of ML models. A popular approach to achieving PPML uses Homomorphic Encryption (HE). However, the highly publicized inefficiencies of HE make it unsuitable for highly scalable scenarios with resource-constrained devices. Hence, Hybrid Homomorphic Encryption (HHE) -- a modern encryption scheme that combines symmetric cryptography with HE -- has recently been introduced to overcome these challenges. HHE potentially provides a foundation to build new efficient and privacy-preserving services that transfer expensive HE operations to the cloud. This work introduces HHE to the ML field by proposing resource-friendly PPML protocols for edge devices. More precisely, we utilize HHE as the primary building block of our PPML protocols. We assess the performance of our protocols by first extensively evaluating each party's communication and computational cost on a dummy dataset and show the efficiency of our protocols by comparing them with similar protocols implemented using plain BFV. Subsequently, we demonstrate the real-world applicability of our construction by building an actual PPML application that uses HHE as its foundation to classify heart disease based on sensitive ECG data.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# 擬似比に基づく未知物体の分割

A Likelihood Ratio-Based Approach to Segmenting Unknown Objects ( http://arxiv.org/abs/2409.06424v1 )

ライセンス: Link先を確認
Nazir Nayal, Youssef Shoeb, Fatma Güney, (参考訳) OoD(Out-of-Distribution)セグメンテーションタスクに対処することは、オープンワールド環境で動作している知覚システムにとって必須条件である。 大規模な基礎モデルはしばしば下流のタスクで使用されるが、OoDの可能性はほとんど解明されていない。 我々は、ロバストな表現を実現するために、大きな基礎モデルを活用しようとしている。 外部監視は、既存のセグメンテーションネットワークのOoD検出を改善するために広く利用されている戦略である。 しかしながら、現在の外部監視のためのアプローチは、モデルが学習した特徴表現に反する、元のネットワークの一部の再訓練を伴っている。 さらに、大規模な基礎モデルの場合、再訓練は不可能となる。 我々のゴールは、基礎モデルの強い表現空間を損なうことなく、外部セグメンテーションのために再訓練することである。 そこで本研究では,OoDセグメンテーション性能を大幅に向上し,元のネットワークの特徴表現に影響を与えることなく,適応的で軽量な未知推定モジュール(UEM)を提案する。 UEMは、外れ値の分布と既知のクラスの一般的な分布を学習する。 学習した分布を用いて,UEMの信頼度と画素ワイドセグメンテーション不整合ネットワークの信頼度を融合して未知の物体を検出する確率比に基づくアウトリースコアリング関数を提案する。 また,このスコアを直接最適化する目的も提案する。 提案手法は,複数のデータセットにまたがる新たな最先端性を実現し,偽陽性率の低い平均精度を5.74%向上させる。 重要な点として、強い不利なパフォーマンスは影響を受けない。

Addressing the Out-of-Distribution (OoD) segmentation task is a prerequisite for perception systems operating in an open-world environment. Large foundational models are frequently used in downstream tasks, however, their potential for OoD remains mostly unexplored. We seek to leverage a large foundational model to achieve robust representation. Outlier supervision is a widely used strategy for improving OoD detection of the existing segmentation networks. However, current approaches for outlier supervision involve retraining parts of the original network, which is typically disruptive to the model's learned feature representation. Furthermore, retraining becomes infeasible in the case of large foundational models. Our goal is to retrain for outlier segmentation without compromising the strong representation space of the foundational model. To this end, we propose an adaptive, lightweight unknown estimation module (UEM) for outlier supervision that significantly enhances the OoD segmentation performance without affecting the learned feature representation of the original network. UEM learns a distribution for outliers and a generic distribution for known classes. Using the learned distributions, we propose a likelihood-ratio-based outlier scoring function that fuses the confidence of UEM with that of the pixel-wise segmentation inlier network to detect unknown objects. We also propose an objective to optimize this score directly. Our approach achieves a new state-of-the-art across multiple datasets, outperforming the previous best method by 5.74% average precision points while having a lower false-positive rate. Importantly, strong inlier performance remains unaffected.
翻訳日:2024-09-11 18:10:00 公開日:2024-09-10
# GeMuCo:身体スキーマ学習のための一般化多感覚相関モデル

GeMuCo: Generalized Multisensory Correlational Model for Body Schema Learning ( http://arxiv.org/abs/2409.06427v1 )

ライセンス: Link先を確認
Kento Kawaharazuka, Kei Okada, Masayuki Inaba, (参考訳) 人間は、自分の身体における感覚と動きの関係を自律的に学習し、自分の身体の状態を評価し制御し、現在の環境に継続的に適応しながら移動することができる。 一方、現在のロボットは、人間によって記述されたネットワーク構造を経験から学習し、センサとアクチュエータの関係について一定の仮定をすることで、身体を制御している。 さらに、ネットワークモデルは、ロボットの身体、把握されたツール、環境の変化に適応せず、制御だけでなく、状態推定、異常検出、シミュレーションなどにも統一された理論は存在しない。 本研究では,ロボット自身がセンサとアクチュエータの相関関係を記述する体図を,ネットワーク入力や出力などのモデル構造を含む自身の経験から取得する汎用多感覚相関モデル(GeMuCo)を提案する。 このロボットは、このボディスキーマモデルをオンラインで更新して現在の環境に適応し、その身体状態を見積もり、制御し、異常検出やシミュレーションも行う。 本手法の有効性を,軸駆動型ロボットの把持状態の変化を考慮したツールユース,筋骨格型ロボットの関節筋マッピング学習,低剛性プラスチック製ヒューマノイドのフルボディツール操作に適用して示す。

Humans can autonomously learn the relationship between sensation and motion in their own bodies, estimate and control their own body states, and move while continuously adapting to the current environment. On the other hand, current robots control their bodies by learning the network structure described by humans from their experiences, making certain assumptions on the relationship between sensors and actuators. In addition, the network model does not adapt to changes in the robot's body, the tools that are grasped, or the environment, and there is no unified theory, not only for control but also for state estimation, anomaly detection, simulation, and so on. In this study, we propose a Generalized Multisensory Correlational Model (GeMuCo), in which the robot itself acquires a body schema describing the correlation between sensors and actuators from its own experience, including model structures such as network input/output. The robot adapts to the current environment by updating this body schema model online, estimates and controls its body state, and even performs anomaly detection and simulation. We demonstrate the effectiveness of this method by applying it to tool-use considering changes in grasping state for an axis-driven robot, to joint-muscle mapping learning for a musculoskeletal robot, and to full-body tool manipulation for a low-rigidity plastic-made humanoid.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# Slow Collective Variables, Markovian Dynamics, and transition state Ensembles のスペクトルマップ

Spectral Map for Slow Collective Variables, Markovian Dynamics, and Transition State Ensembles ( http://arxiv.org/abs/2409.06428v1 )

ライセンス: Link先を確認
Jakub Rydzewski, (参考訳) 複雑な分子系の振る舞いを理解することは物理化学の基本的な問題である。 それらの特性に最も寄与するシステムの長期的ダイナミクスを説明するために, 残った高速変数を熱雑音として扱いながら, 少数の遅い集団変数(CV)を同定できる。 これにより、ダイナミックスを単純化し、遅いCVに分散された自由エネルギーの環境下での拡散として扱えるようになり、マルコビアン力学を効果的に表すことができる。 我々の最近の統計学習手法であるスペクトルマップ [Rydzewski, J. Phys. Chem. Lett. 2023, 14, 22, 5216-5220] は、遷移行列のスペクトルギャップを最大化することで遅いCVを学習するこの戦略を探求している。 本稿では,タンパク質の高次元可逆的折り畳み過程を例に,本フレームワークのいくつかの進歩を紹介する。 本稿では,マルコフ遷移行列の粗粒化アルゴリズムを実装し,遅いCVの縮小した空間を動的に分割し,遷移状態のアンサンブルを定義する。 スペクトルマップで学習した遅いCVは,過度な拡散に対してマルコフ限界に近づいた。 座標依存拡散係数が構築された自由エネルギー景観にわずかにしか影響しないことを示す。 最後に, スペクトルマップを用いて特徴量の重要性を定量化し, 遅いCVとタンパク質の折り畳みによく用いられる構造記述子を比較した。 全体として、スペクトルマップによって学習された1つの遅いCVが、タンパク質の折り畳みの本質的な特性を捉える物理反応座標として使用できることを示した。

Understanding the behavior of complex molecular systems is a fundamental problem in physical chemistry. To describe the long-time dynamics of such systems, which is responsible for their most informative characteristics, we can identify a few slow collective variables (CVs) while treating the remaining fast variables as thermal noise. This enables us to simplify the dynamics and treat it as diffusion in a free-energy landscape spanned by slow CVs, effectively rendering the dynamics Markovian. Our recent statistical learning technique, spectral map [Rydzewski, J. Phys. Chem. Lett. 2023, 14, 22, 5216-5220], explores this strategy to learn slow CVs by maximizing a spectral gap of a transition matrix. In this work, we introduce several advancements into our framework, using a high-dimensional reversible folding process of a protein as an example. We implement an algorithm for coarse-graining Markov transition matrices to partition the reduced space of slow CVs kinetically and use it to define a transition state ensemble. We show that slow CVs learned by spectral map closely approach the Markovian limit for an overdamped diffusion. We demonstrate that coordinate-dependent diffusion coefficients only slightly affect the constructed free-energy landscapes. Finally, we present how spectral map can be used to quantify the importance of features and compare slow CVs with structural descriptors commonly used in protein folding. Overall, we demonstrate that a single slow CV learned by spectral map can be used as a physical reaction coordinate to capture essential characteristics of protein folding.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 学習知識組織のための認知知識グラフを用いたファインチューニングとプロンプトエンジニアリング

Fine-tuning and Prompt Engineering with Cognitive Knowledge Graphs for Scholarly Knowledge Organization ( http://arxiv.org/abs/2409.06433v1 )

ライセンス: Link先を確認
Gollam Rabby, Sören Auer, Jennifer D'Souza, Allard Oelen, (参考訳) 学術論文の発行量は毎年250万を超えており、研究者が科学的進歩を追求する上での課題となっている。 学術論文からのコントリビューションを新しいタイプの認知知識グラフ(CKG)に統合することは、学術的知識にアクセスし、組織化するための重要な要素であり、タイトルや要約によって提供される洞察を超越する。 本研究は,大規模言語モデル(LLM)を用いて構造化された学術的知識を効果的に伝達し,学術的論文を分類し,その貢献を構造化された同等の方法で記述することに焦点を当てる。 以前の研究では、特定の研究領域内の言語モデルについて検討していたが、LLMが捉えた広範囲なドメインに依存しない知識は、CKGとして構造化されたコントリビューション記述を生成する大きな機会となった。 さらに、LLMは、迅速なエンジニアリングや微調整を通じてカスタマイズ可能な経路を提供し、それによって、その効率性、コスト効率、環境配慮で知られているより小さなLCMの活用を容易にする。 我々の方法論は、LLMの知識を活用し、CKGから得られた領域の専門家が検証した学術データと補完することである。 この戦略的融合は、特に学術論文分類や述語推薦といったタスクにおいて、LLMのパフォーマンスを著しく向上させる。 本手法では, CKGの知識を微調整し, CKGから知識を注入することにより, 学術的知識抽出の精度を大幅に向上させる。 我々はオープンリサーチ知識グラフ(ORKG)にアプローチを統合することで、組織化された学術知識への正確なアクセスを可能にし、ドメインに依存しない学術知識の交換と政策立案者、産業従事者、一般大衆への普及を著しく促進する。

The increasing amount of published scholarly articles, exceeding 2.5 million yearly, raises the challenge for researchers in following scientific progress. Integrating the contributions from scholarly articles into a novel type of cognitive knowledge graph (CKG) will be a crucial element for accessing and organizing scholarly knowledge, surpassing the insights provided by titles and abstracts. This research focuses on effectively conveying structured scholarly knowledge by utilizing large language models (LLMs) to categorize scholarly articles and describe their contributions in a structured and comparable manner. While previous studies explored language models within specific research domains, the extensive domain-independent knowledge captured by LLMs offers a substantial opportunity for generating structured contribution descriptions as CKGs. Additionally, LLMs offer customizable pathways through prompt engineering or fine-tuning, thus facilitating to leveraging of smaller LLMs known for their efficiency, cost-effectiveness, and environmental considerations. Our methodology involves harnessing LLM knowledge, and complementing it with domain expert-verified scholarly data sourced from a CKG. This strategic fusion significantly enhances LLM performance, especially in tasks like scholarly article categorization and predicate recommendation. Our method involves fine-tuning LLMs with CKG knowledge and additionally injecting knowledge from a CKG with a novel prompting technique significantly increasing the accuracy of scholarly knowledge extraction. We integrated our approach in the Open Research Knowledge Graph (ORKG), thus enabling precise access to organized scholarly knowledge, crucially benefiting domain-independent scholarly knowledge exchange and dissemination among policymakers, industrial practitioners, and the general public.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 線形自己回帰学習の短時間情報理論解析

A Short Information-Theoretic Analysis of Linear Auto-Regressive Learning ( http://arxiv.org/abs/2409.06437v1 )

ライセンス: Link先を確認
Ingvar Ziemann, (参考訳) 本稿では,線形自己回帰モデルにおけるガウス最大可能性推定器の整合性に関する短い情報理論的証明を与える。 我々の証明はパラメータ回復のためのほぼ最適な非漸近速度をもたらし、有限仮説クラスの場合の安定性の呼び出しなしに機能する。

In this note, we give a short information-theoretic proof of the consistency of the Gaussian maximum likelihood estimator in linear auto-regressive models. Our proof yields nearly optimal non-asymptotic rates for parameter recovery and works without any invocation of stability in the case of finite hypothesis classes.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 説明可能なアンサンブルツリー(E2Tree)を回帰コンテキストに拡張する

Extending Explainable Ensemble Trees (E2Tree) to regression contexts ( http://arxiv.org/abs/2409.06439v1 )

ライセンス: Link先を確認
Massimo Aria, Agostino Gnasso, Carmela Iorio, Marjolein Fokkema, (参考訳) ランダムな森林のようなアンサンブル手法は教師あり学習の風景を変え、複数の弱い学習者の集合を通して高精度な予測を提供する。 しかし、その効果にもかかわらず、これらの手法は透明性を欠くことが多く、RFモデルの予測への到達方法に対するユーザの理解を妨げている。 説明可能なアンサンブルツリー(E2Tree)は、応答変数と予測器の関係をグラフィカルに表現するランダムな森林を説明する新しい手法である。 E2Treeの顕著な特徴は、予測変数が応答に与える影響だけでなく、計算と相似性測定による予測変数間の関連も考慮していることである。 E2Treeの方法論は最初、分類タスクに使用するために提案された。 本稿では,レグレッション・コンテクストを包含する方法論を拡張した。 提案アルゴリズムの説明力を示すために,実世界のデータセットでの利用例を示す。

Ensemble methods such as random forests have transformed the landscape of supervised learning, offering highly accurate prediction through the aggregation of multiple weak learners. However, despite their effectiveness, these methods often lack transparency, impeding users' comprehension of how RF models arrive at their predictions. Explainable ensemble trees (E2Tree) is a novel methodology for explaining random forests, that provides a graphical representation of the relationship between response variables and predictors. A striking characteristic of E2Tree is that it not only accounts for the effects of predictor variables on the response but also accounts for associations between the predictor variables through the computation and use of dissimilarity measures. The E2Tree methodology was initially proposed for use in classification tasks. In this paper, we extend the methodology to encompass regression contexts. To demonstrate the explanatory power of the proposed algorithm, we illustrate its use on real-world datasets.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# Prompt2Fashion: 自動生成されたファッションデータセット

Prompt2Fashion: An automatically generated fashion dataset ( http://arxiv.org/abs/2409.06442v1 )

ライセンス: Link先を確認
Georgia Argyro, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, (参考訳) 言語と視覚生成モデルの急速な進化と効果の増大にもかかわらず、パーソナライズされたファッションニーズとAI駆動設計のギャップを埋める包括的なデータセットはいまだに欠如しており、真に包括的でカスタマイズされたファッションソリューションの可能性を制限する。 本研究では、生成モデルを利用して、ユーザが指示するさまざまな機会、スタイル、身体タイプに合わせて、ファッションイメージデータセットを自動構築する。 質的分析によって示されるように,我々は異なるLarge Language Model(LLM)を使用し,高度の美的品質,詳細,および専門家と非専門家の双方の要求に関連性のあるパーソナライズされた衣服を提供するための戦略を推進している。 これまでのところ、生成した服の評価は、専門家でない被験者によって行われてきた。 生成の質と関連性に関する詳細な知見を提供するにもかかわらず、我々は、このような芸術的AI生成データセットの評価において、専門家の知識の重要性についての議論を拡大する。 データセットはGitHubでhttps://github.com/georgiarg/Prompt2Fashion.comで公開されている。

Despite the rapid evolution and increasing efficacy of language and vision generative models, there remains a lack of comprehensive datasets that bridge the gap between personalized fashion needs and AI-driven design, limiting the potential for truly inclusive and customized fashion solutions. In this work, we leverage generative models to automatically construct a fashion image dataset tailored to various occasions, styles, and body types as instructed by users. We use different Large Language Models (LLMs) and prompting strategies to offer personalized outfits of high aesthetic quality, detail, and relevance to both expert and non-expert users' requirements, as demonstrated by qualitative analysis. Up until now the evaluation of the generated outfits has been conducted by non-expert human subjects. Despite the provided fine-grained insights on the quality and relevance of generation, we extend the discussion on the importance of expert knowledge for the evaluation of artistic AI-generated datasets such as this one. Our dataset is publicly available on GitHub at https://github.com/georgiarg/Prompt2Fashion.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 検出変圧器の問合せ選択による知識蒸留

Knowledge Distillation via Query Selection for Detection Transformer ( http://arxiv.org/abs/2409.06443v1 )

ライセンス: Link先を確認
Yi Liu, Luting Wang, Zongheng Tang, Yue Liao, Yifan Sun, Lijun Zhang, Si Liu, (参考訳) トランスフォーマーは、その単純さと有効性で称賛されたDETRを導入して、オブジェクト検出のランドスケープに革命をもたらした。 それらの利点にもかかわらず、これらのモデルのかなりのサイズは、特に資源に制約のある環境で、実践的なデプロイメントに重大な課題をもたらす。 本稿では, モデル性能の維持を約束する技術である知識蒸留を活用することにより, DETR圧縮の課題に対処する。 DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。 伝統的な蒸留法は、しばしば正のクエリにのみ焦点を合わせ、二分詞マッチングを通じて識別され、強硬なクエリに存在する豊富な情報を無視する。 我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。 そこで本研究では,DreTR蒸留における従来の問合せ選択から,GIoU(Generalized Intersection over Union)に基づく問合せを接地真理オブジェクトに分割することにより,蒸留に有用な難解な問合せを抽出するグループクエリ選択手法を提案する。 さらに,AGFD (Attention-Guided Feature Distillation) とLAPD (Local Alignment Prediction Distillation) を組み込んだDETR (QSKD) フレームワークのクエリ選択による知識蒸留について述べる。 これらのコンポーネントは、教師モデルの中間的特徴と出力の最も有益な側面に注目して、蒸留プロセスの最適化を行う。 我々は,MS-COCOデータセットの総合的な実験により,提案手法の有効性を実証し,計算コストの大幅な増大を伴わずに,様々なDeTRアーキテクチャにおける平均精度(AP)を大幅に改善した。 具体的には、条件付きDETR ResNet-18のAPは35.8から39.9に増加した。

Transformers have revolutionized the object detection landscape by introducing DETRs, acclaimed for their simplicity and efficacy. Despite their advantages, the substantial size of these models poses significant challenges for practical deployment, particularly in resource-constrained environments. This paper addresses the challenge of compressing DETR by leveraging knowledge distillation, a technique that holds promise for maintaining model performance while reducing size. A critical aspect of DETRs' performance is their reliance on queries to interpret object representations accurately. Traditional distillation methods often focus exclusively on positive queries, identified through bipartite matching, neglecting the rich information present in hard-negative queries. Our visual analysis indicates that hard-negative queries, focusing on foreground elements, are crucial for enhancing distillation outcomes. To this end, we introduce a novel Group Query Selection strategy, which diverges from traditional query selection in DETR distillation by segmenting queries based on their Generalized Intersection over Union (GIoU) with ground truth objects, thereby uncovering valuable hard-negative queries for distillation. Furthermore, we present the Knowledge Distillation via Query Selection for DETR (QSKD) framework, which incorporates Attention-Guided Feature Distillation (AGFD) and Local Alignment Prediction Distillation (LAPD). These components optimize the distillation process by focusing on the most informative aspects of the teacher model's intermediate features and output. Our comprehensive experimental evaluation of the MS-COCO dataset demonstrates the effectiveness of our approach, significantly improving average precision (AP) across various DETR architectures without incurring substantial computational costs. Specifically, the AP of Conditional DETR ResNet-18 increased from 35.8 to 39.9.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 訓練されたエージェント探索によるインタラクティブな生成環境の学習

Learning Generative Interactive Environments By Trained Agent Exploration ( http://arxiv.org/abs/2409.06445v1 )

ライセンス: Link先を確認
Naser Kazemi, Nedko Savov, Danda Paudel, Luc Van Gool, (参考訳) 世界モデルは、複雑な環境のルールと行動の解釈とシミュレートにおいて、ますます重要になっている。 最近のモデルであるGenieは、視覚的に多様な環境からの学習に優れていますが、コストのかかる人為的なデータに依存しています。 ランダムエージェントの代替手法が環境を探索するには限界すぎることを観察する。 データ生成に強化学習に基づくエージェントを用いてモデルを改善することを提案する。 このアプローチは、さまざまなシナリオや環境内の現実的なアクションに対して、モデルを適応し、適切に実行する能力を高める多様なデータセットを生成する。 本稿では、Genieをベースにした実装であるGenieReduxモデルを最初にリリースする。 また,GenieRedux-Gを導入し,エージェントの容易な動作を利用して,検証中の動作予測の不確実性を判断する。 Coinrun ケーススタディの再現を含む評価の結果,GenieRedux-G は訓練されたエージェント探索を用いて優れた視覚的忠実度と制御性が得られることが示された。 提案されたアプローチは再現可能で、スケーラブルで、新しいタイプの環境に適応できる。 私たちのコードベースはhttps://github.com/insait-institute/GenieRedux で公開されています。

World models are increasingly pivotal in interpreting and simulating the rules and actions of complex environments. Genie, a recent model, excels at learning from visually diverse environments but relies on costly human-collected data. We observe that their alternative method of using random agents is too limited to explore the environment. We propose to improve the model by employing reinforcement learning based agents for data generation. This approach produces diverse datasets that enhance the model's ability to adapt and perform well across various scenarios and realistic actions within the environment. In this paper, we first release the model GenieRedux - an implementation based on Genie. Additionally, we introduce GenieRedux-G, a variant that uses the agent's readily available actions to factor out action prediction uncertainty during validation. Our evaluation, including a replication of the Coinrun case study, shows that GenieRedux-G achieves superior visual fidelity and controllability using the trained agent exploration. The proposed approach is reproducable, scalable and adaptable to new types of environments. Our codebase is available at https://github.com/insait-institute/GenieRedux .
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# HexaCoder: Oracle主導の合成トレーニングデータによるセキュアなコード生成

HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data ( http://arxiv.org/abs/2409.06446v1 )

ライセンス: Link先を確認
Hossein Hajipour, Lea Schönherr, Thorsten Holz, Mario Fritz, (参考訳) 大きな言語モデル(LLM)は、自動コード生成の大きな可能性を示し、GitHub Copilotのようなさまざまなツールの基礎を形成している。 しかし、最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。 以前の作業では、セキュアなコードを生成するトレーニングモデルによってこの問題に対処しようとしたが、トレーニングデータへのアクセス制限と労働集約的なデータ準備によって、これらの試みは引き続き制限される。 本稿では,セキュアなコードを自動的に合成することで,LLMのセキュアなコード生成能力を高める新しい手法であるHexaCoderを紹介する。 HexaCoderは、オラクル誘導データ合成パイプラインとセキュアなコード生成のための2ステッププロセスという、2つの重要なコンポーネントで構成されている。 データ合成パイプラインは、脆弱性のあるコードの修復に最先端のLLMを利用することで、特定のCommon Weakness Enumeration(CWE)タイプのための、脆弱性と固定されたコードのペアを生成する。 セキュリティオラクルは脆弱性を特定し、最先端のLLMはコードを拡張または/または編集することでそれらを修復し、ローランド適応(LoRA)メソッドを使用して微調整用のデータペアを作成する。 微調整データセットのそれぞれの例には、新たな2ステップ生成アプローチの基礎となる、セキュリティ関連のライブラリとコードが含まれています。 これにより、モデルはメインコードを生成する前にセキュリティ関連ライブラリを統合することができ、ベースラインメソッドと比較して、生成した脆弱なコードの数を最大85%削減できる。 我々は,HexaCoderが生成したコードのセキュリティを向上するだけでなく,高レベルの機能的正当性も維持することを示した。

Large language models (LLMs) have shown great potential for automatic code generation and form the basis for various tools such as GitHub Copilot. However, recent studies highlight that many LLM-generated code contains serious security vulnerabilities. While previous work tries to address this by training models that generate secure code, these attempts remain constrained by limited access to training data and labor-intensive data preparation. In this paper, we introduce HexaCoder, a novel approach to enhance the ability of LLMs to generate secure codes by automatically synthesizing secure codes, which reduces the effort of finding suitable training data. HexaCoder comprises two key components: an oracle-guided data synthesis pipeline and a two-step process for secure code generation. The data synthesis pipeline generates pairs of vulnerable and fixed codes for specific Common Weakness Enumeration (CWE) types by utilizing a state-of-the-art LLM for repairing vulnerable code. A security oracle identifies vulnerabilities, and a state-of-the-art LLM repairs them by extending and/or editing the codes, creating data pairs for fine-tuning using the Low-Rank Adaptation (LoRA) method. Each example of our fine-tuning dataset includes the necessary security-related libraries and code that form the basis of our novel two-step generation approach. This allows the model to integrate security-relevant libraries before generating the main code, significantly reducing the number of generated vulnerable codes by up to 85% compared to the baseline methods. We perform extensive evaluations on three different benchmarks for four LLMs, demonstrating that HexaCoder not only improves the security of the generated code but also maintains a high level of functional correctness.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 自動運転車のための多モード大言語モデル駆動シナリオテスト

Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles ( http://arxiv.org/abs/2409.06450v1 )

ライセンス: Link先を確認
Qiujing Lu, Xuanhan Wang, Yiwei Jiang, Guangming Zhao, Mingyue Ma, Shuo Feng, (参考訳) 道路配備前に自動運転車を効率的にテストするためには、コーナーケースの生成がますます重要になっている。 しかし、既存の手法は様々なテスト要件を満たすのに苦労し、しばしば目に見えない状況に一般化する能力が欠如しているため、生成されたシナリオの利便性とユーザビリティが低下する。 現実的で困難な状況下での効率的な自動運転車(AV)テストにおいて、容易に制御可能なシナリオ生成を容易にする方法が重要である。 OmniTester: LLMの広範な世界的知識と推論能力を完全に活用するマルチモーダル大規模言語モデル(LLM)ベースのフレームワークを提案する。 OmniTesterはシミュレーション環境で現実的で多様なシナリオを生成するように設計されており、AVのテストと評価のための堅牢なソリューションを提供する。 迅速なエンジニアリングに加えて,LLMが生成するコードの複雑さを単純化するために,Simulation of Urban Mobility(都市移動シミュレーション)のツールも採用している。 さらに,LLMのシナリオ理解を強化し,より現実的なシーンを創出する能力を高めるために,Retrieval-Augmented Generationと自己改善機構を組み込んだ。 実験では,3種類の難解かつ複雑なシナリオを生成する上で,我々のアプローチの可制御性とリアリズムを実証した。 さらに, LLMの一般化能力により, 事故報告に記載された新たなシナリオを再構築する上での有効性を示した。

The generation of corner cases has become increasingly crucial for efficiently testing autonomous vehicles prior to road deployment. However, existing methods struggle to accommodate diverse testing requirements and often lack the ability to generalize to unseen situations, thereby reducing the convenience and usability of the generated scenarios. A method that facilitates easily controllable scenario generation for efficient autonomous vehicles (AV) testing with realistic and challenging situations is greatly needed. To address this, we proposed OmniTester: a multimodal Large Language Model (LLM) based framework that fully leverages the extensive world knowledge and reasoning capabilities of LLMs. OmniTester is designed to generate realistic and diverse scenarios within a simulation environment, offering a robust solution for testing and evaluating AVs. In addition to prompt engineering, we employ tools from Simulation of Urban Mobility to simplify the complexity of codes generated by LLMs. Furthermore, we incorporate Retrieval-Augmented Generation and a self-improvement mechanism to enhance the LLM's understanding of scenarios, thereby increasing its ability to produce more realistic scenes. In the experiments, we demonstrated the controllability and realism of our approaches in generating three types of challenging and complex scenarios. Additionally, we showcased its effectiveness in reconstructing new scenarios described in crash report, driven by the generalization capability of LLMs.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# Linuxカーネルにおける機械学習を用いたランサムウェア検出

Ransomware Detection Using Machine Learning in the Linux Kernel ( http://arxiv.org/abs/2409.06452v1 )

ライセンス: Link先を確認
Adrian Brodzik, Tomasz Malec-Kruszyński, Wojciech Niewolski, Mikołaj Tkaczyk, Krzysztof Bocianiak, Sok-Yen Loui, (参考訳) Linuxベースのクラウド環境はランサムウェア攻撃の有利なターゲットとなり、前例のない速度で様々な暗号化スキームを採用している。 リアルタイムランサムウェア保護の緊急性に対処するために,拡張バークレーパケットフィルタ(eBPF)を用いて,アクティブプロセスに関するシステムコール情報を収集し,カーネルレベルで直接データを推測する手法を提案する。 本研究では,eBPF(決定木)と多層パーセプトロン(多層パーセプトロン)の2つの機械学習モデルを実装した。 ユーザ空間に対するレイテンシと精度のベンチマークを行い,このアプローチの有効性を実証した。

Linux-based cloud environments have become lucrative targets for ransomware attacks, employing various encryption schemes at unprecedented speeds. Addressing the urgency for real-time ransomware protection, we propose leveraging the extended Berkeley Packet Filter (eBPF) to collect system call information regarding active processes and infer about the data directly at the kernel level. In this study, we implement two Machine Learning (ML) models in eBPF - a decision tree and a multilayer perceptron. Benchmarking latency and accuracy against their user space counterparts, our findings underscore the efficacy of this approach.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# プライバシを意識したデジタル病理のための連続的ドメインインクリメンタルラーニング

Continual Domain Incremental Learning for Privacy-aware Digital Pathology ( http://arxiv.org/abs/2409.06455v1 )

ライセンス: Link先を確認
Pratibha Kumari, Daniel Reisenbüchler, Lucas Luttner, Nadine S. Schaadt, Friedrich Feuerhake, Dorit Merhof, (参考訳) 近年、高度なディープラーニングアルゴリズムを用いて複雑な組織パターンをモデル化する能力によって、デジタル病理学の分野で顕著な進歩を遂げている。 しかしながら、これらのモデルのロバスト性は、データシフト(例えば、異なる染色、臓器、センターなど)の存在において、しばしば深刻な損なわれます。 あるいは、連続学習(CL)技術は、分散シフト条件で新しいデータを学習する際に、過去のデータの忘れを少なくすることを目的としている。 具体的には、過去のデータをバッファに格納し、それを新しいデータで再生するリハーサルベースのCL技術は、医療画像解析タスクに有効であることが証明されている。 しかし、これらのアプローチは過去のデータを保存し、新しいジェネレーティブ・ラテント・リプレイ・ベースのCL(GLRCL)アプローチの開発を促すことでプライバシー上の懸念が生じる。 GLRCLは過去のサンプルを格納する代わりにガウス混合モデルを通じて以前の分布をキャプチャし、機能を生成して新しいデータで遅延再生を行う。 病理組織学的データでは, 染色や臓器のシフトなど, 異なる変化条件下で, 提案する枠組みを体系的に評価した。 提案手法は,バッファフリーなCLアプローチよりも優れており,大きなバッファを必要とするリハーサルベースのCLアプローチと同様に,重大なプライバシー侵害を引き起こす。

In recent years, there has been remarkable progress in the field of digital pathology, driven by the ability to model complex tissue patterns using advanced deep-learning algorithms. However, the robustness of these models is often severely compromised in the presence of data shifts (e.g., different stains, organs, centers, etc.). Alternatively, continual learning (CL) techniques aim to reduce the forgetting of past data when learning new data with distributional shift conditions. Specifically, rehearsal-based CL techniques, which store some past data in a buffer and then replay it with new data, have proven effective in medical image analysis tasks. However, privacy concerns arise as these approaches store past data, prompting the development of our novel Generative Latent Replay-based CL (GLRCL) approach. GLRCL captures the previous distribution through Gaussian Mixture Models instead of storing past samples, which are then utilized to generate features and perform latent replay with new data. We systematically evaluate our proposed framework under different shift conditions in histopathology data, including stain and organ shift. Our approach significantly outperforms popular buffer-free CL approaches and performs similarly to rehearsal-based CL approaches that require large buffers causing serious privacy violations.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 土壌からの起爆細胞の統計的解析のための機械学習によるアプローチ

A Machine Learning Based Approach for Statistical Analysis of Detonation Cells from Soot Foils ( http://arxiv.org/abs/2409.06466v1 )

ライセンス: Link先を確認
Vansh Sharma, Michael Ullman, Venkat Raman, (参考訳) 本研究では, 現場で広く普及している手動・原始的エッジ検出手法の限界に対処するため, ソープフォイル画像からのデトネーションセルの精密セグメンテーションと測定のための機械学習(ML)に基づく新しいアルゴリズムを提案する。 細胞生物学的セグメンテーションモデルの進歩を利用して、提案アルゴリズムは、デトネーション研究において重要な課題である訓練手順やデータセットを使わずに、正確に細胞パターンを抽出するように設計されている。 このアルゴリズムの性能は、実験および数値デトネーション研究を模倣した一連のテストケースを用いて検証された。 その結果、複雑な場合であっても10%以内の誤差が残っており、一貫した精度が示された。 このアルゴリズムは、細胞面積やスパンなどのキーセルの指標を効果的に取得し、不規則な細胞構造を持つ様々なすすまのサンプルの傾向を明らかにした。 このモデルは頑丈に証明されているが、非常に複雑な細胞パターンや不規則な細胞パターンのセグメンテーションと解析に課題が残っている。 この研究は、デトネーション波動力学の理解を深めるためのアルゴリズムの幅広い適用性とポテンシャルを強調している。

This study presents a novel algorithm based on machine learning (ML) for the precise segmentation and measurement of detonation cells from soot foil images, addressing the limitations of manual and primitive edge detection methods prevalent in the field. Using advances in cellular biology segmentation models, the proposed algorithm is designed to accurately extract cellular patterns without a training procedure or dataset, which is a significant challenge in detonation research. The algorithm's performance was validated using a series of test cases that mimic experimental and numerical detonation studies. The results demonstrated consistent accuracy, with errors remaining within 10%, even in complex cases. The algorithm effectively captured key cell metrics such as cell area and span, revealing trends across different soot foil samples with uniform to highly irregular cellular structures. Although the model proved robust, challenges remain in segmenting and analyzing highly complex or irregular cellular patterns. This work highlights the broad applicability and potential of the algorithm to advance the understanding of detonation wave dynamics.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 長周期音声認識のためのコンテキストベース適応手法

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition ( http://arxiv.org/abs/2409.06468v1 )

ライセンス: Link先を確認
Yi-Cheng Wang, Li-Ting Pai, Bi-Cheng Yan, Hsin-Wei Wang, Chi-Han Lin, Berlin Chen, (参考訳) エンド・ツー・エンド (E2E) 自動音声認識 (ASR) モデルは,様々な商用アプリケーションにおいて標準的手法となっている。 しかし、現実のシナリオでは、単語分布の長い尾を持つ性質は、しばしばE2E ASRモデルを一般的な単語でうまく動作させるが、一般的でない単語を認識するには不十分である。 近年、文脈適応(CA)の概念が提案され、文脈単語リストで表される外部知識をE2E ASRモデルに注入する。 CAはレアワードの認識性能を向上させることができるが、2つの重要なデータ不均衡の問題が残っている。 まず、訓練中に低頻度語を文脈語として使用する場合、これらの単語は発話中にはほとんど発生しないため、文脈リストに存在しない高頻度語のために、<no-context>トークンへの出席が過度に適する傾向にある。 第二に、コンテキストリスト自体の長い尾の分布は、低頻度のコンテキストワードに対してモデルの性能を低下させる。 そこで本研究では,文脈リストをモデル性能に異なる周波数分布を持つ単語に変更することの影響を詳細に検討し,一方,CAを簡易かつ効果的な文脈バランス学習目標に拡張する。 AISHELL-1ベンチマークデータセットで実施された一連の実験では、トレーニングコーパスのすべての語彙語を文脈リストとして使用し、バランスの取れた目的語と組み合わせると、最高のパフォーマンスが得られることが示唆され、文字誤り率(CER)が最大1.21%減少し、より顕著なゼロショット単語の誤り率の9.44%低下が示されている。

End-to-end (E2E) automatic speech recognition (ASR) models have become standard practice for various commercial applications. However, in real-world scenarios, the long-tailed nature of word distribution often leads E2E ASR models to perform well on common words but fall short in recognizing uncommon ones. Recently, the notion of a contextual adapter (CA) was proposed to infuse external knowledge represented by a context word list into E2E ASR models. Although CA can improve recognition performance on rare words, two crucial data imbalance problems remain. First, when using low-frequency words as context words during training, since these words rarely occur in the utterance, CA becomes prone to overfit on attending to the <no-context> token due to higher-frequency words not being present in the context list. Second, the long-tailed distribution within the context list itself still causes the model to perform poorly on low-frequency context words. In light of this, we explore in-depth the impact of altering the context list to have words with different frequency distributions on model performance, and meanwhile extend CA with a simple yet effective context-balanced learning objective. A series of experiments conducted on the AISHELL-1 benchmark dataset suggests that using all vocabulary words from the training corpus as the context list and pairing them with our balanced objective yields the best performance, demonstrating a significant reduction in character error rate (CER) by up to 1.21% and a more pronounced 9.44% reduction in the error rate of zero-shot words.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# 強いトポロジーにおける量子ゼノと強減衰限界の定量化

Quantitative Quantum Zeno and Strong Damping Limits in Strong Topology ( http://arxiv.org/abs/2409.06469v1 )

ライセンス: Link先を確認
Robert Salzmann, (参考訳) 混合量子演算の量子系への頻繁な応用は、その時間進化を遅くし、最終的に名前のついた演算の不変部分空間へと導く。 我々は、この現象、量子ゼノ効果とその連続的な変種である強減衰を無限次元の開量子系に対して統一的に証明すると同時に、それぞれの混合収束が全ての状態に対して点的に成り立つことを要求している。 混合極限の収束速度を考えると、対応する量子ゼノの収束速度と強い減衰限界の境界を導出することができる。 本研究は,光子損失チャネルの量子ゼノおよび強い減衰限界を収束速度に明示的に拘束できることを示すために,本研究の結果を適用した。

Frequent applications of a mixing quantum operation to a quantum system slow down its time evolution and eventually drive it into the invariant subspace of the named operation. We prove this phenomenon, the quantum Zeno effect, and its continuous variant, strong damping, in a unified way for infinite-dimensional open quantum systems, while merely demanding that the respective mixing convergence holds pointwise for all states. Both results are quantitative in the following sense: Given the speed of convergence for the mixing limits, we can derive bounds on the convergence speed for the corresponding quantum Zeno and strong damping limits. We apply our results to prove quantum Zeno and strong damping limits for the photon loss channel with an explicit bound on the convergence speed.
翻訳日:2024-09-11 17:58:36 公開日:2024-09-10
# ユニタリティから不可逆性へ:無限のテンソル製品とネステッド・ウィグナーの友人の役割

From Unitarity to Irreversibility: The Role of Infinite Tensor Products and Nested Wigner's Friends ( http://arxiv.org/abs/2409.06470v1 )

ライセンス: Link先を確認
Karl Svozil, (参考訳) ユニタリで可逆的なフォン・ノイマン=エヴェレット量子プロセスから非ユニタリで可逆なプロセスや測定への遷移は、ネスト、連鎖、あるいは反復されたウィグナーの友人のシナリオとして解釈される無限のテンソル積を通して探索される。 無限テンソル積は、セクター化と分解を通じてユニタリ同値を乱し、実解析、再帰数学、統計物理学から概念に類似する。

The transition from unitary, reversible von Neumann-Everett quantum processes to non-unitary, irreversible processes and measurements is explored through infinite tensor products interpreted as nested, chained, or iterated Wigner's friend scenarios. Infinite tensor products can disrupt unitary equivalence through sectorization and factorization, drawing parallels to concepts from real analysis, recursive mathematics, and statistical physics.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 地上から衛星画像の登録による弱教師付きカメラ位置決め

Weakly-supervised Camera Localization by Ground-to-satellite Image Registration ( http://arxiv.org/abs/2409.06471v1 )

ライセンス: Link先を確認
Yujiao Shi, Hongdong Li, Akhil Perincherry, Ankit Vora, (参考訳) グラウンド・ツー・サテライト画像マッチング/検索は、当初、都市規模のグラウンドカメラのローカライゼーションのために提案された。 本研究は、都市規模の検索や消費者レベルのGPSやコンパスセンサーから、粗い位置と配向が得られた後、地上から衛星画像のマッチングにより、カメラポーズの精度を向上させる問題に対処する。 この課題を解決するための既存の学習ベースの手法は、ネットワークトレーニングのための地上画像の正確なGPSラベルを必要とする。 しかし、そのような正確なGPSラベルを取得することは困難であり、しばしば高価なRTKセットアップが必要であり、信号閉塞、マルチパス信号の破壊に悩まされる。 そこで本研究では,地上画像のノイズの多いポーズラベルのみをネットワークトレーニングに用いる場合,地上画像登録のための弱教師付き学習戦略を提案する。 各地上画像に対して正負の衛星画像が導出され、コントラスト学習を利用して地上画像と衛星画像の特徴表現を学習し、翻訳推定に有用である。 また、疑似クエリと参照画像ペアを作成することでネットワークをトレーニングする、クロスビュー画像相対回転推定のための自己スーパービジョン戦略を提案する。 実験結果から,我々の弱教師付き学習戦略は,監督のための正確なポーズラベルに依存した最近の最先端手法と比較して,クロスエリア評価において最高の性能を発揮することが示された。

The ground-to-satellite image matching/retrieval was initially proposed for city-scale ground camera localization. This work addresses the problem of improving camera pose accuracy by ground-to-satellite image matching after a coarse location and orientation have been obtained, either from the city-scale retrieval or from consumer-level GPS and compass sensors. Existing learning-based methods for solving this task require accurate GPS labels of ground images for network training. However, obtaining such accurate GPS labels is difficult, often requiring an expensive {\color{black}Real Time Kinematics (RTK)} setup and suffering from signal occlusion, multi-path signal disruptions, \etc. To alleviate this issue, this paper proposes a weakly supervised learning strategy for ground-to-satellite image registration when only noisy pose labels for ground images are available for network training. It derives positive and negative satellite images for each ground image and leverages contrastive learning to learn feature representations for ground and satellite images useful for translation estimation. We also propose a self-supervision strategy for cross-view image relative rotation estimation, which trains the network by creating pseudo query and reference image pairs. Experimental results show that our weakly supervised learning strategy achieves the best performance on cross-area evaluation compared to recent state-of-the-art methods that are reliant on accurate pose labels for supervision.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 動的平面グラフにおけるマルチスケールサイクル追跡

Multi-scale Cycle Tracking in Dynamic Planar Graphs ( http://arxiv.org/abs/2409.06476v1 )

ライセンス: Link先を確認
Farhan Rasheed, Abrar Naseer, Emma Nilsson, Talha Bin Masood, Ingrid Hotz, (参考訳) 本稿では,粒状材料中の2次元力ネットワークの周期を解析するためのネスト追跡フレームワークを提案する。 これらの材料は相互作用する粒子で構成され、相互作用は力ネットワークによって記述される。 これらのネットワーク内のサイクルを様々なスケールで理解し、外部負荷下での進化は、システムの機械的および運動学的特性に大きく寄与するため、非常に重要である。 我々のアプローチは、2Dドメインを力ネットワークのサイクルによって境界付けられたセグメントに分割することでサイクル階層を計算することである。 この分割とサイクルの双対性を利用して、もともと木をマージするために開発されたネスト追跡グラフの概念を適応することができる。 光弾性ディスクを用いた実験から得られた2つの力ネットワークにおける本手法の有効性を実証する。

This paper presents a nested tracking framework for analyzing cycles in 2D force networks within granular materials. These materials are composed of interacting particles, whose interactions are described by a force network. Understanding the cycles within these networks at various scales and their evolution under external loads is crucial, as they significantly contribute to the mechanical and kinematic properties of the system. Our approach involves computing a cycle hierarchy by partitioning the 2D domain into segments bounded by cycles in the force network. We can adapt concepts from nested tracking graphs originally developed for merge trees by leveraging the duality between this partitioning and the cycles. We demonstrate the effectiveness of our method on two force networks derived from experiments with photoelastic disks.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# モデル予測制御,強化学習,ロールアウトを備えたスーパーコンピュータチェス

Superior Computer Chess with Model Predictive Control, Reinforcement Learning, and Rollout ( http://arxiv.org/abs/2409.06477v1 )

ライセンス: Link先を確認
Atharva Gundawar, Yuchao Li, Dimitri Bertsekas, (参考訳) 本稿では,モデル予測制御(MPC),ロールアウト,強化学習(RL)手法をコンピュータチェスに適用する。 移動選択のための新しいアーキテクチャを導入し、利用可能なチェスエンジンをコンポーネントとして使用する。 1基のエンジンは、値空間MPC/RLスキームの近似における位置評価を提供するのに用いられ、もう1基のエンジンは、真の相手選手の動きをエミュレートまたは近似するために、名目相手として使用される。 我々のアーキテクチャは位置評価エンジンの性能を大幅に改善することを示します。 言い換えれば、私たちのアーキテクチャは、それがベースとするエンジンのインテリジェンスの上に、新たなインテリジェンス層を提供します。 これはどんなエンジンにも当てはまり、ストックフィッシュやコモド・ドラゴン(強度の異なる)などのトップエンジンやより弱いエンジンである。 構造上,我々の基本的アーキテクチャは1モーブのルックアヘッドサーチによって動きを選択し,その中間動作は名目上の対戦エンジンによって生成され,次に別のチェスエンジンによって位置評価される。 名目上の相手の使用を先導する単純なスキームは、位置評価器よりも優れているが、それほど多くはない。 多段階のルックアヘッドを含むより複雑なスキームも使用でき、概してルックアヘッドの長さが増加するにつれて性能が向上する傾向にある。 理論的には,提案手法は,基本的に値空間の近似と関連するMPC/RLとロールアウト/ポリチクスの反復スキームを基礎とするニュートン法における一般的なコスト改善特性と超線形収束フレームワークに依存している。 このフレームワークの重要な要件は、最初のルックアヘッドステップを正確に実行する必要があることである。 この事実はアーキテクチャの選択を導いており、おそらく最高のチェスエンジンのパフォーマンスを向上させる上で重要な要素である。

In this paper we apply model predictive control (MPC), rollout, and reinforcement learning (RL) methodologies to computer chess. We introduce a new architecture for move selection, within which available chess engines are used as components. One engine is used to provide position evaluations in an approximation in value space MPC/RL scheme, while a second engine is used as nominal opponent, to emulate or approximate the moves of the true opponent player. We show that our architecture improves substantially the performance of the position evaluation engine. In other words our architecture provides an additional layer of intelligence, on top of the intelligence of the engines on which it is based. This is true for any engine, regardless of its strength: top engines such as Stockfish and Komodo Dragon (of varying strengths), as well as weaker engines. Structurally, our basic architecture selects moves by a one-move lookahead search, with an intermediate move generated by a nominal opponent engine, and followed by a position evaluation by another chess engine. Simpler schemes that forego the use of the nominal opponent, also perform better than the position evaluator, but not quite by as much. More complex schemes, involving multistep lookahead, may also be used and generally tend to perform better as the length of the lookahead increases. Theoretically, our methodology relies on generic cost improvement properties and the superlinear convergence framework of Newton's method, which fundamentally underlies approximation in value space, and related MPC/RL and rollout/policy iteration schemes. A critical requirement of this framework is that the first lookahead step should be executed exactly. This fact has guided our architectural choices, and is apparently an important factor in improving the performance of even the best available chess engines.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 周期クロックを用いたリレーショナルダイナミクス

Relational Dynamics with Periodic Clocks ( http://arxiv.org/abs/2409.06479v1 )

ライセンス: Link先を確認
Leonardo Chataignier, Philipp A. Hoehn, Maximilian P. E. Lock, Fabio M. Mele, (参考訳) 古典と量子論の両方において、周期時計に対して関係力学を確立できる体系的な方法について議論し、それらの並列性を強調する。 1) 周期時計に対する量の値を符号化する古典的および量子的リレーショナルオブザーバブルは、ハミルトンの制約によって生成されたゲージ軌道に沿ってのみ不変であり、その量自体が周期的である場合、観測可能量は時間周期ごとに過渡的に不変である(特に、周期時計に比例する非変動的な観測値となる)。 最後に、周期時計に関して周期的に進化するシステムは、矛盾なく、周期時計に関して単調に進化することができることを示す。 本発表はいくつかの例で説明され,本論文では,周期時計のリレーショナル記述にも対処する文献の他のアプローチと簡単な比較を行った。

We discuss a systematic way in which a relational dynamics can be established relative to periodic clocks both in the classical and quantum theories, emphasising the parallels between them. We show that: (1) classical and quantum relational observables that encode the value of a quantity relative to a periodic clock are only invariant along the gauge orbits generated by the Hamiltonian constraint if the quantity itself is periodic, and otherwise the observables are only transiently invariant per clock cycle (this implies, in particular, that counting winding numbers does not lead to invariant observables relative to the periodic clock); (2) the quantum relational observables can be obtained from a partial group averaging procedure over a single clock cycle; (3) there is an equivalence ('trinity') between the quantum theories based on the quantum relational observables of the clock-neutral picture of Dirac quantisation, the relational Schr\"odinger picture of the Page-Wootters formalism, and the relational Heisenberg picture that follows from quantum deparametrisation, all three taken relative to periodic clocks (implying that the dynamics in all three is necessarily periodic); (4) in the context of periodic clocks, the original Page-Wootters definition of conditional probabilities fails for systems that have a continuous energy spectrum and, using the equivalence between the Page-Wootters and the clock-neutral, gauge-invariant formalism, must be suitably updated. Finally, we show how a system evolving periodically with respect to a periodic clock can evolve monotonically with respect to an aperiodic clock, without inconsistency. The presentation is illustrated by several examples, and we conclude with a brief comparison to other approaches in the literature that also deal with relational descriptions of periodic clocks.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 量子テクスチャとゲート識別

Quantum texture and gate identification ( http://arxiv.org/abs/2409.06482v1 )

ライセンス: Link先を確認
Fernando Parisio, (参考訳) 任意の量子状態のテクスチャの概念を,選択的に導入し,検討する。 この研究の前半では、資源理論を開発し、状態テクスチャが計算が容易なモノトンによって適切に記述され、直接測定可能であることを示す。 テクスチャは、普遍回路層における未知の量子ゲートのキャラクタリゼーションに有用であることが示されている。 ランダムな入力状態を使用し、出力キュービットのテクスチャを記録することで、少なくとも1つのCNOTゲートを含む場合、回路層を完全に特徴づけることができる。 これはトモグラフィープロトコルや補助システムを必要としない。

We introduce and explore the notion of texture of an arbitrary quantum state, in a selected basis. In the first part of this work we develop a resource theory and show that state texture is adequately described by an easily computable monotone, which is also directly measurable. It is shown that textures are useful in the characterization of unknown quantum gates in universal circuit layers. By using randomized input states and recording the textures of the output qubits we are able to fully characterize the circuit layer, whenever it contains at least one CNOT gate. This can be done without the need of tomographic protocols and the use of ancillary systems.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# コントラスト復号法の再バランシングによる視覚言語モデルにおける幻覚の緩和

Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding ( http://arxiv.org/abs/2409.06485v1 )

ライセンス: Link先を確認
Xiaoyu Liang, Jiayuan Yu, Lianrui Mu, Jiedong Zhuang, Jiaqi Hu, Yuchen Yang, Jiangnan Ye, Lu Lu, Jian Chen, Haoji Hu, (参考訳) VLM(Visual-Language Models)は、視覚的質問応答や画像キャプションといったタスクにおいて印象的な機能を示しているが、幻覚に苦慮している。 これらのモデルにおける注意分布の分析は、VLMが視覚トークンよりもテキストトークンを処理する傾向があることを示している。 このような注意分布の不均衡は、マルチモーダル知識の衝突の場合、VLMがテキスト知識を優先し、画像情報との違いをもたらす。 本稿では,VLMにおける注意分布の補正にテキストと視覚の分岐を用いたRe-Balancing Contrastive Decoding (RBD)法を提案する。 具体的には、テキストブランチは、画像ノイズを注入して、モデルのテキスト依存性を刺激し、テキストバイアスを低減する。 同時に視覚枝は重要なトークンの選択に焦点を合わせ、注意機構を洗練して主主題を強調させる。 このデュアルブランチ戦略により、RBD法は視覚情報を高めながらテキストバイアスを低減できる。 実験の結果, RBD法はCHAIR法とPOPE法で既存の手法よりも優れており, モデル全体の能力を低下させることなく幻覚を緩和することがわかった。

Although Visual-Language Models (VLMs) have shown impressive capabilities in tasks like visual question answering and image captioning, they still struggle with hallucinations. Analysis of attention distribution in these models shows that VLMs tend to processing textual tokens rather than visual tokens. This imbalance of attention distribution causes VLMs to favor textual knowledge in the case of multimodal knowledge conflicts, resulting in differences from the image information. In this paper, we propose Re-Balancing Contrastive Decoding (RBD) method, which employs textual and visual branches to recalibrate attention distribution in VLMs. Specifically, the textual branch injects image noise to stimulate the model's dependency on text, thereby reducing textual bias. Concurrently, the visual branch focuses on the selection of significant tokens, refining the attention mechanism to highlight the primary subject. This dual-branch strategy enables the RBD method to diminish textual bias while enhancing visual information. Experimental results demonstrate that our method, RBD, outperforms the existing methods by the CHAIR and POPE metrics, mitigate hallucinations without reducing the model's general capabilities.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 熱化は、大きな古典的および量子調和系において典型的である

Thermalization is typical in large classical and quantum harmonic systems ( http://arxiv.org/abs/2409.06489v1 )

ライセンス: Link先を確認
Marco Cattaneo, Marco Baldovin, Dario Lucente, Paolo Muratore-Ginanneschi, Angelo Vulpiani, (参考訳) 我々は、古典モデルと量子モデルの両方に適用可能な調和系内での動的熱化に関する解析的基準を確立する。 具体的には、物理的に関係するランダムな二次ハミルトニアンの粒子エネルギーのような様々な観測対象の熱化が、マイクロカノニカル分布から引き出された初期条件を持つ大規模システム(N \gg 1$)で典型的であることを証明した。 さらに,通常のモードのごく一部しか励起されない非典型的初期条件からも熱化が生じることを示す。 我々の研究は、カオスとエルゴディダリティを回避し、代わりに多くの通常のモードに依存した観測可能なものに注目し、熱化の古典理論と量子理論の橋渡しを行う熱化へのアプローチの一般的な力学基盤を提供する。

We establish an analytical criterion for dynamical thermalization within harmonic systems, applicable to both classical and quantum models. Specifically, we prove that thermalization of various observables, such as particle energies in physically relevant random quadratic Hamiltonians, is typical for large systems ($N \gg 1$) with initial conditions drawn from the microcanonical distribution. Moreover, we show that thermalization can also arise from non-typical initial conditions, where only a finite fraction of the normal modes is excited. Our findings provide a general dynamical basis for an approach to thermalization that bypasses chaos and ergodicity, focusing instead on observables dependent on a large number of normal modes, and build a bridge between the classical and quantum theories of thermalization.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 1つの$\mathrm{H}_2^+$分子イオンの量子制御

Quantum control of a single $\mathrm{H}_2^+$ molecular ion ( http://arxiv.org/abs/2409.06495v1 )

ライセンス: Link先を確認
David Holzapfel, Fabian Schmid, Nick Schwegler, Oliver Stadler, Martin Stadler, Alexander Ferk, Jonathan P. Home, Daniel Kienzler, (参考訳) 科学は、実験的な測定に対する理論モデルのベンチマークに基づいており、最も単純なシステムを除いては、高精度に必要な計算は非常に困難である。 $\mathrm{H}_2^+$は最も単純な安定な分子であり、内部構造は第一原理から高い精度で計算可能である。 これにより理論モデルの検証と基本定数の決定が可能である。 しかしながら、$\mathrm{H}_2^+$の研究は重要な課題を実験的に提示する。 レーザー冷却、蛍光検出、光ポンピングなどの標準的な制御方法は、励起された回転状態と振動状態の非常に長い寿命のため、$\mathrm{H}_2^+$には適用できない。 ここでは、量子論理分光法を用いて、原子の「ヘルパー」イオンと共トラッピングし、2つのイオン間の量子操作を実行することで、1つの$\mathrm{H}_2^+$分子の完全な量子制御を実証する。 これにより、純量子状態準備、コヒーレント制御、非破壊的読み出しが可能となり、$\mathrm{H}_2^+$の高分解能マイクロ波分光を行う。 この結果はマイクロ波および光領域の両方において$\mathrm{H}_2^+$の高精度分光の道を開くとともに、他の分子イオンに転移可能な技術を提供する。

Science is founded on the benchmarking of theoretical models against experimental measurements, with the challenge that for all but the simplest systems, the calculations required for high precision become extremely challenging. $\mathrm{H}_2^+$ is the simplest stable molecule, and its internal structure is calculable to high precision from first principles. This allows tests of theoretical models and the determination of fundamental constants. However, studying $\mathrm{H}_2^+$ experimentally presents significant challenges. Standard control methods such as laser cooling, fluorescence detection and optical pumping are not applicable to $\mathrm{H}_2^+$ due to the very long lifetimes of its excited rotational and vibrational states. Here we solve this issue by using Quantum Logic Spectroscopy techniques to demonstrate full quantum control of a single $\mathrm{H}_2^+$ molecule by co-trapping it with an atomic 'helper' ion and performing quantum operations between the two ions. This enables us to perform pure quantum state preparation, coherent control and non-destructive readout, which we use to perform high-resolution microwave spectroscopy of $\mathrm{H}_2^+$. Our results pave the way for high precision spectroscopy of $\mathrm{H}_2^+$ in both the microwave and optical domains, while offering techniques which are transferable to other molecular ions.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 正確な交換相関ポテンシャルとエネルギーによる局所および半局所密度関数の学習

Learning local and semi-local density functionals from exact exchange-correlation potentials and energies ( http://arxiv.org/abs/2409.06498v1 )

ライセンス: Link先を確認
Bikash Kanungo, Jeffrey Hatch, Paul M. Zimmerman, Vikram Gavini, (参考訳) 正確な交換相関関数(XC)の発見は密度汎関数理論(DFT)における決定的な課題である。 40年にわたる活発な開発にもかかわらず、望まれる化学的正確性は依然として既存の機能によって解明されている。 我々は,XC関数の正確な密度,XCエネルギー,XCポテンシャルを利用して,XC関数を学習するためのデータ駆動経路を提案する。 正確な密度は正確な構成相互作用(CI)から得られるが、正確なXCエネルギーとXC電位はCI密度の逆DFT計算によって得られる。 ニューラルネットワーク(NN)に基づく局所密度近似(LDA)と一般化勾配近似(GGA)が5つの原子と2つの分子で訓練され、トレーニングセット外の数百個の分子に対する総エネルギー、密度、原子化エネルギー、障壁高さが著しく向上したことを示す。 特に、NNベースのGGA関数は、より高いラングSCANメタGGAと同様の精度を実現し、XC関数のモデリングにXCポテンシャルを使用するという約束を強調している。 このアプローチは、ますます正確で洗練されたXC関数の体系的学習の道を開くことを期待する。

Finding accurate exchange-correlation (XC) functionals remains the defining challenge in density functional theory (DFT). Despite 40 years of active development, the desired chemical accuracy is still elusive with existing functionals. We present a data-driven pathway to learn the XC functionals by utilizing the exact density, XC energy, and XC potential. While the exact densities are obtained from accurate configuration interaction (CI), the exact XC energies and XC potentials are obtained via inverse DFT calculations on the CI densities. We demonstrate how simple neural network (NN) based local density approximation (LDA) and generalized gradient approximation (GGA), trained on just five atoms and two molecules, provide remarkable improvement in total energies, densities, atomization energies, and barrier heights for hundreds of molecules outside the training set. Particularly, the NN-based GGA functional attains similar accuracy as the higher rung SCAN meta-GGA, highlighting the promise of using the XC potential in modeling XC functionals. We expect this approach to pave the way for systematic learning of increasingly accurate and sophisticated XC functionals.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# 3次元点雲に対するニューラルラプラシアン演算子

Neural Laplacian Operator for 3D Point Clouds ( http://arxiv.org/abs/2409.06506v1 )

ライセンス: Link先を確認
Bo Pang, Zhongtian Zheng, Yilong Li, Guoping Wang, Peng-Shuai Wang, (参考訳) 離散ラプラシア作用素は3次元幾何処理において重要な役割を担っているが、点雲上でそれを定義することは依然として困難である。 それまでの研究は主に、ラプラス作用素を定義するための基礎となる多様体を近似するために各点の周りに局所三角測量を構築することに焦点を当てていたが、これは堅牢で正確ではないかもしれない。 対照的に、入力点クラウドから構築されたK-nearest neighbors (KNN)グラフを使い、グラフニューラルネットワーク(GNN)を用いてKNNグラフ上のラプラシアン作用素を学習する。 しかし、基底トラスラプラシア作用素は、KNNグラフと異なる接続性を持つ多様体メッシュ上で定義されるため、直接訓練には使用できない。 GNNを訓練するために,学習したラプラシアン作用素が接地ラプラシアン演算子と同じように振る舞うように,接地ラプラシアン演算子の動作を一連のプローブ関数上で模倣して,新しい訓練手法を提案する。 ネットワークをShapeNetのサブセットでトレーニングし、さまざまなポイントクラウドで評価します。 従来の手法と比較して誤差を桁違いに低減し, 細い構造や鋭い特徴を持つスパース点雲の処理に優れる。 また,本手法は形状が見えないような強力な一般化能力を示す。 学習したラプラシアン演算子を用いて、さらに一連のラプラシアンベースの幾何処理アルゴリズムを点雲に直接適用し、正確な結果が得られるようにし、点雲上の幾何処理に対する多くのエキサイティングな可能性を実現する。 コードとトレーニングされたモデルはhttps://github.com/IntelligentGeometry/NeLoで公開されている。

The discrete Laplacian operator holds a crucial role in 3D geometry processing, yet it is still challenging to define it on point clouds. Previous works mainly focused on constructing a local triangulation around each point to approximate the underlying manifold for defining the Laplacian operator, which may not be robust or accurate. In contrast, we simply use the K-nearest neighbors (KNN) graph constructed from the input point cloud and learn the Laplacian operator on the KNN graph with graph neural networks (GNNs). However, the ground-truth Laplacian operator is defined on a manifold mesh with a different connectivity from the KNN graph and thus cannot be directly used for training. To train the GNN, we propose a novel training scheme by imitating the behavior of the ground-truth Laplacian operator on a set of probe functions so that the learned Laplacian operator behaves similarly to the ground-truth Laplacian operator. We train our network on a subset of ShapeNet and evaluate it across a variety of point clouds. Compared with previous methods, our method reduces the error by an order of magnitude and excels in handling sparse point clouds with thin structures or sharp features. Our method also demonstrates a strong generalization ability to unseen shapes. With our learned Laplacian operator, we further apply a series of Laplacian-based geometry processing algorithms directly to point clouds and achieve accurate results, enabling many exciting possibilities for geometry processing on point clouds. The code and trained models are available at https://github.com/IntelligentGeometry/NeLo.
翻訳日:2024-09-11 17:48:44 公開日:2024-09-10
# DroneXNFT: 自律型UAV運用とフライトデータ管理のためのNFT駆動フレームワーク

DroneXNFT: An NFT-Driven Framework for Secure Autonomous UAV Operations and Flight Data Management ( http://arxiv.org/abs/2409.06507v1 )

ライセンス: Link先を確認
Khaoula Hidawi, (参考訳) 非Fungible Tokens(NFT)は、デジタル資産を管理する革命的な方法として登場し、ブロックチェーン上で透明性とセキュアなオーナシップレコードを提供する。 本稿では,無人航空機(UAV)の飛行データ管理にNFTを利用する理論的枠組みを提案する。 このアプローチでは、データ完全性、オーナシップ転送、ステークホルダ間のセキュアなデータ共有の確保に重点を置いています。 このフレームワークは暗号手法、スマートコントラクト、アクセス制御機構を利用して、UAV飛行データに対するタンパー保護およびプライバシ保護管理システムを実現する。

Non-Fungible Tokens (NFTs) have emerged as a revolutionary method for managing digital assets, providing transparency and secure ownership records on a blockchain. In this paper, we present a theoretical framework for leveraging NFTs to manage UAV (Unmanned Aerial Vehicle) flight data. Our approach focuses on ensuring data integrity, ownership transfer, and secure data sharing among stakeholders. This framework utilizes cryptographic methods, smart contracts, and access control mechanisms to enable a tamper-proof and privacy-preserving management system for UAV flight data.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 抽象レベルでの機械と人間の視覚表現の調整

Aligning Machine and Human Visual Representations across Abstraction Levels ( http://arxiv.org/abs/2409.06509v1 )

ライセンス: Link先を確認
Lukas Muttenthaler, Klaus Greff, Frieda Born, Bernhard Spitzer, Simon Kornblith, Michael C. Mozer, Klaus-Robert Müller, Thomas Unterthiner, Andrew K. Lampinen, (参考訳) 深層ニューラルネットワークは、視覚タスクにおける人間の振る舞いのモデルなど、幅広いアプリケーションで成功している。 しかしながら、ニューラルネットワークのトレーニングと人間の学習は基本的な方法で異なり、ニューラルネットワークは人間のように堅牢に一般化することができず、基礎となる表現の類似性に関する疑問が提起される。 現代の学習システムに欠けているのは、もっと人間らしく振る舞うことか? 人間の概念的知識は、きめ細かいものから粗いものまで階層的に構成されているが、モデル表現は、これらの抽象レベルをすべて正確に捉えているわけではない。 このミスアライメントに対処するために、まず、人間の判断を模倣するために教師モデルを訓練し、その表現から人間のような構造を事前訓練された最先端のビジョン基盤モデルに転送する。 これらのヒューマンアライメントモデルは、さまざまなレベルのセマンティック抽象化にまたがる人間の判断の新しいデータセットを含む、幅広い類似性タスクにおける人間の行動と不確実性をより正確に近似する。 さらに、さまざまな機械学習タスクのセットにおいて、より優れたパフォーマンスを実現し、一般化とアウト・オブ・ディストリビューションの堅牢性を高めます。 このように、人的知識を付加してニューラルネットワークを注入すると、人間の認識とより一貫性があり、実用的にも有用である最高の世界表現が得られるため、より堅牢で解釈可能で、人間に似た人工知能システムへの道が開ける。

Deep neural networks have achieved success across a wide range of applications, including as models of human behavior in vision tasks. However, neural network training and human learning differ in fundamental ways, and neural networks often fail to generalize as robustly as humans do, raising questions regarding the similarity of their underlying representations. What is missing for modern learning systems to exhibit more human-like behavior? We highlight a key misalignment between vision models and humans: whereas human conceptual knowledge is hierarchically organized from fine- to coarse-scale distinctions, model representations do not accurately capture all these levels of abstraction. To address this misalignment, we first train a teacher model to imitate human judgments, then transfer human-like structure from its representations into pretrained state-of-the-art vision foundation models. These human-aligned models more accurately approximate human behavior and uncertainty across a wide range of similarity tasks, including a new dataset of human judgments spanning multiple levels of semantic abstractions. They also perform better on a diverse set of machine learning tasks, increasing generalization and out-of-distribution robustness. Thus, infusing neural networks with additional human knowledge yields a best-of-both-worlds representation that is both more consistent with human cognition and more practically useful, thus paving the way toward more robust, interpretable, and human-like artificial intelligence systems.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 超伝導量子ビット環における合成分数束量子

Synthetic fractional flux quanta in a ring of superconducting qubits ( http://arxiv.org/abs/2409.06511v1 )

ライセンス: Link先を確認
Luca Chirolli, Juan Polo, Gianluigi Catelani, Luigi Amico, (参考訳) 強相互作用するボゾン系の実現として, 合成磁場でスレッディングされた静電結合トランスモンの環について検討した。 合成フラックスは、「レヴィトン」と呼ばれるローレンツのパルスの適切な周期列に基づいて、特定のフロケ変調スキームによって与えられる。 このようなスキームは、システムの翻訳不変性を保ち、キュービットのスイートスポットで機能する利点がある。 このシステムを用いて、フラックス量子の分数値の概念を実証する。 このような分画化現象は、本来は低温原子の明るいソリトンに対して予測されていたが、実際にはそのプラットフォームにアクセスすることは困難である。 ここでは、クビット環がマイクロ波によって駆動される適切な「散乱実験」の吸収スペクトルにおいて、分数束量子がどのように読み出されるかを示す。

A ring of capacitively-coupled transmons threaded by a synthetic magnetic field is studied as a realization of a strongly interacting bosonic system. The synthetic flux is imparted through a specific Floquet modulation scheme based on a suitable periodic sequence of Lorentzian pulses that are known as `Levitons'. Such scheme has the advantage to preserve the translation invariance of the system and to work at the qubits sweet spots. We employ this system to demonstrate the concept of fractional values of flux quanta. Although such fractionalization phenomenon was originally predicted for bright solitons in cold atoms, it may be in fact challenging to access with that platform. Here, we show how fractional flux quanta can be read-out in the absorption spectrum of a suitable 'scattering experiment' in which the qubit ring is driven by microwaves.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# ピアノ音符の正弦・過渡・雑音ニューラルモデリング

Sine, Transient, Noise Neural Modeling of Piano Notes ( http://arxiv.org/abs/2409.06513v1 )

ライセンス: Link先を確認
Riccardo Simionato, Stefano Fasciani, (参考訳) 本稿では,ピアノの音をエミュレートする新しい手法を提案する。 ピアノ音を再現するスペクトルモデリング合成器を設計するために, 正弦, 過渡, 雑音分解を利用する手法を提案する。 3つのサブモジュールは、これらのコンポーネントをピアノ録音から学び、対応するハーモニック、トランジェント、ノイズ信号を生成する。 エミュレーションを3つの独立したトレーニング可能なモデルに分割すると、モデリングタスクの複雑さが減少する。 この準ハーモニックな内容は、物理式で導かれる微分可能な正弦波モデルを用いて生成され、そのパラメータはオーディオ記録から自動的に推定される。 ノイズサブモジュールは学習可能な時間変化フィルタを用い、深層畳み込みネットワークを用いてトランジェントを生成する。 特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。 その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。 過渡成分および雑音成分のスペクトル中のエネルギー分布は全体として正確である。 モデルはより計算的かつメモリ効率が良いが、知覚テストは音符の攻撃フェーズを正確にモデル化する際の限界を明らかにする。 それにもかかわらず、シングルノートやトリコードをエミュレートする際の知覚的正確性は一般的に達成される。

This paper introduces a novel method for emulating piano sounds. We propose to exploit the sine, transient, and noise decomposition to design a differentiable spectral modeling synthesizer replicating piano notes. Three sub-modules learn these components from piano recordings and generate the corresponding harmonic, transient, and noise signals. Splitting the emulation into three independently trainable models reduces the modeling tasks' complexity. The quasi-harmonic content is produced using a differentiable sinusoidal model guided by physics-derived formulas, whose parameters are automatically estimated from audio recordings. The noise sub-module uses a learnable time-varying filter, and the transients are generated using a deep convolutional network. From singular notes, we emulate the coupling between different keys in trichords with a convolutional-based network. Results show the model matches the partial distribution of the target while predicting the energy in the higher part of the spectrum presents more challenges. The energy distribution in the spectra of the transient and noise components is accurate overall. While the model is more computationally and memory efficient, perceptual tests reveal limitations in accurately modeling the attack phase of notes. Despite this, it generally achieves perceptual accuracy in emulating single notes and trichords.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# $K$Nearest-Neighbor Resamplingによる書面シミュレーションと貿易評価

Limit Order Book Simulation and Trade Evaluation with $K$-Nearest-Neighbor Resampling ( http://arxiv.org/abs/2409.06514v1 )

ライセンス: Link先を確認
Michael Giegrich, Roel Oomen, Christoph Reisinger, (参考訳) そこで,本稿では,<sup>{giegrich2023k} に提案されているオフ政治評価手法である「K$-nearest neighbor」(K$-NN)の再サンプリングが,LOB市場をシミュレートし,取引戦略の評価・校正にどのように使用できるかを示す。 過去のLOBデータを用いて,本手法が現実的なLOBダイナミクスを再現可能であること,シミュレーション内での合成取引が,対応する文献に合わせた市場影響をもたらすことを実証した。 他の統計的LOBシミュレーション手法と比較して、我々のアルゴリズムは、一般的な条件下での理論的収束を保証することができ、最適化を必要とせず、実装が容易で、計算的に効率的である。 さらに,本手法をベンチマークで比較すると,いくつかの重要な統計量に対して,ディープラーニングに基づくアルゴリズムよりも優れていることを示す。 プロラタ型マッチングを用いたLOBの文脈において,我々のアルゴリズムは液化戦略において,リミットオーダーのサイズをキャリブレーションする方法を実証する。 最後に、高次元状態空間の選択に対して、$K$-NN再サンプリングをどのように変更できるかを説明する。

In this paper, we show how $K$-nearest neighbor ($K$-NN) resampling, an off-policy evaluation method proposed in \cite{giegrich2023k}, can be applied to simulate limit order book (LOB) markets and how it can be used to evaluate and calibrate trading strategies. Using historical LOB data, we demonstrate that our simulation method is capable of recreating realistic LOB dynamics and that synthetic trading within the simulation leads to a market impact in line with the corresponding literature. Compared to other statistical LOB simulation methods, our algorithm has theoretical convergence guarantees under general conditions, does not require optimization, is easy to implement and computationally efficient. Furthermore, we show that in a benchmark comparison our method outperforms a deep learning-based algorithm for several key statistics. In the context of a LOB with pro-rata type matching, we demonstrate how our algorithm can calibrate the size of limit orders for a liquidation strategy. Finally, we describe how $K$-NN resampling can be modified for choices of higher dimensional state spaces.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# オリンピックのレンズによる大言語モデルの内的知識構造への疑問

Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games ( http://arxiv.org/abs/2409.06518v1 )

ライセンス: Link先を確認
Juhwan Choi, YoungBin Kim, (参考訳) 大規模言語モデル(LLM)は自然言語処理において支配的なアプローチとなっているが、その内部知識構造はほとんど解明されていない。 本稿では,オリンピックの歴史的メダル集計データを用いて,LLMの内部知識構造を解析する。 私たちは、各チームにメダル数を提供し、どのチームが特定のランクを獲得したかを特定することで、モデルに対処します。 我々の結果は、最先端のLLMが個々のチームに対してメダル数を報告する上で、非常にうまく機能しているのに対して、特定のランキングに関する質問に対して、かなり苦労していることを示している。 このことは、LLMの内部知識構造が、既知のメダル数から簡単にランク付けできる人間と根本的に異なることを示唆している。 さらなる研究をサポートするため、コード、データセット、モデルアウトプットを公開しています。

Large language models (LLMs) have become a dominant approach in natural language processing, yet their internal knowledge structures remain largely unexplored. In this paper, we analyze the internal knowledge structures of LLMs using historical medal tallies from the Olympic Games. We task the models with providing the medal counts for each team and identifying which teams achieved specific rankings. Our results reveal that while state-of-the-art LLMs perform remarkably well in reporting medal counts for individual teams, they struggle significantly with questions about specific rankings. This suggests that the internal knowledge structures of LLMs are fundamentally different from those of humans, who can easily infer rankings from known medal counts. To support further research, we publicly release our code, dataset, and model outputs.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 軽量航空機用プッシュボルームイメージングスペクトロメトリのin flight Boresightrectification

In Flight Boresight Rectification for Lightweight Airborne Pushbroom Imaging Spectrometry ( http://arxiv.org/abs/2409.06520v1 )

ライセンス: Link先を確認
Julien Yuuki Burkhard, Jesse Ray Murray Lahaye, Laurent Valentin Jospin, Jan Skaloud, (参考訳) ハイパースペクトルカメラは、UAVや小型航空機のような軽量の飛行プラットフォームでの運用のために、最近小型化されている。 フレームカメラ(RGBやMultispectral)とは異なり、多くのハイパースペクトルセンサーはリニアアレイまたは「プッシュブルーム」走査設計を使用している。 この設計は、画像の修正と、内在カメラパラメータと外在カメラパラメータの校正に関する重要な課題を提示する。 通常、そのようなタスクに対処するために用いられる手法は、航空機のプラットフォーム軌道の正確なGPS/INS推定と詳細な地形モデルに依存している。 しかし、軌道または表面モデル情報の不正確さは、体系的な誤りを導入し、幾何学的モデリングを複雑にし、最終的に整合の質を低下させる。 これらの課題を克服するために、生のスペクトル画像と、おそらく低品質のGPS/INS軌道のみを用いた「プッシュブルーム」ハイパースペクトルセンサのタイポイント抽出とカメラキャリブレーション手法を提案する。 提案手法により,高スペクトルカメラを用いた空飛ぶシステムの自動校正が可能であり,他の最先端自動校正法よりも優れ,手動校正法と同等の精度を達成できることが実証された。

Hyperspectral cameras have recently been miniaturized for operation on lightweight airborne platforms such as UAV or small aircraft. Unlike frame cameras (RGB or Multispectral), many hyperspectral sensors use a linear array or 'push-broom' scanning design. This design presents significant challenges for image rectification and the calibration of the intrinsic and extrinsic camera parameters. Typically, methods employed to address such tasks rely on a precise GPS/INS estimate of the airborne platform trajectory and a detailed terrain model. However, inaccuracies in the trajectory or surface model information can introduce systematic errors and complicate geometric modeling which ultimately degrade the quality of the rectification. To overcome these challenges, we propose a method for tie point extraction and camera calibration for 'push-broom' hyperspectral sensors using only the raw spectral imagery and raw, possibly low quality, GPS/INS trajectory. We demonstrate that our approach allows for the automatic calibration of airborne systems with hyperspectral cameras, outperforms other state-of-the-art automatic rectification methods and reaches an accuracy on par with manual calibration methods.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 理想化大気力学におけるクープマン演算子推定のための深層学習

Deep Learning for Koopman Operator Estimation in Idealized Atmospheric Dynamics ( http://arxiv.org/abs/2409.06522v1 )

ライセンス: Link先を確認
David Millard, Arielle Carr, Stéphane Gaudreault, (参考訳) ディープラーニングは、気象予報に革命をもたらしており、新しいデータ駆動モデルは、中期予測のための運用物理モデルと同等の精度を達成している。 しかしながら、これらのモデルは解釈可能性に欠けることが多く、基礎となる力学を理解するのが難しく、説明が難しい。 本稿では、データ駆動モデルの透明性を高めるために、複雑な非線形力学の線形表現を提供するクープマン作用素を推定する手法を提案する。 その可能性にもかかわらず、クープマン作用素を大気モデルのような大規模問題に適用することは依然として困難である。 本研究の目的は、既存の手法の限界を特定し、これらのモデルを洗練して様々なボトルネックを克服し、単純化されたダイナミクスを捉える新しい畳み込みニューラルネットワークアーキテクチャを導入することである。

Deep learning is revolutionizing weather forecasting, with new data-driven models achieving accuracy on par with operational physical models for medium-term predictions. However, these models often lack interpretability, making their underlying dynamics difficult to understand and explain. This paper proposes methodologies to estimate the Koopman operator, providing a linear representation of complex nonlinear dynamics to enhance the transparency of data-driven models. Despite its potential, applying the Koopman operator to large-scale problems, such as atmospheric modeling, remains challenging. This study aims to identify the limitations of existing methods, refine these models to overcome various bottlenecks, and introduce novel convolutional neural network architectures that capture simplified dynamics.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# MENSA:Informative Censoringの下での生存分析のためのマルチイベントネットワーク

MENSA: A Multi-Event Network for Survival Analysis under Informative Censoring ( http://arxiv.org/abs/2409.06525v1 )

ライセンス: Link先を確認
Christian Marius Lillelund, Ali Hossein Gharari Foomani, Weijie Sun, Shi-ang Qi, Russell Greiner, (参考訳) インスタンスが与えられた場合、複数イベントサバイバルモデルは、そのインスタンスが複数の異なるイベントを経験するまでの時間を予測する。 これらの事象は相互に排他的ではなく、しばしばそれらの間の統計的依存関係がある。 生存率は比較的少ないが、多くは時間から時間までではなく、単純なリスクスコアの生成に重点を置いている。 これらの課題を克服するために,入力共変量表現とイベント間の依存構造を協調的に学習できる,マルチイベントサバイバル分析のための新しい深層学習手法であるMENSAを紹介した。 多段階生存分析の実践的動機として,筋萎縮性側索硬化症(Amyotrophic lateral sclerosis,ALS)患者が様々な身体機能を失うまでの時間予測の問題を考える。 患者が飲み込むことができない場合,L1-Marginの損失は278.8日であり,各イベントを個別にモデリングする場合の355.2日である。 さらに、最適化プロセスにおいて、検閲やイベント分布を等しく寄与する要因としてモデル化することで、単一イベントと競合するリスクシナリオでのアプローチを評価し、複数のベンチマークデータセットに対して、我々のアプローチが良好に動作することを示す。 ソースコードは、https://github.com/thecml/mensa.comで入手できる。

Given an instance, a multi-event survival model predicts the time until that instance experiences each of several different events. These events are not mutually exclusive and there are often statistical dependencies between them. There are relatively few multi-event survival results, most focusing on producing a simple risk score, rather than the time-to-event itself. To overcome these issues, we introduce MENSA, a novel, deep learning approach for multi-event survival analysis that can jointly learn representations of the input covariates and the dependence structure between events. As a practical motivation for multi-event survival analysis, we consider the problem of predicting the time until a patient with amyotrophic lateral sclerosis (ALS) loses various physical functions, i.e., the ability to speak, swallow, write, or walk. When estimating when a patient is no longer able to swallow, our approach achieves an L1-Margin loss of 278.8 days, compared to 355.2 days when modeling each event separately. In addition, we also evaluate our approach in single-event and competing risk scenarios by modeling the censoring and event distributions as equal contributing factors in the optimization process, and show that our approach performs well across multiple benchmark datasets. The source code is available at: https://github.com/thecml/mensa
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 関数的制約付きアルゴリズムは単純二値問題に収束する

Functionally Constrained Algorithm Solves Convex Simple Bilevel Problems ( http://arxiv.org/abs/2409.06530v1 )

ライセンス: Link先を確認
Huaqing Zhang, Lesi Chen, Jing Xu, Jingzhao Zhang, (参考訳) 本稿では、凸上層関数が凸下層問題の最適解に対して最小化される単純な二層問題について検討する。 まず、単純な二値問題の基本的難しさを示し、そのような問題の近似的最適値は、一階ゼロ参照アルゴリズムでは得られないことを示す。 次に、弱近似解を追求する最近の研究に従う。 この目的のために,機能的制約のある問題に再構成することで,スムーズで非滑らかな問題に対して,新しい近似手法を提案する。

This paper studies simple bilevel problems, where a convex upper-level function is minimized over the optimal solutions of a convex lower-level problem. We first show the fundamental difficulty of simple bilevel problems, that the approximate optimal value of such problems is not obtainable by first-order zero-respecting algorithms. Then we follow recent works to pursue the weak approximate solutions. For this goal, we propose novel near-optimal methods for smooth and nonsmooth problems by reformulating them into functionally constrained problems.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# PoseEmbroider: 3D, Visual, Semantic-Aware Human Pose Representationを目指して

PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation ( http://arxiv.org/abs/2409.06535v1 )

ライセンス: Link先を確認
Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Grégory Rogez, (参考訳) 画像やテキストなどの潜在空間における複数のモダリティの調整は、画像キャプション、テキスト・ツー・イメージ生成、画像グラウンドニングといったタスクを刺激する強力なセマンティックな視覚表現を生成することを示した。 人間の中心的な視覚の文脈では、CLIPのような表現は、ほとんどの標準的な人間のポーズを(立ち上がりや座るなどの)比較的よく符号化しているが、細部や珍しいものを見分けるのに十分な鋭さが欠如している。 実際、人間の3Dポーズは画像(例えば、ポーズ推定やポーズ条件の画像生成)やテキスト(例えば、テキスト・ツー・プレイス・ジェネレーション)に関連付けられていることが多いが、両者がペアリングされることはめったにない。 本研究では,3次元のポーズ,人物の写真,テキストによるポーズ記述を組み合わせることで,人間のポーズ表現を3次元・視覚的・意味的に表現する。 検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。 モダリティを構成する際には、標準のマルチモーダルアライメント検索モデルよりも優れており、部分的な情報(例えば、下半身を隠蔽した画像)をソートすることができる。 本稿では,(1)オプションテキストキューによる画像からのSMPL回帰と(2)3Dポーズから別の3Dポーズへ(フィットネスコーチとして)移動する方法を記述したテキストを生成するための細粒度命令生成の課題について,その可能性を示す。 以前の作業とは異なり、我々のモデルは再トレーニングなしにどんな種類の入力(画像やポーズ)でも受けられる。

Aligning multiple modalities in a latent space, such as images and texts, has shown to produce powerful semantic visual representations, fueling tasks like image captioning, text-to-image generation, or image grounding. In the context of human-centric vision, albeit CLIP-like representations encode most standard human poses relatively well (such as standing or sitting), they lack sufficient acuteness to discern detailed or uncommon ones. Actually, while 3D human poses have been often associated with images (e.g. to perform pose estimation or pose-conditioned image generation), or more recently with text (e.g. for text-to-pose generation), they have seldom been paired with both. In this work, we combine 3D poses, person's pictures and textual pose descriptions to produce an enhanced 3D-, visual- and semantic-aware human pose representation. We introduce a new transformer-based model, trained in a retrieval fashion, which can take as input any combination of the aforementioned modalities. When composing modalities, it outperforms a standard multi-modal alignment retrieval model, making it possible to sort out partial information (e.g. image with the lower body occluded). We showcase the potential of such an embroidered pose representation for (1) SMPL regression from image with optional text cue; and (2) on the task of fine-grained instruction generation, which consists in generating a text that describes how to move from one 3D pose to another (as a fitness coach). Unlike prior works, our model can take any kind of input (image and/or pose) without retraining.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# LLMとナラティブ構造化テキスト埋め込みを用いたニュースナラティブのマッピング

Mapping News Narratives Using LLMs and Narrative-Structured Text Embeddings ( http://arxiv.org/abs/2409.06540v1 )

ライセンス: Link先を確認
Jan Elfes, (参考訳) 個人のアイデンティティから国際政治まで、様々な社会レベルにわたる物語の重大な影響を考えると、その分布と発展を時間とともに理解することが不可欠である。 これは特にオンライン空間において重要である。 Web上では、物語が急速に広まり、社会的分裂と紛争が激化する。 多くの質的なアプローチが存在するが、物語の定量化は依然として重要な課題である。 計算的物語分析は包括的かつ一般化可能なフレームワークを欠いている。 このギャップに対処するために、構造主義言語理論に基づく数値的物語表現を導入する。 主にグライマスの『アクタンティアル・モデル』は6つの機能的なキャラクターの星座を通して物語を表現している。 これらのいわゆるアクタントはジャンルに依存しないので、モデルを非常に一般化することができる。 本研究では,オープンソース LLM を用いてアクタントを抽出し,テキストのセマンティクスと物語構造の両方をキャプチャするナラティブ構造化テキスト埋め込みに統合する。 本稿では,イスラエル・パレスチナ紛争に関するアル・ジャジーラとワシントン・ポストの新聞記事5000件を例に,本手法の分析的考察を紹介する。 本手法は,同じ話題を扱っているが,物語構造が異なる記事の識別に成功している。

Given the profound impact of narratives across various societal levels, from personal identities to international politics, it is crucial to understand their distribution and development over time. This is particularly important in online spaces. On the Web, narratives can spread rapidly and intensify societal divides and conflicts. While many qualitative approaches exist, quantifying narratives remains a significant challenge. Computational narrative analysis lacks frameworks that are both comprehensive and generalizable. To address this gap, we introduce a numerical narrative representation grounded in structuralist linguistic theory. Chiefly, Greimas' Actantial Model represents a narrative through a constellation of six functional character roles. These so-called actants are genre-agnostic, making the model highly generalizable. We extract the actants using an open-source LLM and integrate them into a Narrative-Structured Text Embedding that captures both the semantics and narrative structure of a text. We demonstrate the analytical insights of the method on the example of 5000 full-text news articles from Al Jazeera and The Washington Post on the Israel-Palestine conflict. Our method successfully distinguishes articles that cover the same topics but differ in narrative structure.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 極端終端トラクタを用いたグラディエントDescentアルゴリズムの動的デカップリング

Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm ( http://arxiv.org/abs/2409.06542v1 )

ライセンス: Link先を確認
Jinwei Zhao, Marco Gori, Alessandro Betti, Stefano Melacci, Hongtao Zhang, Jiedong Liu, Xinhong Hei, (参考訳) 勾配降下(GD)と確率勾配降下(SGD)は、多くのアプリケーションドメインで広く使われている。 したがって、GDの力学を理解し、収束速度を改善することは依然として非常に重要である。 本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。 終端スライディングモード理論と終端アトラクタ理論に基づいて、4つの適応学習率を設計する。 詳細な理論的研究を踏まえて実験を行い, 学習手順の実行時間を評価し, 比較した。 学習過程の合計時間も詳細に研究されている。 有効性を評価するため,関数近似問題と画像分類問題について,様々なシミュレーション結果について検討した。

Gradient descent (GD) and stochastic gradient descent (SGD) have been widely used in a large number of application domains. Therefore, understanding the dynamics of GD and improving its convergence speed is still of great importance. This paper carefully analyzes the dynamics of GD based on the terminal attractor at different stages of its gradient flow. On the basis of the terminal sliding mode theory and the terminal attractor theory, four adaptive learning rates are designed. Their performances are investigated in light of a detailed theoretical investigation, and the running times of the learning procedures are evaluated and compared. The total times of their learning processes are also studied in detail. To evaluate their effectiveness, various simulation results are investigated on a function approximation problem and an image classification problem.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 量子多体系におけるImaginary-time Mpemba効果

Imaginary-time Mpemba effect in quantum many-body systems ( http://arxiv.org/abs/2409.06547v1 )

ライセンス: Link先を確認
Wei-Xuan Chang, Shuai Yin, Shi-Xin Zhang, Zi-Xiang Li, (参考訳) 様々なエキゾチック現象が非平衡量子多体系に現れる。 Mpemba効果(Mpemba effect)は、熱いシステムが冷たいものよりも速く凍る状況を示すもので、半世紀以上にわたって永続的な関心を惹きつけてきた直観的な非平衡現象である。 本稿では,量子多体系におけるMpemba効果の新たな現象を報告し,これをITME(imaginary-time Mpemba effect)と呼ぶ。 数値的に正確な量子モンテカルロ (QMC) シミュレーションにより、相互作用する量子モデルの異なるクラスにおいて、高エネルギーの初期状態は想像時間緩和の過程で低エネルギーの初期状態よりも速く緩和されることを示した。 ITMEの出現は、量子多体系の低エネルギー励起と密接に関連している。 さらに重要なことは、仮想時間力学が量子多体基底状態の数値シミュレーションに広く応用されているため、ITMEの発見は量子多体計算、特に符号問題に関わるQMCにおいて、量子多体計算を高速化する新しい経路を提供する可能性がある。

Various exotic phenomena emerge in non-equilibrium quantum many-body systems. The Mpemba effect, denoting the situation where a hot system freezes faster than the colder one, is a counterintuitive non-equilibrium phenomenon that has attracted enduring interest for more than half a century. In this Letter, we report a novel phenomenon of the Mpemba effect in the imaginary-time relaxation dynamics in quantum many-body systems, dubbed as imaginary-time Mpemba effect (ITME). Through numerically exact quantum Monte-Carlo (QMC) simulation, we unambiguously demonstrate that in different classes of interacting quantum models, the initial states with higher energy are relaxed faster than lower-energy initial states in the process of imaginary-time relaxation. The emergence of ITME is intimately associated with the low-energy excitations in quantum many-body systems. More crucially, since imaginary-time dynamics is broadly applied in numerical simulation on the quantum many-body ground states, the discovery of ITME potentially provides a new pathway to expedite the quantum many-body computation, particularly for QMC involving the sign problem.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# LIMAからDeepLIMAへ: 相互運用性の新しい道をたどる

From LIMA to DeepLIMA: following a new path of interoperability ( http://arxiv.org/abs/2409.06550v1 )

ライセンス: Link先を確認
Victor Bocharov, Romaric Besançon, Gaël de Chalendar, Olivier Ferret, Nasredine Semmar, (参考訳) 本稿では,LIMA(Libre Multilingual Analyzer)フレームワークのアーキテクチャと,深層ニューラルネットワークに基づく新たなテキスト解析モジュールの追加による最近の進化について述べる。 既存の構成可能なアーキテクチャと、以前に開発されたルールベースおよび統計分析コンポーネントの可用性を維持しながら、サポート言語数の観点からLIMAの機能を拡張した。 モデルは、Universal Dependencies 2.5 corpora、WikiNer corpora、CoNLL-03データセットで60以上の言語でトレーニングされた。 ユニバーサル依存関係によって、サポート対象言語の数を増やし、他のプラットフォームに統合可能なモデルを生成することができます。 ユビキタスなディープラーニング自然言語処理モデルの統合とUniversal Dependenciesを使用した標準アノテーションコレクションの使用は、Docker Hub上のDockerコンテナで利用可能なサービスを通じてLIMAで実装された、より標準的な技術的相互運用性を補完するモデルとデータの正規化を通じて、相互運用性の新たなパスと見なすことができる。

In this article, we describe the architecture of the LIMA (Libre Multilingual Analyzer) framework and its recent evolution with the addition of new text analysis modules based on deep neural networks. We extended the functionality of LIMA in terms of the number of supported languages while preserving existing configurable architecture and the availability of previously developed rule-based and statistical analysis components. Models were trained for more than 60 languages on the Universal Dependencies 2.5 corpora, WikiNer corpora, and CoNLL-03 dataset. Universal Dependencies allowed us to increase the number of supported languages and to generate models that could be integrated into other platforms. This integration of ubiquitous Deep Learning Natural Language Processing models and the use of standard annotated collections using Universal Dependencies can be viewed as a new path of interoperability, through the normalization of models and data, that are complementary to a more standard technical interoperability, implemented in LIMA through services available in Docker containers on Docker Hub.
翻訳日:2024-09-11 17:25:26 公開日:2024-09-10
# 最適輸送による世界貿易のモデル化

Modelling Global Trade with Optimal Transport ( http://arxiv.org/abs/2409.06554v1 )

ライセンス: Link先を確認
Thomas Gaskin, Marie-Therese Wolfram, Andrew Duncan, Guven Demirel, (参考訳) グローバル貿易は、輸送コストや関税のような具体的な変数を含む供給と需要を超えた複雑な要素が混ざり合っており、政治的・経済的関係のような定量的な影響は少ない。 伝統的に、経済学者は重力モデルを使って貿易をモデル化し、これは明示的な共変量に依存するが、貿易の微妙な要因を捉えるのに苦労することが多い。 本研究では,データから時間依存のコスト関数を学習するために,最適なトランスポートとディープニューラルネットワークを用いる。 このアプローチは、自然な不確実性定量化を提供しながら、伝統的な重力モデルを精度で一貫して上回る。 我が国の枠組みをグローバルな食料・農業貿易に適用すると、世界の南部は、ウクライナの小麦市場への影響で戦争から不釣り合いに苦しんだことが分かる。 我々はまた、自由貿易協定と中国との貿易紛争の影響、およびブレグジットがヨーロッパとのイギリス貿易に与える影響を分析し、貿易量だけでは明らかにできない隠されたパターンを明らかにする。

Global trade is shaped by a complex mix of factors beyond supply and demand, including tangible variables like transport costs and tariffs, as well as less quantifiable influences such as political and economic relations. Traditionally, economists model trade using gravity models, which rely on explicit covariates but often struggle to capture these subtler drivers of trade. In this work, we employ optimal transport and a deep neural network to learn a time-dependent cost function from data, without imposing a specific functional form. This approach consistently outperforms traditional gravity models in accuracy while providing natural uncertainty quantification. Applying our framework to global food and agricultural trade, we show that the global South suffered disproportionately from the war in Ukraine's impact on wheat markets. We also analyze the effects of free-trade agreements and trade disputes with China, as well as Brexit's impact on British trade with Europe, uncovering hidden patterns that trade volumes alone cannot reveal.
翻訳日:2024-09-11 17:11:30 公開日:2024-09-10
# ディープニューラルネットワーク:マルチクラス化とユニバーサル近似

Deep Neural Networks: Multi-Classification and Universal Approximation ( http://arxiv.org/abs/2409.06555v1 )

ライセンス: Link先を確認
Martín Hernández, Enrique Zuazua, (参考訳) 本研究では,ReLU深層ニューラルネットワークの幅が2$で深さが2N+4M-1$である場合,$N$を$\mathbb{R}^d$とする任意のデータセットに対して,$d\ge1,$および$M$で有限標本記憶を達成できることを示す。 ニューラルネットワークを時間離散非線形力学系としてモデル化することにより,記憶特性を同時あるいはアンサンブル制御性の問題として解釈する。 この問題は、ネットワークパラメータをインダクティブかつ明示的に構築することで解決される。 さらに、そのようなネットワークは$L^p(\Omega;\mathbb{R}_+)$, $\Omega$は$\mathbb{R}^d$および$p\in[1,\infty)$の有界部分集合であり、その幅が$d+1$のReLUディープニューラルネットワークを用いて、普遍近似を達成できることを確立する。 また、$W^{1,p}$関数を近似するための深さ推定や、$L^p(\Omega;\mathbb{R}^m)$ for $m\geq1$を近似するための幅推定も提供する。 私たちの証明は建設的であり、関連するバイアスと重みの明確な値を提供します。

We demonstrate that a ReLU deep neural network with a width of $2$ and a depth of $2N+4M-1$ layers can achieve finite sample memorization for any dataset comprising $N$ elements in $\mathbb{R}^d$, where $d\ge1,$ and $M$ classes, thereby ensuring accurate classification. By modeling the neural network as a time-discrete nonlinear dynamical system, we interpret the memorization property as a problem of simultaneous or ensemble controllability. This problem is addressed by constructing the network parameters inductively and explicitly, bypassing the need for training or solving any optimization problem. Additionally, we establish that such a network can achieve universal approximation in $L^p(\Omega;\mathbb{R}_+)$, where $\Omega$ is a bounded subset of $\mathbb{R}^d$ and $p\in[1,\infty)$, using a ReLU deep neural network with a width of $d+1$. We also provide depth estimates for approximating $W^{1,p}$ functions and width estimates for approximating $L^p(\Omega;\mathbb{R}^m)$ for $m\geq1$. Our proofs are constructive, offering explicit values for the biases and weights involved.
翻訳日:2024-09-11 17:11:30 公開日:2024-09-10
# 逆レジリエント学習ブルームフィルタ

Adversary Resilient Learned Bloom Filters ( http://arxiv.org/abs/2409.06556v1 )

ライセンス: Link先を確認
Allison Bishop, Hayder Tirmazi, (参考訳) 証明可能な保証付き逆レジリエントな学習ブルームフィルタ \cite{learnedindexstructures} を作成することは開問題 \cite{reviriego1} である。 本研究では,学習ブルームフィルタの強敵対モデルを定義する。 我々はまた、アップタウン・ボーデガフィルタとダウンタウン・ボーデガフィルタという、学習ブルームフィルタの2つの逆のレジリエントなバージョンを構築した。 我々の逆数モデルは、Naor Yogev~\cite{moni1} による古典的(すなわち ` ``Learned'' ではない)ブルームフィルタのために設計された既存の逆数モデルを拡張し、確率多項式時間 (PPT) で計算的に有界な逆数を考える。 擬似乱数置換が存在する場合、セキュアな学習ブルームフィルタは、$\lambda$余分なメモリビットと、臨界経路における少なくとも1つの擬似乱数置換で構築できることを示す。 さらに、擬似乱数置換が存在する場合、学習されたブルームフィルタは2.lambda$余分なメモリと、臨界経路における少なくとも1つの擬似乱数置換で構築できることを示す。 最後に,作業負荷のごく一部が相手によって選択される場合のハイブリッド逆数モデルを構築した。 ボデガ中心街フィルタを用いた場合、このハイブリッドモデルでは代替手法に比べて性能保証が優れているという現実的なシナリオを示す。

Creating an adversary resilient Learned Bloom Filter \cite{learnedindexstructures} with provable guarantees is an open problem \cite{reviriego1}. We define a strong adversarial model for the Learned Bloom Filter. We also construct two adversary resilient variants of the Learned Bloom Filter called the Uptown Bodega Filter and the Downtown Bodega Filter. Our adversarial model extends an existing adversarial model designed for the Classical (i.e not ``Learned'') Bloom Filter by Naor Yogev~\cite{moni1} and considers computationally bounded adversaries that run in probabilistic polynomial time (PPT). We show that if pseudo-random permutations exist, then a secure Learned Bloom Filter may be constructed with $\lambda$ extra bits of memory and at most one extra pseudo-random permutation in the critical path. We further show that, if pseudo-random permutations exist, then a \textit{high utility} Learned Bloom Filter may be constructed with $2\lambda$ extra bits of memory and at most one extra pseudo-random permutation in the critical path. Finally, we construct a hybrid adversarial model for the case where a fraction of the workload is chosen by an adversary. We show realistic scenarios where using the Downtown Bodega Filter gives better performance guarantees compared to alternative approaches in this hybrid model.
翻訳日:2024-09-11 17:11:30 公開日:2024-09-10
# Learn2Aggregate: グラフニューラルネットワークを用いたChvátal-Gomoryカットの生成の監視

Learn2Aggregate: Supervised Generation of Chvátal-Gomory Cuts Using Graph Neural Networks ( http://arxiv.org/abs/2409.06559v1 )

ライセンス: Link先を確認
Arnaud Deza, Elias B. Khalil, Zhenan Fan, Zirui Zhou, Yong Zhang, (参考訳) 混合整数線形プログラミング(MILP)におけるChv\'atal-Gomory(CG)カットの生成を最適化するための機械学習(ML)フレームワークである$\textit{Learn2Aggregate}$を提示する。 このフレームワークは、CGカット生成におけるアグリゲーションに有用な制約を分類するために、グラフニューラルネットワークを訓練する。 ML駆動のCGセパレータは、小さな影響のある制約セットに選択的にフォーカスし、生成されたカットの強度を損なうことなくランタイムを改善する。 提案手法の鍵となるのは,制約のスパースアグリゲーションを好む制約分類タスクの定式化である。 これにより、5つのMILPベンチマークでCGカット生成が向上する。 最も大きなテストセットでは、40$%高速に実行しながら、標準CGメソッドと同じくらいの積分ギャップを約$\textit{twice}$で閉じます。 この性能改善は,アグリゲーション前の制約の75%を除去する手法が原因である。

We present $\textit{Learn2Aggregate}$, a machine learning (ML) framework for optimizing the generation of Chv\'atal-Gomory (CG) cuts in mixed integer linear programming (MILP). The framework trains a graph neural network to classify useful constraints for aggregation in CG cut generation. The ML-driven CG separator selectively focuses on a small set of impactful constraints, improving runtimes without compromising the strength of the generated cuts. Key to our approach is the formulation of a constraint classification task which favours sparse aggregation of constraints, consistent with empirical findings. This, in conjunction with a careful constraint labeling scheme and a hybrid of deep learning and feature engineering, results in enhanced CG cut generation across five diverse MILP benchmarks. On the largest test sets, our method closes roughly $\textit{twice}$ as much of the integrality gap as the standard CG method while running 40$% faster. This performance improvement is due to our method eliminating 75% of the constraints prior to aggregation.
翻訳日:2024-09-11 17:11:30 公開日:2024-09-10
# 物理インフォームド深部生成モデルにおける変分推論の一原理

A Primer on Variational Inference for Physics-Informed Deep Generative Modelling ( http://arxiv.org/abs/2409.06560v1 )

ライセンス: Link先を確認
Alex Glyn-Davies, Arnaud Vadeboncoeur, O. Deniz Akyildiz, Ieva Kazlauskaite, Mark Girolami, (参考訳) 変分推論(VI)は、近似ベイズ推論のための計算効率が高くスケーラブルな方法論である。 不確実性定量化の精度と実用的なトラクタビリティのバランスをとる。 ベイズ正規化と柔軟性が備わっているため、生成的モデリングや逆転のタスクが優れている。 VIの中央学習目的の導出は、物理学的な問題など、興味のある変数間の条件依存を規定する新しい学習課題に合わせる必要がある。 本稿では,VIフレームワークの標準導出による読者の指導と,それをディープラーニングによって最もよく実現できる方法について述べる。 次に、VIが持つ創造的柔軟性を実証する最近の文献をレビューし、統一する。 本論文は,不確実性定量化を重視した物理学に基づく問題の解決を目指す,一般科学読者を対象としたものである。

Variational inference (VI) is a computationally efficient and scalable methodology for approximate Bayesian inference. It strikes a balance between accuracy of uncertainty quantification and practical tractability. It excels at generative modelling and inversion tasks due to its built-in Bayesian regularisation and flexibility, essential qualities for physics related problems. Deriving the central learning objective for VI must often be tailored to new learning tasks where the nature of the problems dictates the conditional dependence between variables of interest, such as arising in physics problems. In this paper, we provide an accessible and thorough technical introduction to VI for forward and inverse problems, guiding the reader through standard derivations of the VI framework and how it can best be realized through deep learning. We then review and unify recent literature exemplifying the creative flexibility allowed by VI. This paper is designed for a general scientific audience looking to solve physics-based problems with an emphasis on uncertainty quantification.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# 暗号ミス検出におけるChatGPTの可能性:静的解析ツールとの比較分析

ChatGPT's Potential in Cryptography Misuse Detection: A Comparative Analysis with Static Analysis Tools ( http://arxiv.org/abs/2409.06561v1 )

ライセンス: Link先を確認
Ehsan Firouzi, Mohammad Ghafari, Mike Ebrahimi, (参考訳) 暗号APIの正しい採用は、主流の開発者にとっては難しい。 一方、暗号誤用検知器は一貫性のない性能を示しており、ほとんどの開発者にはほとんどアクセスできない。 我々はChatGPTが暗号誤用を検知できる範囲を調査し、その性能を最先端の静的解析ツールと比較した。 我々の調査は主にCryptoAPI-Benchベンチマークに基づいており、ChatGPTは暗号APIの誤用を特定するのに有効であることを示した。

The correct adoption of cryptography APIs is challenging for mainstream developers, often resulting in widespread API misuse. Meanwhile, cryptography misuse detectors have demonstrated inconsistent performance and remain largely inaccessible to most developers. We investigated the extent to which ChatGPT can detect cryptography misuses and compared its performance with that of the state-of-the-art static analysis tools. Our investigation, mainly based on the CryptoAPI-Bench benchmark, demonstrated that ChatGPT is effective in identifying cryptography API misuses, and with the use of prompt engineering, it can even outperform leading static cryptography misuse detectors.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# Androidのプライバシアセスメントを自動化して改善する

Advancing Android Privacy Assessments with Automation ( http://arxiv.org/abs/2409.06564v1 )

ライセンス: Link先を確認
Mugdha Khedkar, Michael Schlichtig, Eric Bodden, (参考訳) ユーザーからデータを収集するAndroidアプリは、データ保護を保証するための法的枠組みに従う必要がある。 2018年の欧州連合によるGDPR(General Data Protection Regulation)の実施以降、この要件はさらに重要になっている。 さらに、サイバーレジリエンス法(Cyber Resilience Act, サイバーレジリエンス法)が今後、利害関係者は、より厳格なセキュリティとプライバシの基準からソフトウェアを評価する必要がある。 効果的なプライバシー評価は、結束単位として効果的に機能するために、多様な専門知識を持つグループ間の協力を必要とする。 本稿では,Androidアプリにおけるデータ保護の理解を高め,プライバシー評価に関わるさまざまな関係者間のコミュニケーションを改善する自動アプローチの必要性を動機づける。 Assessor Viewは、これらのパーティ間の知識ギャップを埋め、Androidアプリケーションのより効果的なプライバシアアセスメントを促進するために設計されたツールである。

Android apps collecting data from users must comply with legal frameworks to ensure data protection. This requirement has become even more important since the implementation of the General Data Protection Regulation (GDPR) by the European Union in 2018. Moreover, with the proposed Cyber Resilience Act on the horizon, stakeholders will soon need to assess software against even more stringent security and privacy standards. Effective privacy assessments require collaboration among groups with diverse expertise to function effectively as a cohesive unit. This paper motivates the need for an automated approach that enhances understanding of data protection in Android apps and improves communication between the various parties involved in privacy assessments. We propose the Assessor View, a tool designed to bridge the knowledge gap between these parties, facilitating more effective privacy assessments of Android applications.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# ナッシュデマンドゲームにおける間接的動的ネゴシエーション

Indirect Dynamic Negotiation in the Nash Demand Game ( http://arxiv.org/abs/2409.06566v1 )

ライセンス: Link先を確認
Tatiana V. Guy, Jitka Homolová, Aleksej Gaj, (参考訳) 本論文は,不完全情報を伴う逐次二国間交渉の問題に対処する。 我々は,エージェントが間接交渉を行い,相手のモデルを学習することで交渉を成功させる決定モデルを提案した。 方法論的には、本論文は、ベイズ学習とマルコフ決定プロセスの枠組みに、自己関心を持つ独立プレイヤーのヒューリスティックに動機づけられた交渉を行う。 報酬の特別な形態は、プレイヤーがクローズドループの相互作用を通じて間接的に交渉することを暗黙的に動機づける。 我々は,このモデルを交渉の抽象モデルであるナッシュ・デマンド・ゲームに適用することで,そのアプローチを説明する。 その結果,確立された交渉の結果が示唆された。 一 プレーヤーの行動を調整すること 二 ゲームの成功率の最大化及び結果 三 プレイヤーにより個人利益をもたらすこと。

The paper addresses a problem of sequential bilateral bargaining with incomplete information. We proposed a decision model that helps agents to successfully bargain by performing indirect negotiation and learning the opponent's model. Methodologically the paper casts heuristically-motivated bargaining of a self-interested independent player into a framework of Bayesian learning and Markov decision processes. The special form of the reward implicitly motivates the players to negotiate indirectly, via closed-loop interaction. We illustrate the approach by applying our model to the Nash demand game, which is an abstract model of bargaining. The results indicate that the established negotiation: i) leads to coordinating players' actions; ii) results in maximising success rate of the game and iii) brings more individual profit to the players.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# 多言語主語-動詞合意による文埋め込みにおける構文情報の探索

Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement ( http://arxiv.org/abs/2409.06567v1 )

ライセンス: Link先を確認
Vivi Nastase, Chunyang Jiang, Giuseppe Samo, Paola Merlo, (参考訳) 本稿では,多言語事前学習言語モデルが言語横断的に有効な抽象言語表現をどの程度捉えるかを検討することを目的とする。 本研究では,言語モデルを用いて構築した文表現の研究に,特定の特性を持つ大規模でキュレートされた合成データを開発するアプローチを採っている。 我々は、複数の言語で特定の文法的構造現象(様々な文構造にまたがる主観的合意)に焦点を当てるために、新しい複数選択タスクとデータセット、Blackbird Language Matrices (BLMs)を使用します。 この課題に対する解決策を見つけるには、複雑な言語パターンとテキスト表現のパラダイムを検出するシステムが必要である。 文の入力シーケンスにまたがるパターンを抽出する2段階のアーキテクチャを用いて,多言語テキストを一貫した方法で訓練したにもかかわらず,多言語事前学習言語モデルには言語固有の違いがあり,構文構造は,近縁な言語であっても共有されていないことを示す。

In this paper, our goal is to investigate to what degree multilingual pretrained language models capture cross-linguistically valid abstract linguistic representations. We take the approach of developing curated synthetic data on a large scale, with specific properties, and using them to study sentence representations built using pretrained language models. We use a new multiple-choice task and datasets, Blackbird Language Matrices (BLMs), to focus on a specific grammatical structural phenomenon -- subject-verb agreement across a variety of sentence structures -- in several languages. Finding a solution to this task requires a system detecting complex linguistic patterns and paradigms in text representations. Using a two-level architecture that solves the problem in two steps -- detect syntactic objects and their properties in individual sentences, and find patterns across an input sequence of sentences -- we show that despite having been trained on multilingual texts in a consistent manner, multilingual pretrained language models have language-specific differences, and syntactic structure is not shared, even across closely related languages.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# シンク・オン・プロ:マルチエージェントシステムの協調開発のための動的プロセス生成

Think-on-Process: Dynamic Process Generation for Collaborative Development of Multi-Agent System ( http://arxiv.org/abs/2409.06568v1 )

ライセンス: Link先を確認
Leilei Lin, Yingming Zhou, Wenlong Chen, Chen Qian, (参考訳) ソフトウェア開発は、高品質なソフトウェアシステムを集合的に開発するために、異なる部署の個人が協力することを要求する共同作業である。 この文脈では、LLMをベースとしたマルチエージェントシステムを活用してソフトウェア開発を行う方法を探求し始めている。 しかし、既存の研究は、フレームワークをコード形式で厳格に修正する傾向にあり、それによって、より柔軟で可変なソフトウェア環境を満たすために、開発プロセスをリアルタイムで動的に調整することができない。 本稿では,ToP(Think-on-Process)という動的プロセス生成フレームワークを提案する。 ToPの中核となる考え方は、経験的知識(すなわちプロセスモデル)を活用して、ソフトウェア開発プロセス(すなわちインスタンス)の生成においてLCMを導くことである。 これらのインスタンスは、ソフトウェア開発のマルチエージェントをガイドし、開発結果に対するフィードバックを提供するためにコンパイラを採用する。 その後、ヒューリスティックアルゴリズムを用いてインスタンスをフィルタリングし、プロセスモデルの導出にプロセスマイニングアルゴリズムを適用する。 最後に、プロセスモデルはテキストに変換され、プロンプトとしてフォーマットされ、LCMが他のインスタンスを生成する能力を高める。 実験により,本フレームワークのToPは,ソフトウェア開発タスクの5つのカテゴリにおいて,GPT-3.5およびGPT-4の動的プロセス生成能力を著しく向上することが示された。

Software development is a collaborative endeavor that requires individuals from different departments to work together in order to collectively develop a high-quality software system. In this context, people have begun to explore a method that leverages multi-agent systems based on LLMs to carry out software development. However, existing research tends to rigidly fix the software development process in a framework in code form, thus failing to dynamically adjust the software development process in real-time to meet the more flexible and variable software environment. In this paper, we propose a dynamic process generation framework, named ToP (Think-on-Process). The core idea of ToP is to leverage experiential knowledge (i.e., process models) to guide LLMs in generating software development processes (i.e., instances). These instances will guide multi-agent in software development and employ a compiler to provide feedback on the development outcomes. Subsequently, we utilize heuristic algorithms to filter the instances and apply process mining algorithms to derive process model. Finally, the process model will be converted into text, formatted as prompts, to enhance the ability of LLMs to generate other instances. Experiments demonstrate that our framework ToP significantly enhances the dynamic process generation capability of the GPT-3.5 and GPT-4 for five categories of software development tasks.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# ケイ素中のエルビウムドーパタンのスピン及び結晶場ハミルトニアンのキャラクタリゼーション

Characterization of the spin and crystal field Hamiltonian of erbium dopants in silicon ( http://arxiv.org/abs/2409.06571v1 )

ライセンス: Link先を確認
Adrian Holzäpfel, Stephan Rinner, Kilian Sandholzer, Andreas Gritsch, Thierry Chanelière, Andreas Reiserer, (参考訳) コヒーレントエミッターを低損失フォトニック回路に統合することは量子ネットワークの重要な技術である。 この文脈では、エルビウムを注入したナノフォトニックシリコンデバイスは、高度なウェハスケールナノファブリケーション技術と光ファイバーの最小損失帯域におけるコヒーレントエミッションを組み合わせた、有望なハードウェアプラットフォームである。 近年の研究では、エルビウムを再現的に、特に有望な性質と統合できるシリコン格子の2つの異なる部位が報告されている。 ここでは、これらの部位の詳細な分析のために、異なる配向に沿って磁場を印加したナノフォトニック導波路上で共鳴蛍光分光を行う。 このように、サイト対称性が決定され、スピンハミルトニアンが再構成され、結晶場ハミルトニアンが部分的に適合する。 得られた磁気相互作用の定量的記述により、ゼーマン分割、光分岐比、マイクロ波駆動を将来の実験の必要性に最適化することができる。 さらに、誘導された部位対称性は、シリコン単位セル内のエルビウムドーパントの位置を制約する。 これは、エルビウムのサイトを詳細に理解するための重要なステップであり、積分の収量を改善するのに役立ち、Er:Siプラットフォームに基づく効率的なナノフォトニクス量子メモリへの道を開く。

The integration of coherent emitters into low-loss photonic circuits is a key technology for quantum networking. In this context, nanophotonic silicon devices implanted with erbium are a promising hardware platform that combines advanced wafer-scale nanofabrication technology with coherent emission in the minimal-loss band of optical fibers. Recent studies have reported two distinct sites in the silicon lattice in which erbium can be reproducibly integrated with particularly promising properties. Here, for an in-depth analysis of these sites, resonant fluorescence spectroscopy is performed on a nanophotonic waveguide in magnetic fields applied along different orientations. In this way, the site symmetry is determined, the spin Hamiltonian is reconstructed and a partial fit of the crystal field Hamiltonian is performed. The obtained quantitative description of the magnetic interaction allows the optimization of Zeeman splittings, optical branching ratios or microwave driving to the needs of future experiments. Beyond that, the derived site symmetry constrains the location of the erbium dopant in the silicon unit cell. This is a key step towards a detailed microscopic understanding of the erbium sites, which may help to improve the integration yield, thus paving the way to efficient nanophotonic quantum memories based on the Er:Si platform.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# 中性ストロンチウム88のサブmHz \transclock遷移における連続超放射光レーザーのモデリング

Modeling of a continuous superradiant laser on the sub-mHz \transclock transition in neutral strontium-88 ( http://arxiv.org/abs/2409.06575v1 )

ライセンス: Link先を確認
Swadheen Dubey, Georgy A. Kazakov, Benedikt Heizenreder, Sheng Zhou, Shayne Bennetts, Stefan Alaric Schäffer, Ananya Sitaram, Florian Schreck, (参考訳) 狭めの光遷移を用いた連続超輝度は、最先端の光時計の短期安定性を向上させる可能性がある。 ${\rm mHz}$ライン幅のクロック遷移のパルス超放射能放射は示されているが、真の連続演算はフーリエ制限なしでは極めて困難であることが判明した。 脱コヒーレンス効果を最小化しながら高い原子フラックスを維持することのトレードオフは、大きな障害となる。 本稿では,超低温ストロンチウム原子の高流束連続ビームとボウティキャビティを併用して超ラジアントラジングを発生させることにより,この問題を克服できるマシンの設計について議論する。 本設計の有効性を評価するため, 連続した高効率冷却, ローディング, ポンプのシミュレーション結果について検討した。 次に、位置依存シフト、衝突脱コヒーレンス、光シフト、原子損失を考慮し、生成した超放射能場を刺激する2つの異なるモデルを示す。 最後に、原子数ゆらぎによって制限された100〜{\rm mHz}$のレーザー線幅を推定し、その結果、数百ドルの{\rm fW}$の出力パワーを得る。

Continuous superradiance using a narrow optical transition has the potential to improve the short-term stability of state-of-the-art optical clocks. Even though pulsed superradiant emission on a ${\rm mHz}$ linewidth clock transition has been shown, true continuous operation, without Fourier limitation, has turned out to be extremely challenging. The trade-off between maintaining a high atomic flux while minimizing decoherence effects presents a significant obstacle. Here, we discuss the design of a machine that could overcome this problem by combining a high-flux continuous beam of ultra cold strontium atoms with a bowtie cavity for the generation of superradiant lasing. To evaluate the feasibility of our design, we present simulation results for continuous high-efficiency cooling, loading, and pumping to the upper lasing state inside the bowtie cavity. We then present two different models for stimulating the generated superradiant field by taking into account position-dependent shifts, collisional decoherence, light shifts, and atom loss. Finally, we estimate a laser linewidth of less than $100~{\rm mHz}$, limited by atom number fluctuations, and resulting in an output power of hundreds of ${\rm fW}$
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# CLIP様モデルの解釈可能性の定量化と評価

Quantifying and Enabling the Interpretability of CLIP-like Models ( http://arxiv.org/abs/2409.06579v1 )

ライセンス: Link先を確認
Avinash Madasu, Yossi Gandelsman, Vasudev Lal, Phillip Howard, (参考訳) CLIPは最も一般的な基礎モデルの1つで、多くの視覚言語タスクによく使われている。 しかし、CLIPの内部構造についてはほとんど分かっていない。 このギャップを埋めるために、我々はCLIPのようなモデルにおける解釈可能性の定量化の研究を提案する。 本稿では,OpenAIとOpenCLIPの6種類のCLIPモデルについて検討する。 我々のアプローチは、TEXTSPANアルゴリズムとコンテキスト内学習を用いて、個々の注意を特定の特性に分解することから始まります。 そこで我々は,頭部内における特性の整合性や,頭部間の特性の絡み合いを計測する新しい指標を用いて,これらの頭部の解釈がいかに容易かを評価する。 以上の結果から,より大型のCLIPモデルはより小型のCLIPモデルよりも一般的に解釈可能であることが明らかとなった。 ユーザがCLIPモデルの内部動作を理解する上で,さらに支援するために,解釈可能性分析用に設計されたCLIP-InterpreTを導入する。 CLIP-InterpreTは5種類の分析を提供する: プロパティベースの隣人検索、頭ごとのトピックセグメンテーション、コントラストセグメンテーション、画像の頭あたりの隣人、頭あたりの隣人テキスト。

CLIP is one of the most popular foundational models and is heavily used for many vision-language tasks. However, little is known about the inner workings of CLIP. To bridge this gap we propose a study to quantify the interpretability in CLIP like models. We conduct this study on six different CLIP models from OpenAI and OpenCLIP which vary by size, type of pre-training data and patch size. Our approach begins with using the TEXTSPAN algorithm and in-context learning to break down individual attention heads into specific properties. We then evaluate how easily these heads can be interpreted using new metrics which measure property consistency within heads and property disentanglement across heads. Our findings reveal that larger CLIP models are generally more interpretable than their smaller counterparts. To further assist users in understanding the inner workings of CLIP models, we introduce CLIP-InterpreT, a tool designed for interpretability analysis. CLIP-InterpreT offers five types of analyses: property-based nearest neighbor search, per-head topic segmentation, contrastive segmentation, per-head nearest neighbors of an image, and per-head nearest neighbors of text.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# 音声イベント認識における人間の知覚とモデル推論の差異の探索

Exploring Differences between Human Perception and Model Inference in Audio Event Recognition ( http://arxiv.org/abs/2409.06580v1 )

ライセンス: Link先を確認
Yizhou Tan, Yanru Wu, Yuanbo Hou, Xin Xu, Hui Bu, Shengchen Li, Dick Botteldooren, Mark D. Plumbley, (参考訳) AER(Audio Event Recognition)は、伝統的に音声イベントの検出と識別に重点を置いている。 既存のAERモデルは、異なるコンテキスト間で異なる意味を考慮せずに、すべての潜在的な事象を検出する傾向にある。 これにより、既存のモデルで検出されたAERの結果は、人間の聴覚知覚と大きな差があることが多い。 これは重要かつ重要な問題であるが、時間を要する労働集約的な解決法であるため、音響シーン・事象の検出・分類(DCASE)コミュニティでは広く研究されていない。 そこで本研究では,AERにおける意味的重要性の概念を導入し,人間の知覚とモデル推論の差異について考察する。 本稿では,10個のプロのアノテータによってラベル付けされた音声を収録したマルチアノテート・フォアグラウンド音声イベント認識(MAFAR)データセットを構築した。 頻度と分散をラベル付けすることで、MAFARデータセットは人間の知覚の意味的重要性と分析の定量化を促進する。 本稿では,人間のアノテーションとアンサンブル事前学習モデルの予測を比較することで,音声イベントのセマンティック識別と存在検出の両方において,人間の知覚とモデル推論の間に有意な差があることを明らかにする。 実験の結果、人間の知覚は事象の意味的識別において微妙な事象や自明な事象を無視する傾向にあり、一方モデル推論はノイズを伴う事象に容易に影響を受けることが明らかとなった。 一方、事象検出においては、モデルは通常人間よりも敏感である。

Audio Event Recognition (AER) traditionally focuses on detecting and identifying audio events. Most existing AER models tend to detect all potential events without considering their varying significance across different contexts. This makes the AER results detected by existing models often have a large discrepancy with human auditory perception. Although this is a critical and significant issue, it has not been extensively studied by the Detection and Classification of Sound Scenes and Events (DCASE) community because solving it is time-consuming and labour-intensive. To address this issue, this paper introduces the concept of semantic importance in AER, focusing on exploring the differences between human perception and model inference. This paper constructs a Multi-Annotated Foreground Audio Event Recognition (MAFAR) dataset, which comprises audio recordings labelled by 10 professional annotators. Through labelling frequency and variance, the MAFAR dataset facilitates the quantification of semantic importance and analysis of human perception. By comparing human annotations with the predictions of ensemble pre-trained models, this paper uncovers a significant gap between human perception and model inference in both semantic identification and existence detection of audio events. Experimental results reveal that human perception tends to ignore subtle or trivial events in the event semantic identification, while model inference is easily affected by events with noises. Meanwhile, in event existence detection, models are usually more sensitive than humans.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# 変換等価性を用いたシャネル増倍による半監督3次元物体検出

Semi-Supervised 3D Object Detection with Chanel Augmentation using Transformation Equivariance ( http://arxiv.org/abs/2409.06583v1 )

ライセンス: Link先を確認
Minju Kang, Taehun Kong, Tae-Kyun Kim, (参考訳) 正確な3Dオブジェクト検出は、自動運転車やロボットにとって、安全かつ効果的に環境をナビゲートし、対話する上で不可欠である。 一方、3D検出器の性能は高価であるデータサイズとアノテーションに依存している。 その結果,ラベル付きデータによるトレーニングの需要が高まっている。 本稿では,3次元半教師対象検出のためのチャネル拡張を用いた新しい教師学生フレームワークについて検討する。 教師の学生SSLは、教師と生徒にそれぞれ弱い増補と強い増補を採用するのが一般的である。 本研究では、変換等分散検出器(TED)を用いて、両方のネットワークに多重チャネル拡張を適用する。 TEDにより、点雲上の拡張の異なる組み合わせを探索し、マルチチャネル変換等式を効率的に集約することができる。 原則として、教師ネットワークに固定チャネル拡張を適用することにより、学生は信頼できる擬似ラベルで安定的に訓練することができる。 強力なチャネル拡張を採用することで、データの多様性を強化し、変換に対する堅牢性を高め、学生ネットワークの一般化性能を向上させることができる。 我々はSOTA階層的監視をベースラインとして使用し、その二重閾値をTEDに適応させ、これはチャネルIoU整合性と呼ばれる。 提案手法をKITTIデータセットを用いて評価し,SOTA3D半教師付き物体検出モデルを上回る性能向上を実現した。

Accurate 3D object detection is crucial for autonomous vehicles and robots to navigate and interact with the environment safely and effectively. Meanwhile, the performance of 3D detector relies on the data size and annotation which is expensive. Consequently, the demand of training with limited labeled data is growing. We explore a novel teacher-student framework employing channel augmentation for 3D semi-supervised object detection. The teacher-student SSL typically adopts a weak augmentation and strong augmentation to teacher and student, respectively. In this work, we apply multiple channel augmentations to both networks using the transformation equivariance detector (TED). The TED allows us to explore different combinations of augmentation on point clouds and efficiently aggregates multi-channel transformation equivariance features. In principle, by adopting fixed channel augmentations for the teacher network, the student can train stably on reliable pseudo-labels. Adopting strong channel augmentations can enrich the diversity of data, fostering robustness to transformations and enhancing generalization performance of the student network. We use SOTA hierarchical supervision as a baseline and adapt its dual-threshold to TED, which is called channel IoU consistency. We evaluate our method with KITTI dataset, and achieved a significant performance leap, surpassing SOTA 3D semi-supervised object detection models.
翻訳日:2024-09-11 17:11:29 公開日:2024-09-10
# Transtreaming: リアルタイムストリーミング認識のための適応型遅延認識変換器

Transtreaming: Adaptive Delay-aware Transformer for Real-time Streaming Perception ( http://arxiv.org/abs/2409.06584v1 )

ライセンス: Link先を確認
Xiang Zhang, Yufei Cui, Chenchen Fu, Weiwei Wu, Zihao Wang, Yuyang Sun, Xue Liu, (参考訳) リアルタイム物体検出は、衝突回避や自律運転における経路計画など、現実の多くのアプリケーションにおける意思決定プロセスにおいて重要である。 本研究は,動的計算遅延を伴うリアルタイム物体検出の課題に対処する,革新的なリアルタイムストリーミング認識手法であるTranstreamingを提案する。 Transtreamingの中核となるイノベーションは、適応遅延認識変換器(adaptive delay-aware transformer)にある。これは、複数の将来のフレームを同時に予測し、実際の時間に最適な出力を選択し、システムによって引き起こされる計算遅延を補償する。 提案モデルでは,トランスフォーマーに基づく手法を用いることで,単一フレーム検出シナリオにおいても,既存の最先端手法よりも優れる。 強力なV100から控えめな2080Tiまで、さまざまなデバイスで堅牢なパフォーマンスを示し、すべてのプラットフォームで最高の知覚精度を実現している。 パワフルでないデバイス上で単一のフレーム内で計算を完了するのに苦労する、最先端のほとんどの方法とは異なり、Transtreamingはあらゆる種類のデバイスにおいて、厳格なリアルタイム処理要件を満たす。 実験の結果は、自律運転のような現実世界の多くのシステムの安全性と信頼性を著しく向上させるシステムの適応性とその可能性を強調した。

Real-time object detection is critical for the decision-making process for many real-world applications, such as collision avoidance and path planning in autonomous driving. This work presents an innovative real-time streaming perception method, Transtreaming, which addresses the challenge of real-time object detection with dynamic computational delay. The core innovation of Transtreaming lies in its adaptive delay-aware transformer, which can concurrently predict multiple future frames and select the output that best matches the real-world present time, compensating for any system-induced computation delays. The proposed model outperforms the existing state-of-the-art methods, even in single-frame detection scenarios, by leveraging a transformer-based methodology. It demonstrates robust performance across a range of devices, from powerful V100 to modest 2080Ti, achieving the highest level of perceptual accuracy on all platforms. Unlike most state-of-the-art methods that struggle to complete computation within a single frame on less powerful devices, Transtreaming meets the stringent real-time processing requirements on all kinds of devices. The experimental results emphasize the system's adaptability and its potential to significantly improve the safety and reliability for many real-world systems, such as autonomous driving.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 電子健康記録を用いた股関節置換予測のための時間グラフ畳み込みニューラルネットワークモデルの開発

Developing the Temporal Graph Convolutional Neural Network Model to Predict Hip Replacement using Electronic Health Records ( http://arxiv.org/abs/2409.06585v1 )

ライセンス: Link先を確認
Zoe Hancox, Sarah R. Kingsbury, Andrew Clegg, Philip G. Conaghan, Samuel D. Relton, (参考訳) 背景: 股関節置換術は、痛みを軽減し、移動性を回復することにより、患者の生活を改善する。 前もって股関節置換を予測することは、タイムリーな介入を可能にし、手術やリハビリテーションのために個人を優先させ、人工股関節置換の必要性を遅らせるために生理的治療を施すことによって痛みを和らげる可能性がある。 本研究は, 生活の質と医療サービスの効率を高めるために, 1年間の股関節置換術を事前に予測する。 方法:40~75歳児のResearchOne EHRから得られた,TG-CNNモデルを用いて過去の研究に適応し,股関節置換リスクを予測する。 我々は、股関節置換症例を年齢、性別、多発性脱分率によるコントロールに適合させる。 このモデルは、9,187症例と9,187コントロールに基づいてトレーニングされ、1年前から股関節置換を予測している。 2つの未知のデータセット上でモデルを検証し、クラス不均衡を緩和する。 さらに、アブレーション研究を行い、4つのベースラインモデルと比較する。 結果: AUROCが0.724(95% CI: 0.715-0.733)、AUPRCが0.185(95% CI: 0.160-0.209)、再校正後の校正勾配が1.107(95% CI: 1.074-1.139)と予測された。 結論: TG-CNNモデルは, 患者軌跡のパターンを特定し, 股関節疾患の理解と管理を改善することにより, 股関節置換リスクを効果的に予測する。

Background: Hip replacement procedures improve patient lives by relieving pain and restoring mobility. Predicting hip replacement in advance could reduce pain by enabling timely interventions, prioritising individuals for surgery or rehabilitation, and utilising physiotherapy to potentially delay the need for joint replacement. This study predicts hip replacement a year in advance to enhance quality of life and health service efficiency. Methods: Adapting previous work using Temporal Graph Convolutional Neural Network (TG-CNN) models, we construct temporal graphs from primary care medical event codes, sourced from ResearchOne EHRs of 40-75-year-old patients, to predict hip replacement risk. We match hip replacement cases to controls by age, sex, and Index of Multiple Deprivation. The model, trained on 9,187 cases and 9,187 controls, predicts hip replacement one year in advance. We validate the model on two unseen datasets, recalibrating for class imbalance. Additionally, we conduct an ablation study and compare against four baseline models. Results: Our best model predicts hip replacement risk one year in advance with an AUROC of 0.724 (95% CI: 0.715-0.733) and an AUPRC of 0.185 (95% CI: 0.160-0.209), achieving a calibration slope of 1.107 (95% CI: 1.074-1.139) after recalibration. Conclusions: The TG-CNN model effectively predicts hip replacement risk by identifying patterns in patient trajectories, potentially improving understanding and management of hip-related conditions.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# Seg-HGNN:ハイパーボリックグラフニューラルネットワークによる教師なしおよび軽量画像分割

Seg-HGNN: Unsupervised and Light-Weight Image Segmentation with Hyperbolic Graph Neural Networks ( http://arxiv.org/abs/2409.06589v1 )

ライセンス: Link先を確認
Debjyoti Mondal, Rahul Mishra, Chandan Pandey, (参考訳) 線形超空間によるユークリッド空間の画像解析はよく研究されている。 しかし、より効果的な画像表現の探求において、双曲多様体に目を向ける。 これらは、非常に小さな次元を持つ画像における複雑な階層的関係をキャプチャする、魅力的な代替手段を提供する。 ハイパーボリック埋め込みの能力を示すために,画像セグメント化のための軽量ハイパーボリックグラフニューラルネットワークを導入し,非常に小さな埋め込みサイズでパッチレベルの特徴を包含する。 我々のソリューションであるSeg-HGNNは、現在の最高の教師なし手法を2.5 %、VOC-07では4 %、ローカライゼーションではVOC-12、セグメンテーションではCUB-200では0.8 %、ECSSDでは1.3 %で上回っている。 7.5k以下のトレーニング可能なパラメータを持つSeg-HGNNは、GTX1650のような非常に標準的なGPU上で、効果的で高速な(2$イメージ/秒)結果を提供する。 この経験的評価は、視覚タスクに対する双曲表現の有効性と可能性の説得力のある証拠を提示する。

Image analysis in the euclidean space through linear hyperspaces is well studied. However, in the quest for more effective image representations, we turn to hyperbolic manifolds. They provide a compelling alternative to capture complex hierarchical relationships in images with remarkably small dimensionality. To demonstrate hyperbolic embeddings' competence, we introduce a light-weight hyperbolic graph neural network for image segmentation, encompassing patch-level features in a very small embedding size. Our solution, Seg-HGNN, surpasses the current best unsupervised method by 2.5\%, 4\% on VOC-07, VOC-12 for localization, and by 0.8\%, 1.3\% on CUB-200, ECSSD for segmentation, respectively. With less than 7.5k trainable parameters, Seg-HGNN delivers effective and fast ($\approx 2$ images/second) results on very standard GPUs like the GTX1650. This empirical evaluation presents compelling evidence of the efficacy and potential of hyperbolic representations for vision tasks.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 2分岐畳み込み・変圧器を用いた軽量マルチスケール核融合超解像ネットワーク

Lightweight Multiscale Feature Fusion Super-Resolution Network Based on Two-branch Convolution and Transformer ( http://arxiv.org/abs/2409.06590v1 )

ライセンス: Link先を確認
Li Ke, Liu Yukai, (参考訳) ディープラーニングのシングルイメージ超解像(SISR)アルゴリズムには,畳み込みニューラルネットワークとTransformerに基づく2つのモデルがある。 前者は畳み込みカーネルサイズが異なる畳み込みレイヤを積み重ねて設計し、後者はモデルの局所的な特徴をよりよく抽出し、後者はモデルの設計に自己保持機構を使用し、後者は自己保持機構を通じて画像画素点間の長距離依存性を確立し、画像のグローバルな特徴をよりよく抽出することを可能にする。 しかし、どちらの方法も問題に直面している。 そこで本研究では,トランスフォーマーと畳み込みニューラルネットワークの各特徴を2分岐ネットワークアーキテクチャで統合し,グローバル情報とローカル情報の相互融合を実現する,双方向補完畳み込みとトランスフォーマーに基づく,軽量なマルチスケール機能融合ネットワークモデルを提案する。 一方、深層ニューラルネットワークによりトレーニングされた低画素画像による情報部分的損失を考慮し、モデルの浅層から抽出した特徴マップとモデル深層から抽出した特徴マップを融合させ、画像復元に有効である特徴画像における情報の損失を極力小さくし、高品質な復元画像の取得を容易にするために、多段特徴補足のモジュール接続方式を設計する。 実測結果から,本論文で提案するモデルは,同じパラメータを持つ他の軽量モデルと比較して,画像回復性能に最適であることが示された。

The single image super-resolution(SISR) algorithms under deep learning currently have two main models, one based on convolutional neural networks and the other based on Transformer. The former uses the stacking of convolutional layers with different convolutional kernel sizes to design the model, which enables the model to better extract the local features of the image; the latter uses the self-attention mechanism to design the model, which allows the model to establish long-distance dependencies between image pixel points through the self-attention mechanism and then better extract the global features of the image. However, both of the above methods face their problems. Based on this, this paper proposes a new lightweight multi-scale feature fusion network model based on two-way complementary convolutional and Transformer, which integrates the respective features of Transformer and convolutional neural networks through a two-branch network architecture, to realize the mutual fusion of global and local information. Meanwhile, considering the partial loss of information caused by the low-pixel images trained by the deep neural network, this paper designs a modular connection method of multi-stage feature supplementation to fuse the feature maps extracted from the shallow stage of the model with those extracted from the deep stage of the model, to minimize the loss of the information in the feature images that is beneficial to the image restoration as much as possible, to facilitate the obtaining of a higher-quality restored image. The practical results finally show that the model proposed in this paper is optimal in image recovery performance when compared with other lightweight models with the same amount of parameters.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 因果推論の促進:連続治療によるATEおよびCATE推定の非パラメトリック的アプローチ

Advancing Causal Inference: A Nonparametric Approach to ATE and CATE Estimation with Continuous Treatments ( http://arxiv.org/abs/2409.06593v1 )

ライセンス: Link先を確認
Hugo Gobato Souto, Francisco Louzada Neto, (参考訳) 本稿では, ベイジアンカウサルフォレスト(BCF)モデルの限界に対処するため, 連続処理における平均処理効果(ATE)と条件平均処理効果(CATE)を推定するための一般化されたps-BARTモデルを提案する。 ps-BARTモデルの非パラメトリックな性質は、処理と結果変数の間の非線形関係を捉える柔軟性をもたらす。 データ生成プロセス(DGP)の3つの異なるセットの中で、ps-BARTモデルはBCFモデル、特に非常に非線形な設定において一貫して優れる。 ps-BARTモデルにおける不確実性推定と不確実性推定の堅牢性は,実世界のアプリケーションに有効であることを示す。 本研究は、因果推論文学における重要なギャップを埋め、非線型処理-アウトカム関係に適したツールを提供し、継続的な処理効果推定の領域でさらなる探索を行うための道を開く。

This paper introduces a generalized ps-BART model for the estimation of Average Treatment Effect (ATE) and Conditional Average Treatment Effect (CATE) in continuous treatments, addressing limitations of the Bayesian Causal Forest (BCF) model. The ps-BART model's nonparametric nature allows for flexibility in capturing nonlinear relationships between treatment and outcome variables. Across three distinct sets of Data Generating Processes (DGPs), the ps-BART model consistently outperforms the BCF model, particularly in highly nonlinear settings. The ps-BART model's robustness in uncertainty estimation and accuracy in both point-wise and probabilistic estimation demonstrate its utility for real-world applications. This research fills a crucial gap in causal inference literature, providing a tool better suited for nonlinear treatment-outcome relationships and opening avenues for further exploration in the domain of continuous treatment effect estimation.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 任意の(合理的な)配電特性の検証方法:配電用音響調合システム

How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions ( http://arxiv.org/abs/2409.06594v1 )

ライセンス: Link先を確認
Tal Herman, Guy Rothblum, (参考訳) 統計分析が科学、産業、社会の中心となるにつれ、結果の正確性を確保する必要性が高まっている。 解析全体を複製することで、近似の正しさを検証できますが、レプリケーションなしで検証できますか? 近年の成果に基づいて,確率的検証器が解析結果がほぼ正しいことを確認しつつ,少ないサンプルを描画し,解析を再現するために必要な計算資源を少なくする実証システムについて検討している。 我々は,未知の分布が主張する特性にほぼ近いことを検証する,分散テストの問題に焦点をあてる。 我々の主な貢献は、検証者と信頼できない証明者の間の対話的プロトコルであり、このプロトコルは、分布の完全な明示的な記述が与えられた多項式時間で決定できる任意の分布特性の検証に使用できる。 分布が統計的な距離$\varepsilon$であるなら、検証者は高い確率で拒否する。 この音響特性は、衝突耐性ハッシュ関数(暗号における標準的な仮定)の存在を前提として、不正な証明者が従うべき多項式時間戦略に反する。 N$のドメイン上の分散では、プロトコルは4ドルメッセージで構成され、通信の複雑さと検証実行はおよそ$\widetilde{O}\left(\sqrt{N} / \varepsilon^2 \right)$である。 検証器のサンプル複雑性は$\widetilde{O}\left(\sqrt{N} / \varepsilon^2 \right)$であり、通信複雑性に関係なく$\polylog(N)$ factorまで最適である。 単純な性質であっても、未知の分布が性質を持つかどうかを概ね決定するには準線形サンプルの複雑さと実行時間が必要である。 このような特性に対して、我々のプロトコルは解析を複製する2次的なスピードアップを提供する。

As statistical analyses become more central to science, industry and society, there is a growing need to ensure correctness of their results. Approximate correctness can be verified by replicating the entire analysis, but can we verify without replication? Building on a recent line of work, we study proof-systems that allow a probabilistic verifier to ascertain that the results of an analysis are approximately correct, while drawing fewer samples and using less computational resources than would be needed to replicate the analysis. We focus on distribution testing problems: verifying that an unknown distribution is close to having a claimed property. Our main contribution is a interactive protocol between a verifier and an untrusted prover, which can be used to verify any distribution property that can be decided in polynomial time given a full and explicit description of the distribution. If the distribution is at statistical distance $\varepsilon$ from having the property, then the verifier rejects with high probability. This soundness property holds against any polynomial-time strategy that a cheating prover might follow, assuming the existence of collision-resistant hash functions (a standard assumption in cryptography). For distributions over a domain of size $N$, the protocol consists of $4$ messages and the communication complexity and verifier runtime are roughly $\widetilde{O}\left(\sqrt{N} / \varepsilon^2 \right)$. The verifier's sample complexity is $\widetilde{O}\left(\sqrt{N} / \varepsilon^2 \right)$, and this is optimal up to $\polylog(N)$ factors (for any protocol, regardless of its communication complexity). Even for simple properties, approximately deciding whether an unknown distribution has the property can require quasi-linear sample complexity and running time. For any such property, our protocol provides a quadratic speedup over replicating the analysis.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# Grouse: 根拠のある質問回答における評価者の評価ベンチマーク

GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering ( http://arxiv.org/abs/2409.06595v1 )

ライセンス: Link先を確認
Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。 本研究は,RAGシステムによって生成される接地された回答を評価する際に,LLM-as-a-Judgeを使用する際の課題に対処する。 判定モデルのキャリブレーションと識別能力を評価するため、7つのジェネレータ故障モードを特定し、144の単体テストのメタ評価ベンチマークであるGroUSE(Grounded QA Unitary Scoring of Evaluators)を導入する。 このベンチマークによると、既存の自動RAG評価フレームワークは、GPT-4を審査員として使用しても、重要な障害モードを見落としていることが多い。 自動RAG評価フレームワークの現在の設計を改善するために,新しいパイプラインを提案し,GroUSE上でクローズドモデルが良好に動作するのに対して,GPT-4の判断と強い相関があるにもかかわらず,最先端のオープンソース審査員は提案基準を一般化しないことがわかった。 以上の結果から, GPT-4との相関は, 判定モデルの実用的性能に不完全なプロキシであり, 正確な故障モード検出のための単体テストの評価を補足すべきであることが示唆された。 さらに, GPT-4の推理トレースにおけるLlama-3の微調整は, GPT-4の評価値と基準条件の校正値との相関性を向上し, 評価能力を大幅に向上させることを示した。

Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use Large Language Models (LLMs) alongside private and up-to-date knowledge bases. In this work, we address the challenges of using LLM-as-a-Judge when evaluating grounded answers generated by RAG systems. To assess the calibration and discrimination capabilities of judge models, we identify 7 generator failure modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a meta-evaluation benchmark of 144 unit tests. This benchmark reveals that existing automated RAG evaluation frameworks often overlook important failure modes, even when using GPT-4 as a judge. To improve on the current design of automated RAG evaluation frameworks, we propose a novel pipeline and find that while closed models perform well on GroUSE, state-of-the-art open-source judges do not generalize to our proposed criteria, despite strong correlation with GPT-4's judgement. Our findings suggest that correlation with GPT-4 is an incomplete proxy for the practical performance of judge models and should be supplemented with evaluations on unit tests for precise failure mode detection. We further show that finetuning Llama-3 on GPT-4's reasoning traces significantly boosts its evaluation capabilities, improving upon both correlation with GPT-4's evaluations and calibration on reference situations.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# Nikiforov-Uvarov機能解析を用いた修飾モルス電位中の二原子分子の回転分光

Rovibrational Spectroscopy of Diatomic Molecules in Modified-Morse Potential using Nikiforov-Uvarov Functional Analysis ( http://arxiv.org/abs/2409.06598v1 )

ライセンス: Link先を確認
Raghav Sharma, Pragati Ashdhir, Amit Tanwar, (参考訳) H2, LiH, HCl, CO, VH, CrH, CuLi, TiC, NiC, ScN という二原子分子に対して最近開発されたNikiforov-Uvarov Functional Analysis (NUFA) 法を用いて, 放射型時間依存性Schr\"odinger方程式を解く。 修正モースポテンシャルを考慮し、遠心項を満たすためにPekeris近似を用いる。 正確なエネルギー固有値と固有関数解は振動($\mathit{n}$)および回転($\ell$)状態に対して得られる。 ce{H2}, LiH, HCl, CO については、ペケリス近似が依然として有効であることを仮定して、現在の値と文献の間に優れた一致が観測される。 他の分子については、文献に見つからない低層および高層状態の集合が報告されている。 NUFA法は他の原子間ポテンシャルに適用できる単純で汎用的で正確なアプローチである。

The radial time-independent Schr\"odinger equation is solved for the diatomic molecules: H2, LiH, HCl, CO, VH, CrH, CuLi, TiC, NiC, and ScN using the recently developed Nikiforov-Uvarov Functional Analysis (NUFA) method. The Modified-Morse potential is considered and the Pekeris approximation is used to accommodate the centrifugal term. Accurate energy eigenvalues and eigenfunction solutions are obtained for vibrational ($\mathit{n}$) and rotational ($\ell$) states. For \ce{H2}, LiH, HCl, and CO, excellent agreement is observed between present values and literature, provided that the Pekeris approximation remains valid. For other molecules, a collection of low and high-lying states not found in literature are reported. The NUFA method is a simple, general and accurate approach that may be applied to other interatomic potentials.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 懐疑的モデルを用いた大規模言語モデルにおける幻覚の緩和

Alleviating Hallucinations in Large Language Models with Scepticism Modeling ( http://arxiv.org/abs/2409.06601v1 )

ライセンス: Link先を確認
Yetao Wu, Yihong Wang, Teng Chen, Chenxi Liu, Ningyuan Xi, Qingqing Gu, Hongyang Lei, Zhonglin Jiang, Yong Chen, Luo Ji, (参考訳) 幻覚は大きな言語モデル(LLM)にとって大きな課題であり、多様な分野での採用を妨げる。 不確実性推定は幻覚の損傷を軽減するために用いられる。 人間の懐疑的な感情は、自己推定能力を高めるのに役立つかもしれない。 そこで本研究では,懐疑論モデリング(Sciepticism Modeling, SM)と呼ばれる新しいアプローチを提案する。 この手法は、トークンとロジットの情報を組み合わせて自己推定を行うことによって定式化される。 我々は、疑わしい感情認識データを構築し、連続的な事前学習を行い、LLMを微調整し、自己推定能力を向上させる。 実験により,本手法はモデルが不確実性を推定する能力を効果的に向上し,ドメイン外実験により他のタスクの一般化能力を検証した。

Hallucinations is a major challenge for large language models (LLMs), prevents adoption in diverse fields. Uncertainty estimation could be used for alleviating the damages of hallucinations. The skeptical emotion of human could be useful for enhancing the ability of self estimation. Inspirited by this observation, we proposed a new approach called Skepticism Modeling (SM). This approach is formalized by combining the information of token and logits for self estimation. We construct the doubt emotion aware data, perform continual pre-training, and then fine-tune the LLMs, improve their ability of self estimation. Experimental results demonstrate this new approach effectively enhances a model's ability to estimate their uncertainty, and validate its generalization ability of other tasks by out-of-domain experiments.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# ビデオデノイングのための多重核融合を組み込んだ実運用Gated Recurrent Transformer Network

A Practical Gated Recurrent Transformer Network Incorporating Multiple Fusions for Video Denoising ( http://arxiv.org/abs/2409.06603v1 )

ライセンス: Link先を確認
Kai Guo, Seungwon Choi, Jongseong Choi, Lae-Hoon Kim, (参考訳) State-of-the-art(SOTA)ビデオデノケーション手法では、複数フレームの同時デノケーション機構が採用されているため、大きな遅延(例えば16フレーム)が発生し、リアルタイムカメラでは実用的ではない。 この制限を克服するために,単一フレーム遅延のみを伴ってSOTA復調性能を実現するマルチフュージョンゲート再帰変圧器ネットワーク(GRTN)を提案する。 具体的には、空間認知モジュールは、現在のフレームから特徴を抽出し、リセットゲートは、前のフレームから関連情報を選択し、時間認知モジュールを介して現在のフレーム特徴と融合させる。 更新ゲートは、この結果を以前のフレーム機能とさらにブレンドし、再構築モジュールは現在のフレームと統合する。 雑音のある特徴に対する注意を頑健に計算するために,空間的および時間的重畳加群におけるユークリッド距離(RSSTE)を有する残差単純化スウィン変換器を提案する。 比較対象および主観的結果から,GRTNは単一フレーム遅延のみを伴って,SOTAマルチフレーム遅延ネットワークに匹敵するノイズ発生性能を達成できることが示された。

State-of-the-art (SOTA) video denoising methods employ multi-frame simultaneous denoising mechanisms, resulting in significant delays (e.g., 16 frames), making them impractical for real-time cameras. To overcome this limitation, we propose a multi-fusion gated recurrent Transformer network (GRTN) that achieves SOTA denoising performance with only a single-frame delay. Specifically, the spatial denoising module extracts features from the current frame, while the reset gate selects relevant information from the previous frame and fuses it with current frame features via the temporal denoising module. The update gate then further blends this result with the previous frame features, and the reconstruction module integrates it with the current frame. To robustly compute attention for noisy features, we propose a residual simplified Swin Transformer with Euclidean distance (RSSTE) in the spatial and temporal denoising modules. Comparative objective and subjective results show that our GRTN achieves denoising performance comparable to SOTA multi-frame delay networks, with only a single-frame delay.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 口腔咽頭癌の原発性Gross腫瘍容積に対するインタラクティブ3次元切開術

Interactive 3D Segmentation for Primary Gross Tumor Volume in Oropharyngeal Cancer ( http://arxiv.org/abs/2409.06605v1 )

ライセンス: Link先を確認
Mikko Saukkoriipi, Jaakko Sahlsten, Joel Jaskari, Lotta Orasmaa, Jari Kangas, Nastaran Rasouli, Roope Raisamo, Jussi Hirvonen, Helena Mehtonen, Jorma Järnstedt, Antti Mäkitie, Mohamed Naser, Clifton Fuller, Benjamin Kann, Kimmo Kaski, (参考訳) 口腔咽頭癌(OPC)に対する治療は放射線療法が中心であり,原発性大網腫瘍容積(GTVp)の正確なセグメンテーションが重要である。 しかし、正確なGTVpセグメンテーションは、大きなオブザーバ間のばらつきと手動アノテーションの時間的特性のために困難であり、完全に自動化されたメソッドは時折失敗することがある。 対話型ディープラーニング(DL)モデルでは,自動高性能セグメンテーションの利点と,必要に応じてユーザ修正の柔軟性が期待できる。 本研究では,OPCにおけるGTVpセグメンテーションのための対話型DLについて検討した。 我々は最先端のアルゴリズムを実装し、新しい2段階のインタラクティブ・クリック・リファインメント(Interactive Click Refinement, 2S-ICR)フレームワークを提案する。 2021年のHead and neCK Tumor(HECKTOR)データセットとThe University of Texas MD Anderson Cancer Centerの外部データセットを使用して評価を行い、2S-ICRフレームワークはユーザインタラクションなしでDiceの類似度係数0.713$\pm$0.152、インタラクション後の0.824$\pm$0.099を達成し、両方のケースで既存のメソッドを上回った。

The main treatment modality for oropharyngeal cancer (OPC) is radiotherapy, where accurate segmentation of the primary gross tumor volume (GTVp) is essential. However, accurate GTVp segmentation is challenging due to significant interobserver variability and the time-consuming nature of manual annotation, while fully automated methods can occasionally fail. An interactive deep learning (DL) model offers the advantage of automatic high-performance segmentation with the flexibility for user correction when necessary. In this study, we examine interactive DL for GTVp segmentation in OPC. We implement state-of-the-art algorithms and propose a novel two-stage Interactive Click Refinement (2S-ICR) framework. Using the 2021 HEad and neCK TumOR (HECKTOR) dataset for development and an external dataset from The University of Texas MD Anderson Cancer Center for evaluation, the 2S-ICR framework achieves a Dice similarity coefficient of 0.713 $\pm$ 0.152 without user interaction and 0.824 $\pm$ 0.099 after five interactions, outperforming existing methods in both cases.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 自動走行におけるトレーサブル動作仕様へのオントロジー的アプローチ

An Ontology-based Approach Towards Traceable Behavior Specifications in Automated Driving ( http://arxiv.org/abs/2409.06607v1 )

ライセンス: Link先を確認
Nayel Fabian Salem, Marcus Nolte, Veronica Haber, Till Menzel, Hans Steege, Robert Graubohm, Markus Maurer, (参考訳) 自動走行システムを備えた公共交通機関の車両には、様々な期待が寄せられている: その他の面において、その行動は安全であり、道路の規則に適合し、利用者に移動性を提供するべきである。 開発者は、例えば、システム設計時の要件の観点から、この振る舞いを指定する責任を負います。 この記事で論じるとおり、この仕様は常に前提とトレードオフの必要性を伴います。 その結果、そのような振舞い仕様の不足が生じ、安全でないシステムの振舞いに繋がる可能性がある。 仕様の不備の特定を支援するには、要件とそれぞれの前提を明確にする必要がある。 本稿では,自動走行システム搭載車両の動作を特定するためのオントロジーに基づく手法として,セマンティックノーム行動解析を提案する。 オントロジーを用いて、対象とする運用環境の特定動作を正式に表現し、特定動作と対処するステークホルダーのニーズの間のトレーサビリティを確立する。 さらに,2つの事例においてセマンティックノルム行動分析の適用例を説明し,その結果について考察する。

Vehicles in public traffic that are equipped with Automated Driving Systems are subject to a number of expectations: Among other aspects, their behavior should be safe, conforming to the rules of the road and provide mobility to their users. This poses challenges for the developers of such systems: Developers are responsible for specifying this behavior, for example, in terms of requirements at system design time. As we will discuss in the article, this specification always involves the need for assumptions and trade-offs. As a result, insufficiencies in such a behavior specification can occur that can potentially lead to unsafe system behavior. In order to support the identification of specification insufficiencies, requirements and respective assumptions need to be made explicit. In this article, we propose the Semantic Norm Behavior Analysis as an ontology-based approach to specify the behavior for an Automated Driving System equipped vehicle. We use ontologies to formally represent specified behavior for a targeted operational environment, and to establish traceability between specified behavior and the addressed stakeholder needs. Furthermore, we illustrate the application of the Semantic Norm Behavior Analysis in two example scenarios and evaluate our results.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# ロバストハイブリッドAIのためのシミュレーションに基づくシナリオ生成

Simulation-based Scenario Generation for Robust Hybrid AI for Autonomy ( http://arxiv.org/abs/2409.06608v1 )

ライセンス: Link先を確認
Hambisa Keno, Nicholas J. Pioch, Christopher Guagliano, Timothy H. Chung, (参考訳) 無人航空機(UAV)の捜索・救助、緊急管理、法執行機関への応用は、低コストのプラットフォームとセンサーペイロードの出現により、注目を集めている。 複雑な推論のためのハイブリッドニューラルネットワークとシンボリックAIアプローチの出現は、これらのアプリケーションの境界をさらに押し下げ、人間の介入のレベルを下げることが期待されている。 しかし、現在のUAVシミュレーション環境は、このハイブリッドアプローチに適したセマンティックコンテキストを欠いている。 このギャップに対処するため、HAMERITT(Hybrid Ai Mission Environment for RapId Training and Testing)は、自律的な操作と知覚推論のためのニューロシンボリックアルゴリズムのトレーニング、テスト、保証をサポートするシミュレーションベースの自律ソフトウェアフレームワークを提供する。 HAMERITTには、生センサデータに加えて、ミッション関連コンテキストシンボル情報を提供するシナリオ生成機能が含まれている。 シナリオには、関心の実体とそのシーン要素との関係に関する象徴的な記述や、それらの領域内の制限された領域や事前確率との時間有界な関心領域の形式における空間的時間的制約が含まれる。 HAMERITTはまた、エンド・ツー・エンドのミッションラン内での操作と知覚の異なるアルゴリズムスレッドのトレーニングもサポートする。 今後の作業には、シナリオリアリズムの改善と、自動化ワークフローによる象徴的なコンテキスト生成のスケーリングが含まれる。

Application of Unmanned Aerial Vehicles (UAVs) in search and rescue, emergency management, and law enforcement has gained traction with the advent of low-cost platforms and sensor payloads. The emergence of hybrid neural and symbolic AI approaches for complex reasoning is expected to further push the boundaries of these applications with decreasing levels of human intervention. However, current UAV simulation environments lack semantic context suited to this hybrid approach. To address this gap, HAMERITT (Hybrid Ai Mission Environment for RapId Training and Testing) provides a simulation-based autonomy software framework that supports the training, testing and assurance of neuro-symbolic algorithms for autonomous maneuver and perception reasoning. HAMERITT includes scenario generation capabilities that offer mission-relevant contextual symbolic information in addition to raw sensor data. Scenarios include symbolic descriptions for entities of interest and their relations to scene elements, as well as spatial-temporal constraints in the form of time-bounded areas of interest with prior probabilities and restricted zones within those areas. HAMERITT also features support for training distinct algorithm threads for maneuver vs. perception within an end-to-end mission run. Future work includes improving scenario realism and scaling symbolic context generation through automated workflow.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 磁気共鳴スペクトルモデリングにおけるCNNの精度向上

Improving the Precision of CNNs for Magnetic Resonance Spectral Modeling ( http://arxiv.org/abs/2409.06609v1 )

ライセンス: Link先を確認
John LaMaster, Dhritiman Das, Florian Kofler, Jason Crane, Yan Li, Tobias Lasser, Bjoern H Menze, (参考訳) 磁気共鳴分光画像は、興味のある組織の代謝プロファイルを非侵襲的に提供できる画像モダリティとして広く利用されているが、臨床的に統合することは困難である。 大きな理由のひとつは、高価な専門的なデータ処理と分析が必要なことです。 機械学習を使ってMSS関連の量を予測することでこの問題に対処できるが、ディープラーニングモデルは独自の課題、特にモデル信頼をもたらす。 現在の研究トレンドは、主に平均エラーメトリクスに焦点を当てていますが、例えば標準偏差や信頼区間など、包括的な精度メトリクスも必要です。 この研究は、より包括的なエラー特徴付けが重要である理由と、スペクトルモデリングのためのCNNの精度を改善する方法、量的タスクを強調している。 その結果、CNNでそのような回帰タスクに取り組む際に考慮すべきこれらのテクニックの利点とトレードオフが浮き彫りになった。 それぞれの技術の基礎となるメカニズムと、それらが他の技術とどのように相互作用するかに関する詳細な知見を深く議論する。

Magnetic resonance spectroscopic imaging is a widely available imaging modality that can non-invasively provide a metabolic profile of the tissue of interest, yet is challenging to integrate clinically. One major reason is the expensive, expert data processing and analysis that is required. Using machine learning to predict MRS-related quantities offers avenues around this problem, but deep learning models bring their own challenges, especially model trust. Current research trends focus primarily on mean error metrics, but comprehensive precision metrics are also needed, e.g. standard deviations, confidence intervals, etc.. This work highlights why more comprehensive error characterization is important and how to improve the precision of CNNs for spectral modeling, a quantitative task. The results highlight advantages and trade-offs of these techniques that should be considered when addressing such regression tasks with CNNs. Detailed insights into the underlying mechanisms of each technique, and how they interact with other techniques, are discussed in depth.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# 自己監督型学習過程のラベルフリーモニタリング

Label-free Monitoring of Self-Supervised Learning Progress ( http://arxiv.org/abs/2409.06612v1 )

ライセンス: Link先を確認
Isaac Xu, Scott Lowe, Thomas Trappenberg, (参考訳) 自己教師付き学習(SSL)は、さまざまな下流タスクに使用できるハイレベルな埋め込み空間を学習するために、ラベルのないデータを活用する効果的な方法である。 しかし、エンコーダの品質(あるモデルのトレーニング中か、複数のモデルのトレーニング中)を監視する既存の方法は、アノテートされたデータへのアクセスに依存している。 SSLメソッドが新しいデータドメインに適用される場合、十分な大きなラベル付きデータセットが常に利用できるとは限らない。 本研究では,未ラベルデータの埋め込みに適用可能ないくつかの評価指標を提案し,それらを線形プローブ精度(注釈付きデータセットを用いた共通メトリクス)と比較することにより,それらの生存可能性について検討する。 特に、$k$-meansクラスタリングを適用し、シルエットスコアとクラスタリング合意でクラスタリング品質を測定する。 また,埋め込み分布のエントロピーを測定した。 その結果、ネットワークのトレーニングが進むにつれて、クラスタは地上の真理アノテーションとよく対応しているのに対し、ラベルなしクラスタリングのメトリクスは、SSLメソッドSimCLRとMoCo-v2のトレーニングでのみ線形プローブ精度と相関するが、SimSiamでは対応しないことがわかった。 加えて、エントロピーはLPの精度と強い相関関係は持たなかったが、これは初期の訓練によって生じる不安定性によるもので、メートル法が安定し、その後の学習の段階でより信頼性が高まるためと思われる。 さらに、エントロピーは学習が進むにつれて一般的に減少するが、この傾向はSimSiamにとって逆である。 この予期せぬ行動の原因を確立するには、さらなる研究が必要である。 最後に、クラスタリングに基づくアプローチは、同じアーキテクチャの比較でのみ有効である可能性が高いが、エントロピーはアーキテクチャに依存しない可能性がある。

Self-supervised learning (SSL) is an effective method for exploiting unlabelled data to learn a high-level embedding space that can be used for various downstream tasks. However, existing methods to monitor the quality of the encoder -- either during training for one model or to compare several trained models -- still rely on access to annotated data. When SSL methodologies are applied to new data domains, a sufficiently large labelled dataset may not always be available. In this study, we propose several evaluation metrics which can be applied on the embeddings of unlabelled data and investigate their viability by comparing them to linear probe accuracy (a common metric which utilizes an annotated dataset). In particular, we apply $k$-means clustering and measure the clustering quality with the silhouette score and clustering agreement. We also measure the entropy of the embedding distribution. We find that while the clusters did correspond better to the ground truth annotations as training of the network progressed, label-free clustering metrics correlated with the linear probe accuracy only when training with SSL methods SimCLR and MoCo-v2, but not with SimSiam. Additionally, although entropy did not always have strong correlations with LP accuracy, this appears to be due to instability arising from early training, with the metric stabilizing and becoming more reliable at later stages of learning. Furthermore, while entropy generally decreases as learning progresses, this trend reverses for SimSiam. More research is required to establish the cause for this unexpected behaviour. Lastly, we find that while clustering based approaches are likely only viable for same-architecture comparisons, entropy may be architecture-independent.
翻訳日:2024-09-11 16:59:09 公開日:2024-09-10
# DemoStart:マルチフィンガーロボットによるsim-to-realへの応用

DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots ( http://arxiv.org/abs/2409.06613v1 )

ライセンス: Link先を確認
Maria Bauza, Jose Enrique Chen, Valentin Dalibard, Nimrod Gileadi, Roland Hafner, Murilo F. Martins, Joss Moore, Rugile Pevceviciute, Antoine Laurens, Dushyant Rao, Martina Zambelli, Martin Riedmiller, Jon Scholz, Konstantinos Bousmalis, Francesco Nori, Nicolas Heess, (参考訳) 本稿では,3本指ロボットハンドを装備したアーム上での複雑な操作動作を,スパース報酬とシミュレーションにおける少数の実演から学習する,新しい自己カリキュラム強化学習手法であるDemoStartを提案する。 シミュレーションからの学習は、行動生成のサイクルを劇的に減らし、ドメインランダム化技術を活用して、ゼロショット・シム・トゥ・リアル転送を成功させる。 転送されたポリシーは、複数のカメラとロボットのプロプリセプションから生のピクセルから直接学習される。 提案手法は実ロボットの実証から学んだポリシーを上回り,シミュレーションで収集した100倍のデモを必要とする。 詳しくはhttps://sites.google.com/view/demostart.comを参照のこと。

We present DemoStart, a novel auto-curriculum reinforcement learning method capable of learning complex manipulation behaviors on an arm equipped with a three-fingered robotic hand, from only a sparse reward and a handful of demonstrations in simulation. Learning from simulation drastically reduces the development cycle of behavior generation, and domain randomization techniques are leveraged to achieve successful zero-shot sim-to-real transfer. Transferred policies are learned directly from raw pixels from multiple cameras and robot proprioception. Our approach outperforms policies learned from demonstrations on the real robot and requires 100 times fewer demonstrations, collected in simulation. More details and videos in https://sites.google.com/view/demostart.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# ミスマッチ実行時のワンショット模倣

One-Shot Imitation under Mismatched Execution ( http://arxiv.org/abs/2409.06615v1 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Sanjiban Choudhury, (参考訳) プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。 しかし、ロボットによる実行可能な動作にこれらのデモを直接翻訳することは、異なる動作スタイルや身体能力など、実行ミスマッチによる重大な課題を生じさせる。 既存の方法は、スケールが不可能なロボットとデモレータのペアデータに依存するか、フレームレベルの視覚的類似性に過度に依存する。 これらの課題に対処するために,最適な輸送コストを用いてロボットとデモレータのタスク実行対応を自動的に確立する新しいフレームワークであるRHyMEを提案する。 ロングホライズンロボットのデモンストレーションが与えられた後、RHyMEは、同様の短いホライズン人間のクリップを検索して構成することで、意味論的に同等な人間のデモを合成し、ペア化されたデータを必要としない効果的な政策訓練を促進する。 RHyMEは, あらゆるミスマッチにおいて, 様々なクロスボデーメントデータセットにおいて, 多様なベースラインを上回り, 性能が向上することを示す。 詳細な分析により,身体間の視覚表現を学習し活用するための洞察を明らかにする。

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, directly translating such demonstrations into robot-executable actions poses significant challenges due to execution mismatches, such as different movement styles and physical capabilities. Existing methods either rely on robot-demonstrator paired data, which is infeasible to scale, or overly rely on frame-level visual similarities, which fail to hold. To address these challenges, we propose RHyME, a novel framework that automatically establishes task execution correspondences between the robot and the demonstrator by using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human demonstrations by retrieving and composing similar short-horizon human clips, facilitating effective policy training without the need for paired data. We show that RHyME outperforms a range of baselines across various cross-embodiment datasets on all degrees of mismatches. Through detailed analysis, we uncover insights for learning and leveraging cross-embodiment visual representations.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# ReID特徴抽出のタイミング:複数物体追跡の改善のための選択的アプローチ

When to Extract ReID Features: A Selective Approach for Improved Multiple Object Tracking ( http://arxiv.org/abs/2409.06617v1 )

ライセンス: Link先を確認
Emirhan Bayar, Cemal Aker, (参考訳) ReID(Rettracting and matching Re-Identification)機能は、多くの最先端(SOTA)マルチプルオブジェクト追跡(MOT)手法で使われ、特に頻繁かつ長期の閉塞に対して有効である。 エンドツーエンドのオブジェクト検出と追跡が最近の研究の焦点となっているが、MOT17やMOT20のようなベンチマークでは、従来の手法をまだ上回っていない。 したがって、アプリケーションの観点から見れば、検出と埋め込みを分離したメソッドは、オーバーヘッドが伴うエッジデバイスでは実用的ではないが、正確性、モジュール性、実装の容易性にとって最良の選択肢である。 本稿では,精度,モジュール性,実装容易性を保ちながら,特徴抽出のオーバーヘッドを最小限に抑えるための選択的アプローチについて検討する。 このアプローチは様々なSOTAメソッドに統合できる。 我々は、StrongSORTとDeep OC-SORTに適用することで、その効果を実証する。 MOT17、MOT20、DanceTrackデータセットの実験では、オクルージョン時の特徴抽出の利点を保ちながら、実行時間を著しく削減している。 また、特にDanceTrackに共通する変形や外観類似性の場合には、特徴マッチング段階での混乱を防止して精度を向上させる。 https://github.com/emirhanbayar/Fast-StrongSORT, https://github.com/emirhanbayar/Fast-Deep-OC-SORT

Extracting and matching Re-Identification (ReID) features is used by many state-of-the-art (SOTA) Multiple Object Tracking (MOT) methods, particularly effective against frequent and long-term occlusions. While end-to-end object detection and tracking have been the main focus of recent research, they have yet to outperform traditional methods in benchmarks like MOT17 and MOT20. Thus, from an application standpoint, methods with separate detection and embedding remain the best option for accuracy, modularity, and ease of implementation, though they are impractical for edge devices due to the overhead involved. In this paper, we investigate a selective approach to minimize the overhead of feature extraction while preserving accuracy, modularity, and ease of implementation. This approach can be integrated into various SOTA methods. We demonstrate its effectiveness by applying it to StrongSORT and Deep OC-SORT. Experiments on MOT17, MOT20, and DanceTrack datasets show that our mechanism retains the advantages of feature extraction during occlusions while significantly reducing runtime. Additionally, it improves accuracy by preventing confusion in the feature-matching stage, particularly in cases of deformation and appearance similarity, which are common in DanceTrack. https://github.com/emirhanbayar/Fast-StrongSORT, https://github.com/emirhanbayar/Fast-Deep-OC-SORT
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# ベンシックハビタット画像の欠落情報を用いた階層的マルチラベル分類

Hierarchical Multi-Label Classification with Missing Information for Benthic Habitat Imagery ( http://arxiv.org/abs/2409.06618v1 )

ライセンス: Link先を確認
Isaac Xu, Benjamin Misiuk, Scott C. Lowe, Martin Gillis, Craig J. Brown, Thomas Trappenberg, (参考訳) 本研究では,海底画像の大規模データセットである \textit{BenthicNet} に最先端の自己教師型学習技術を適用し,複雑な階層型マルチラベル(HML)分類下流タスクの性能について検討する。 特に,異なるデータ収集プロトコルを持つ複数の研究グループによって収集された異種実世界のデータを扱うための重要なシナリオである,複数のレベルのアノテーション情報が存在するシナリオにおいて,HMLトレーニングを実施する能力を示す。 その結果,局所的・局所的なベントニック・サイエンス・プロジェクトで典型的な小型のワンホット・イメージ・ラベル・データセットを使用する場合,イメージネット上で事前学習したドメイン内ベントニック・データの大規模な収集に対して,自己スーパービジョンで事前学習したモデルの方が優れていることがわかった。 HML設定では、ドメイン内のデータに対する自己スーパービジョンで事前訓練された場合、モデルがより深くより正確に分類できる。 この研究は、水中自動画像アノテーションタスクの分野における将来のモデルのためのベンチマークを確立し、混合解像度の階層的なアノテーションで他のドメインでの作業をガイドできることを期待している。

In this work, we apply state-of-the-art self-supervised learning techniques on a large dataset of seafloor imagery, \textit{BenthicNet}, and study their performance for a complex hierarchical multi-label (HML) classification downstream task. In particular, we demonstrate the capacity to conduct HML training in scenarios where there exist multiple levels of missing annotation information, an important scenario for handling heterogeneous real-world data collected by multiple research groups with differing data collection protocols. We find that, when using smaller one-hot image label datasets typical of local or regional scale benthic science projects, models pre-trained with self-supervision on a larger collection of in-domain benthic data outperform models pre-trained on ImageNet. In the HML setting, we find the model can attain a deeper and more precise classification if it is pre-trained with self-supervision on in-domain data. We hope this work can establish a benchmark for future models in the field of automated underwater image annotation tasks and can guide work in other domains with hierarchical annotations of mixed resolution.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# MVGaussian:多視点誘導による高忠実テキストから3次元コンテンツ生成と表面密度化

MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification ( http://arxiv.org/abs/2409.06620v1 )

ライセンス: Link先を確認
Phu Pham, Aradhya N. Mathur, Ojaswa Sharma, Aniket Bera, (参考訳) テキストから3Dのコンテンツ生成の分野は、3Dオブジェクトを現実的に生成する上で大きな進歩を遂げており、Score Distillation Sampling (SDS)のような既存の方法論は有望なガイダンスを提供している。 しかし,これらの手法は,不正確な指導により,複数の面のあいまいさに遭遇することが多い。 さらに、近年の3次元ガウス分割の進歩は、3次元ボリュームの表現に有効であることを示しているが、この表現の最適化は未解明のままである。 本稿では,これらの重要なギャップに対処するテキスト・ツー・3Dコンテンツ生成のための統一的なフレームワークを提案する。 提案手法は,3次元モデルの構造を反復的に形成し,細部と精度を段階的に向上する。 また, ガウスを表面近傍に配向させ, 生成したモデルの構造的整合性と忠実度を最適化する新しい密度化アルゴリズムを提案する。 大規模な実験により我々のアプローチが検証され、最小の時間コストで高品質な視覚出力が得られることが実証された。 特に,本手法は,30分以内の学習で高品質な結果が得られ,既存の手法に比べてかなりの効率向上が期待できる。

The field of text-to-3D content generation has made significant progress in generating realistic 3D objects, with existing methodologies like Score Distillation Sampling (SDS) offering promising guidance. However, these methods often encounter the "Janus" problem-multi-face ambiguities due to imprecise guidance. Additionally, while recent advancements in 3D gaussian splitting have shown its efficacy in representing 3D volumes, optimization of this representation remains largely unexplored. This paper introduces a unified framework for text-to-3D content generation that addresses these critical gaps. Our approach utilizes multi-view guidance to iteratively form the structure of the 3D model, progressively enhancing detail and accuracy. We also introduce a novel densification algorithm that aligns gaussians close to the surface, optimizing the structural integrity and fidelity of the generated models. Extensive experiments validate our approach, demonstrating that it produces high-quality visual outputs with minimal time cost. Notably, our method achieves high-quality results within half an hour of training, offering a substantial efficiency gain over most existing methods, which require hours of training time to achieve comparable results.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# マルチタスクによるイタリア語文の埋め込み探索

Exploring Italian sentence embeddings properties through multi-tasking ( http://arxiv.org/abs/2409.06622v1 )

ライセンス: Link先を確認
Vivi Nastase, Giuseppe Samo, Chunyang Jiang, Paola Merlo, (参考訳) イタリア語の抽象言語情報をマルチタスク設定でどの程度エンコードしているかについて検討する。 イタリア語のいくつかのBlackbird Language Matrices (BLMs) 問題である大規模な合成データを利用して、事前訓練された言語モデルを用いて構築された文表現が、特定の構文情報や意味情報をエンコードする方法を研究する。 本研究では,タスクに関連する情報を含む表現や,BLMタスクに埋め込まれた文の圧縮を,2段階のアーキテクチャで個別にモデル化する。 次に,BLMタスクに関連する構文情報と意味情報をエンコードした圧縮文表現が得られるかを検討する。 文構造 -- フレーズ/チャンクのシーケンスとチャンク特性がタスク間で共有できることを期待したが、パフォーマンスとエラー分析は、異なるタスクの手がかりが文の埋め込みにおいて異なる方法でエンコードされていることを示しており、コンポジションやセマンティックロールといった抽象的な言語概念が事前訓練された文の埋め込みに存在しないことを示唆している。

We investigate to what degree existing LLMs encode abstract linguistic information in Italian in a multi-task setting. We exploit curated synthetic data on a large scale -- several Blackbird Language Matrices (BLMs) problems in Italian -- and use them to study how sentence representations built using pre-trained language models encode specific syntactic and semantic information. We use a two-level architecture to model separately a compression of the sentence embeddings into a representation that contains relevant information for a task, and a BLM task. We then investigate whether we can obtain compressed sentence representations that encode syntactic and semantic information relevant to several BLM tasks. While we expected that the sentence structure -- in terms of sequence of phrases/chunks -- and chunk properties could be shared across tasks, performance and error analysis show that the clues for the different tasks are encoded in different manners in the sentence embeddings, suggesting that abstract linguistic notions such as constituents or thematic roles does not seem to be present in the pretrained sentence embeddings.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# 20量子2次元フォトニッククラスター状態の決定論的生成

Deterministic generation of a 20-qubit two-dimensional photonic cluster state ( http://arxiv.org/abs/2409.06623v1 )

ライセンス: Link先を確認
James O'Sullivan, Kevin Reuer, Aleksandr Grigorev, Xi Dai, Alonso Hernández-Antón, Manuel H. Muñoz-Arias, Christoph Hellings, Alexander Flasby, Dante Colao Zanuz, Jean-Claude Besse, Alexandre Blais, Daniel Malz, Christopher Eichler, Andreas Wallraff, (参考訳) 多次元クラスター状態は、ロバストな量子通信、測定ベースの量子コンピューティング、量子メトロジーの鍵となる資源である。 ここでは,2次元ラグ構造において,大規模に絡み合ったマイクロ波フォトニック状態を発生させる装置を提案する。 この装置は、それぞれ共通の出力導波路に順応的に結合された一対の超伝導トランスモン量子ビットからなる。 このアーキテクチャは、各トランモンと決定的に放出されるフォトニック量子ビットとの間の絡み合いを許容する。 制御された光子放射で2量子ゲートをインターリーブすることにより、光子の時間および周波数多重クラスタ状態の2xnグリッドを生成する。 最大20個のフォトニック量子ビットにまたがる局所化可能な絡み合いの符号を測定する。 デバイスアーキテクチャは,ツリーグラフ状態やリピータ状態,トーリックコードの基底状態など,さまざまなテンソルネットワーク状態を生成することができ,大規模で高次元な状態を生成するためのスケーラビリティが期待できる。

Multidimensional cluster states are a key resource for robust quantum communication, measurement-based quantum computing and quantum metrology. Here, we present a device capable of emitting large-scale entangled microwave photonic states in a two dimensional ladder structure. The device consists of a pair of coupled superconducting transmon qubits which are each tuneably coupled to a common output waveguide. This architecture permits entanglement between each transmon and a deterministically emitted photonic qubit. By interleaving two-qubit gates with controlled photon emission, we generate 2 x n grids of time- and frequency-multiplexed cluster states of itinerant microwave photons. We measure a signature of localizable entanglement across up to 20 photonic qubits. We expect the device architecture to be capable of generating a wide range of other tensor network states such as tree graph states, repeater states or the ground state of the toric code, and to be readily scalable to generate larger and higher dimensional states.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# Llama-370Bにおける追加言語混合比の最適選択による後学習の実践

A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio ( http://arxiv.org/abs/2409.06624v1 )

ライセンス: Link先を確認
Ningyuan Xi, Yetao Wu, Kun Fan, Teng Chen, Qingqing Gu, Peng Yu, Jinxian Qu, Chenxi Liu, Zhonglin Jiang, Yong Chen, Luo Ji, (参考訳) 大きな言語モデル(LLM)は、よく馴染みのない言語スキルを得たり、新しいドメインに適応するために、連続的な事前訓練(CPT)を必要とする。 CPTの膨大なトレーニングコストは、余剰言語やドメインコーパスの混合比率など、重要なハイパーパラメータの慎重な選択を求めることが多い。 しかし, 最適混合比と実モデル性能とのギャップと, 実験スケーリング法則と実モデルサイズでの実際の展開とのギャップを橋渡しする系統的な研究は存在しない。 本稿では,Llama-3 8Bと70BでCPTを行い,その中国語能力を高める。 本研究では, 言語混合比(ALMR)と学習率(LR)の最適相関を, 最適実験セットを直接示す8Bサイズで検討した。 ハイパーパラメータの徹底的な選択とその後の微調整により、モデル能力は中国のベンチマークだけでなく、数学、コーディング、感情知といった特定の領域にも改善される。 我々は,LLMの最終70Bバージョンを実生活チャットシステムに展開し,満足な性能を得る。

Large Language Models (LLM) often needs to be Continual Pre-Trained (CPT) to obtain the unfamiliar language skill or adapt into new domains. The huge training cost of CPT often asks for cautious choice of key hyper-parameters such as the mixture ratio of extra language or domain corpus. However, there is no systematic study which bridge the gap between the optimal mixture ratio and the actual model performance, and the gap between experimental scaling law and the actual deployment in the full model size. In this paper, we perform CPT on Llama-3 8B and 70B to enhance its Chinese ability. We study the optimal correlation between the Additional Language Mixture Ratio (ALMR) and the Learning Rate (LR) on the 8B size which directly indicate the optimal experimental set up. By thorough choice of hyper-parameter, and subsequent fine-tuning, the model capability is improved not only on the Chinese-related benchmark, but also some specific domains including math, coding and emotional intelligence. We deploy the final 70B version of LLM on an real-life chat system which obtain satisfying performance.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# 構造要素の局所化に向けて:RGB-Dデータにおける意味的検証と幾何学的検出の融合

Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data ( http://arxiv.org/abs/2409.06625v1 )

ライセンス: Link先を確認
Ali Tourani, Saad Ejaz, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos, (参考訳) RGB-Dカメラは、シーン理解、地図再構成、ローカライゼーションといった様々なロボティクスのタスクに対して、リッチで密集した視覚的・空間的な情報を提供する。 深度と視覚情報の統合は、ロボットのローカライズと要素マッピング、三次元シーングラフ生成や視覚的同時ローカライズとマッピング(VSLAM)といった先進的なアプリケーションを支援する。 このような情報を含むポイントクラウドデータは、主にシーン理解の強化に使用されるが、リッチなセマンティック情報をキャプチャして表現する可能性を活用することは、まだ適切にターゲットされていない。 本稿では,RGB-Dカメラの点雲データを用いて,純粋な3次元平面検出のための幾何計算を統合することにより,壁面や地上面を含む建築部品のローカライズをリアルタイムに行うパイプラインを提案する。 並列なマルチスレッドアーキテクチャを持ち、環境中で検出されたすべての平面のポーズと方程式を正確に推定し、汎視的セグメンテーション検証を用いて地図構造を形成するものをフィルタリングし、検証された構成部品のみを保持する。 提案手法をVSLAMフレームワークに組み込むことにより,検出した環境駆動のセマンティック要素による地図の制約により,シーン理解と地図再構成の精度が向上することを確認した。 また、検出されたコンポーネントを統一された3次元シーングラフに(再)関連付けることで、幾何学的精度と意味的理解のギャップを埋めることもできる。 さらに、パイプラインは、レイアウトに基づいて構築コンポーネント間の関係を識別することによって、部屋のような潜在的に高レベルな構造エンティティの検出を可能にする。

RGB-D cameras supply rich and dense visual and spatial information for various robotics tasks such as scene understanding, map reconstruction, and localization. Integrating depth and visual information can aid robots in localization and element mapping, advancing applications like 3D scene graph generation and Visual Simultaneous Localization and Mapping (VSLAM). While point cloud data containing such information is primarily used for enhanced scene understanding, exploiting their potential to capture and represent rich semantic information has yet to be adequately targeted. This paper presents a real-time pipeline for localizing building components, including wall and ground surfaces, by integrating geometric calculations for pure 3D plane detection followed by validating their semantic category using point cloud data from RGB-D cameras. It has a parallel multi-thread architecture to precisely estimate poses and equations of all the planes detected in the environment, filters the ones forming the map structure using a panoptic segmentation validation, and keeps only the validated building components. Incorporating the proposed method into a VSLAM framework confirmed that constraining the map with the detected environment-driven semantic elements can improve scene understanding and map reconstruction accuracy. It can also ensure (re-)association of these detected components into a unified 3D scene graph, bridging the gap between geometric accuracy and semantic understanding. Additionally, the pipeline allows for the detection of potential higher-level structural entities, such as rooms, by identifying the relationships between building components based on their layout.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# 『闘争は体験の一部』:ファミリーミール技術設計における不満の展開

"The struggle is a part of the experience": Engaging Discontents in the Design of Family Meal Technologies ( http://arxiv.org/abs/2409.06627v1 )

ライセンス: Link先を確認
Yuxing Wu, Andrew D Miller, Chia-Fang Chung, Elizabeth Kaziunas, (参考訳) 食事は家庭生活の中心的な(そして散らかった)部分である。 食事時間技術のための以前のデザインフレーミングは、食事の必要性や食卓での社会的・祝いの相互作用をサポートすることに重点を置いているが、家庭の食事には多くの活動と複雑な家族のダイナミクスの調整が含まれる。 本稿では、米国中西部(パートナー・親子を含む)の18家族を対象としたインタビュー・デザインセッションの結果を報告し、家庭内食事体験にまつわる重要な家族差と緊張感を明らかにする。 フェミニスト理論に基づいて、私たちは家族をケアの形で養育し、家族の食事の社会的・感情的な複雑さに注意を向ける仕事を解き放つ。 本研究は,家族と食生活における日常的な食事体験の一部である苦難と闘うために,家族と食生活の相互作用のデザイン空間を問題にする方法として,生産的手法として,生産的および体系的な不満の概念を感性化することを提案する。

Meals are a central (and messy) part of family life. Previous design framings for mealtime technologies have focused on supporting dietary needs or social and celebratory interactions at the dinner table; however, family meals involve the coordination of many activities and complicated family dynamics. In this paper, we report on findings from interviews and design sessions with 18 families from the Midwestern United States (including both partners/parents and children) to uncover important family differences and tensions that arise around domestic meal experiences. Drawing on feminist theory, we unpack the work of feeding a family as a form of care, drawing attention to the social and emotional complexity of family meals. Critically situating our data within current design narratives, we propose the sensitizing concepts of generative and systemic discontents as a productive way towards troubling the design space of family-food interaction to contend with the struggles that are a part of everyday family meal experiences.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# SaRA: プログレッシブスパース低ランク適応を用いた高効率拡散モデル微調整

SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation ( http://arxiv.org/abs/2409.06633v1 )

ライセンス: Link先を確認
Teng Hu, Jiangning Zhang, Ran Yi, Hongrui Huang, Yabiao Wang, Lizhuang Ma, (参考訳) 近年、拡散モデルの発展により画像および映像生成タスクが大幅に進歩し、安定拡散シリーズのような事前訓練されたモデルが重要な役割を担っている。 重要でないパラメータを除去し,大規模な事前学習モデルを軽視するモデルプルーニングに着想を得て,これらの非効率なパラメータをフル活用し,新しいタスク特定機能を備えた事前学習モデルを実現するためのモデル微調整法を提案する。 本研究ではまず,事前学習した拡散モデルにおけるパラメータの重要性について検討し,絶対値によるパラメータの10%から20%が生成過程に寄与しないことを示す。 そこで本研究では,これらのパラメータを一時的に有効でないパラメータに再活用し,タスク固有の知識を学習するために疎度行列を最適化するSaRAという手法を提案する。 オーバーフィッティングを緩和するため,高速微調整のための核ノルム系低ランクスパース訓練法を提案する。 さらに、再学習/微調整パラメータをフル活用するための新しいプログレッシブパラメータ調整戦略を設計する。 最後に,微調整時のメモリコストを大幅に削減する非構造的バックプロパゲーション戦略を提案する。 提案手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上し,モデル一般化能力を維持する上で,LoRAのような従来の微調整手法よりも優れる。 SDモデルを用いた微調整実験により,本手法の有効性を実証した。 SaRAはまた、効率的な実装のために1行のコード修正しか必要とせず、既存のメソッドとシームレスに互換性のある実用的な利点を提供する。

In recent years, the development of diffusion models has led to significant progress in image and video generation tasks, with pre-trained models like the Stable Diffusion series playing a crucial role. Inspired by model pruning which lightens large pre-trained models by removing unimportant parameters, we propose a novel model fine-tuning method to make full use of these ineffective parameters and enable the pre-trained model with new task-specified capabilities. In this work, we first investigate the importance of parameters in pre-trained diffusion models, and discover that the smallest 10% to 20% of parameters by absolute values do not contribute to the generation process. Based on this observation, we propose a method termed SaRA that re-utilizes these temporarily ineffective parameters, equating to optimizing a sparse weight matrix to learn the task-specific knowledge. To mitigate overfitting, we propose a nuclear-norm-based low-rank sparse training scheme for efficient fine-tuning. Furthermore, we design a new progressive parameter adjustment strategy to make full use of the re-trained/finetuned parameters. Finally, we propose a novel unstructural backpropagation strategy, which significantly reduces memory costs during fine-tuning. Our method enhances the generative capabilities of pre-trained models in downstream applications and outperforms traditional fine-tuning methods like LoRA in maintaining model's generalization ability. We validate our approach through fine-tuning experiments on SD models, demonstrating significant improvements. SaRA also offers a practical advantage that requires only a single line of code modification for efficient implementation and is seamlessly compatible with existing methods.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# MoWE-Audio: 弱エンコーダを混合したマルチタスクオーディオLLM

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders ( http://arxiv.org/abs/2409.06635v1 )

ライセンス: Link先を確認
Wenyu Zhang, Shuo Sun, Bin Wang, Xunlong Zou, Zhuohan Liu, Yingxu He, Geyu Lin, Nancy F. Chen, Ai Ti Aw, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、自然言語処理能力が大幅に向上し、音声や音声の入力をテキストとともに処理し理解するオーディオLLMの開発が容易になった。 既存のAudioLLMは、訓練済みのオーディオエンコーダと、訓練済みのLCMを組み合わせており、その後特定のオーディオタスクで微調整される。 しかし、事前訓練されたオーディオエンコーダは、新しいタスクやデータセットの機能をキャプチャするために容量を制限している。 そこで本研究では,<weak>エンコーダ(MoWE)の混合物をAudioLLMフレームワークに組み込むことを提案する。 MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。 実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。

The rapid advancements in large language models (LLMs) have significantly enhanced natural language processing capabilities, facilitating the development of AudioLLMs that process and understand speech and audio inputs alongside text. Existing AudioLLMs typically combine a pre-trained audio encoder with a pre-trained LLM, which are subsequently finetuned on specific audio tasks. However, the pre-trained audio encoder has constrained capacity to capture features for new tasks and datasets. To address this, we propose to incorporate mixtures of `weak' encoders (MoWE) into the AudioLLM framework. MoWE supplements a base encoder with a pool of relatively light weight encoders, selectively activated based on the audio input to enhance feature extraction without significantly increasing model size. Our empirical results demonstrate that MoWE effectively improves multi-task performance, broadening the applicability of AudioLLMs to more diverse audio tasks.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# 制限付き進化による誤り軽減

Error Mitigation by Restricted Evolution ( http://arxiv.org/abs/2409.06636v1 )

ライセンス: Link先を確認
Gaurav Saxena, Thi Ha Kyaw, (参考訳) 誤差軽減技術は、短期量子コンピュータの能力を拡張するのに役立っているが、しばしばノイズレベルの指数的なリソーススケーリングに悩まされる。 この制限に対処するため,制約付き進化(EMRE)による実行時エラー除去という新しいアプローチを導入する。 数値シミュレーションにより、EMREは一定のサンプル複雑性を維持しつつ、確率的エラーキャンセル(PEC)の性能を上回ることを示した。 さらに, PEC と EMRE を特殊なケースとして含む連続的なエラー軽減プロトコルであるHybrid EMRE (HEMRE) を探索する。 HEMREは変更可能なバイアスパラメータを提供し、サンプルの複雑性とエラーの低減のトレードオフを可能にする。 したがって, 誤差軽減プロトコルは, 計算オーバーヘッドと誤差軽減のバランスをとるための柔軟性を提供し, 短期および早期のフォールト耐性量子デバイスの実用化要件に適合する。

Error mitigation techniques, while instrumental in extending the capabilities of near-term quantum computers, often suffer from exponential resource scaling with noise levels. To address this limitation, we introduce a novel approach, constant runtime Error Mitigation by Restricted Evolution (EMRE). Through numerical simulations, we demonstrate that EMRE surpasses the performance of Probabilistic Error Cancellation (PEC) while maintaining constant sample complexity. Moreover, we uncover a continuous family of error mitigation protocols, Hybrid EMREs (HEMREs), encompassing PEC and EMRE as special cases. HEMREs offer a tunable bias parameter, allowing for a trade-off between sample complexity and error reduction. Thus, our error mitigation protocols provide flexibility in balancing error mitigation with computational overhead, catering to practical application requirements of near-term and early-fault tolerant quantum devices.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# TeXBLEU:LaTeXフォーマット評価のための自動メトリック

TeXBLEU: Automatic Metric for Evaluate LaTeX Format ( http://arxiv.org/abs/2409.06639v1 )

ライセンス: Link先を確認
Kyudan Jung, Nam-Joon Kim, Hyongon Ryu, Sieun Hyeon, Seung-jun Lee, Hyeok-jae Lee, (参考訳) LaTeXは、特に科学、技術、数学、計算機科学の分野において、特別なフォーマットで文書を作成するのに非常に適している。 言語モデルを用いたLaTeX形式における数式の利用は増加しているが,評価基準は存在しない。 本研究では,翻訳タスクに広く用いられているn-gram-based BLEU測定値に基づいて,LaTeX形式の数学的表現に適した評価指標TeXBLEUを提案する。 提案したTeXBLEUは、arXiv紙データセットでトレーニングされた事前定義されたトークン化器と、微調整された埋め込みモデルを含む。 また、トークンの位置埋め込みについても検討している。 同時に、TeXBLEUはn-gramに基づいてトークンを比較し、対数和の指数を使ってスコアを計算する。 実験結果から,TeXBLEUは,1000個のデータポイントを含むMathBridgeデータセットのテストデータセットにおける人的評価データと比較して,BLEU, Rouge, CER, WERなどの従来の評価指標よりも優れていた。 人的評価値の平均相関係数は0.71で,既存の指標の中で人的評価値との相関が高かったBLEUと比較して87%向上した。 コードはhttps://github.com/KyuDan1/TeXBLEUで公開されている。

LaTeX is highly suited to creating documents with special formatting, particularly in the fields of science, technology, mathematics, and computer science. Despite the increasing use of mathematical expressions in LaTeX format with language models, there are no evaluation metrics for evaluating them. In this study, we propose TeXBLEU, an evaluation metric tailored for mathematical expressions in LaTeX format, based on the n-gram-based BLEU metric that is widely used for translation tasks. The proposed TeXBLEU includes a predefined tokenizer trained on the arXiv paper dataset and a finetuned embedding model. It also considers the positional embedding of tokens. Simultaneously, TeXBLEU compares tokens based on n-grams and computes the score using exponentiation of a logarithmic sum, similar to the original BLEU. Experimental results show that TeXBLEU outperformed traditional evaluation metrics such as BLEU, Rouge, CER, and WER when compared to human evaluation data on the test dataset of the MathBridge dataset, which contains 1,000 data points. The average correlation coefficient with human evaluation was 0.71, which is an improvement of 87% compared with BLEU, which had the highest correlation with human evaluation data among the existing metrics. The code is available at https://github.com/KyuDan1/TeXBLEU.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# EyeCLIP:マルチモーダル眼科画像解析のための視覚言語基礎モデル

EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis ( http://arxiv.org/abs/2409.06644v1 )

ライセンス: Link先を確認
Danli Shi, Weiyi Zhang, Jiancheng Yang, Siyu Huang, Xiaolan Chen, Mayinuer Yusufu, Kai Jin, Shan Lin, Shunming Liu, Qing Zhang, Mingguang He, (参考訳) 緑内障、黄斑変性、糖尿病網膜症などの眼疾患の早期発見は、視力喪失の予防に不可欠である。 人工知能(AI)ファンデーションモデルはこれらの課題に対処する上で大きな可能性を秘めているが、既存の眼科ファンデーションモデルは、主に単一のモダリティに焦点をあてる一方で、眼疾患の診断には複数のモダリティが必要である。 批判的だが、しばしば見落とされがちな側面は、同一患者の様々なモダリティにまたがる多視点情報を活用することである。 さらに、眼疾患の長い尾部の性質のため、標準的な完全な教師なしまたは教師なしの学習アプローチは、しばしば苦労する。 したがって、より広い範囲の疾患を捉えるために臨床テキストを統合することが不可欠である。 部分テキストデータを用いた277万以上のマルチモーダル眼科画像を用いた視覚言語基盤モデルEyeCLIPを提案する。 大規模マルチモーダルなラベル付きラベル付きデータを完全に活用するために,自己教師付き再構成,マルチモーダル画像コントラスト学習,画像テキストコントラスト学習を組み合わせた事前学習戦略を導入し,複数のモーダルの共有表現を学習した。 14のベンチマークデータセットを用いて評価することにより、EyeCLIPは、眼疾患や全身疾患を含む幅広い下流タスクに移行し、疾患分類、視覚的質問応答、モーダル検索において最先端のパフォーマンスを達成することができる。 EyeCLIPは、従来の手法、特に現実世界のロングテールシナリオにおいて、数ショット、ゼロショットの能力を示す重要な進歩を示している。

Early detection of eye diseases like glaucoma, macular degeneration, and diabetic retinopathy is crucial for preventing vision loss. While artificial intelligence (AI) foundation models hold significant promise for addressing these challenges, existing ophthalmic foundation models primarily focus on a single modality, whereas diagnosing eye diseases requires multiple modalities. A critical yet often overlooked aspect is harnessing the multi-view information across various modalities for the same patient. Additionally, due to the long-tail nature of ophthalmic diseases, standard fully supervised or unsupervised learning approaches often struggle. Therefore, it is essential to integrate clinical text to capture a broader spectrum of diseases. We propose EyeCLIP, a visual-language foundation model developed using over 2.77 million multi-modal ophthalmology images with partial text data. To fully leverage the large multi-modal unlabeled and labeled data, we introduced a pretraining strategy that combines self-supervised reconstructions, multi-modal image contrastive learning, and image-text contrastive learning to learn a shared representation of multiple modalities. Through evaluation using 14 benchmark datasets, EyeCLIP can be transferred to a wide range of downstream tasks involving ocular and systemic diseases, achieving state-of-the-art performance in disease classification, visual question answering, and cross-modal retrieval. EyeCLIP represents a significant advancement over previous methods, especially showcasing few-shot, even zero-shot capabilities in real-world long-tail scenarios.
翻訳日:2024-09-11 16:49:06 公開日:2024-09-10
# 位相ホログラフィー形式における逐次量子回路による二重性

Duality via Sequential Quantum Circuit in the Topological Holography Formalism ( http://arxiv.org/abs/2409.06647v1 )

ライセンス: Link先を確認
Robijn Vanhove, Vibhu Ravindran, David T. Stephen, Xiao-Gang Wen, Xie Chen, (参考訳) 異なるように見えるが、同じ低エネルギー物理学を秘かに記述している2つの量子理論は、互いに双対であると言われている。 トポロジカルホログラフィ形式において実現されると、双対性はトポロジカル場理論の最上界におけるギャップ付き境界条件の変更に対応する。 本稿では, 位相ホログラフィ形式における双対性は, 上界に逐次量子回路を適用して実現可能であることを示す。 その結果、双対写像の前後のハミルトニアンは対応する対称性セクターで全く同じスペクトルを持ち、対応する低エネルギー固有状態の絡み合いは、少なくとも領域法用語によって異なる。

Two quantum theories which look different but are secretly describing the same low-energy physics are said to be dual to each other. When realized in the Topological Holography formalism, duality corresponds to changing the gapped boundary condition on the top boundary of a topological field theory, which determines the symmetry of the system, while not affecting the bottom boundary where all the dynamics take place. In this paper, we show that duality in the Topological Holography formalism can be realized with a Sequential Quantum Circuit applied to the top boundary. As a consequence, the Hamiltonians before and after the duality mapping have exactly the same spectrum in the corresponding symmetry sectors, and the entanglement in the corresponding low-energy eigenstates differs by at most an area law term.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# 深度による画像ベクトル化:深度秩序を有する凸形状層

Image Vectorization with Depth: convexified shape layers with depth ordering ( http://arxiv.org/abs/2409.06648v1 )

ライセンス: Link先を確認
Ho Law, Sung Ha Kang, (参考訳) 画像ベクトル化は、ラスタ画像をスケーラブルなベクトルグラフィックフォーマットに変換するプロセスである。 目的は、スケール可能なパラメータ化曲線によって画像の境界を表現しながら、画素化効果を効果的に除去することである。 本稿では, 形状間の深度秩序を考慮した新しい画像ベクトル化法を提案し, ベクトル化過程における形状の凸化に曲率ベースのインペインティングを用い, 与えられた色量化ラスタ画像において, 形状層として同一色の各連結成分を最初に定義し, それらの間の深度秩序を新たに提案した深度秩序エネルギーを用いて構築する。 すべての形状のグローバルな深度順序付けを有向グラフで記述し、グラフ内のサイクルを除去するエネルギーを提案する。 形状の深度秩序を構築した後,Eulerの弾性曲率に基づく変分インペインティングにより閉包領域を凸化し,大きな領域を塗布するためのModica-Mortolaダブルウェルポテンシャルエネルギーの安定性を活用する。 これは、形状の境界が滑らかに伸びているという人間の視覚的認識に続くものであり、形状が凸である可能性が高いと仮定する。 最後に、B\'{e}zier曲線を境界に当てはめ、ベクトル化をSVGファイルとして保存する。 これは画像のベクトル化のための新しい方法であり、画像を計算された深度順序でスケーラブルな形状の層に分解する。 このアプローチは、形状や画像の編集をより自然で直感的にする。 セマンティックベクター化のための形状層も検討する。 提案手法の有効性を検証するため,近年の層ベースベクトル化法との比較を行った。

Image vectorization is a process to convert a raster image into a scalable vector graphic format. Objective is to effectively remove the pixelization effect while representing boundaries of image by scaleable parameterized curves. We propose new image vectorization with depth which considers depth ordering among shapes and use curvature-based inpainting for convexifying shapes in vectorization process.From a given color quantized raster image, we first define each connected component of the same color as a shape layer, and construct depth ordering among them using a newly proposed depth ordering energy. Global depth ordering among all shapes is described by a directed graph, and we propose an energy to remove cycle within the graph. After constructing depth ordering of shapes, we convexify occluded regions by Euler's elastica curvature-based variational inpainting, and leverage on the stability of Modica-Mortola double-well potential energy to inpaint large regions. This is following human vision perception that boundaries of shapes extend smoothly, and we assume shapes are likely to be convex. Finally, we fit B\'{e}zier curves to the boundaries and save vectorization as a SVG file which allows superposition of curvature-based inpainted shapes following the depth ordering. This is a new way to vectorize images, by decomposing an image into scalable shape layers with computed depth ordering. This approach makes editing shapes and images more natural and intuitive. We also consider grouping shape layers for semantic vectorization. We present various numerical results and comparisons against recent layer-based vectorization methods to validate the proposed model.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# Kantrol:多次元およびフラクショナル最適制御問題の解法のための物理インフォームドKolmogorov-Arnoldネットワークフレームワーク

KANtrol: A Physics-Informed Kolmogorov-Arnold Network Framework for Solving Multi-Dimensional and Fractional Optimal Control Problems ( http://arxiv.org/abs/2409.06649v1 )

ライセンス: Link先を確認
Alireza Afzal Aghaei, (参考訳) 本稿では,Kantrolフレームワークを紹介し,Kolmogorov-Arnold Networks (KAN) を用いて連続時間変数を含む最適制御問題を解く。 ガウス二次方程式を用いて問題内の積分部分、特に積分微分状態方程式を近似する方法について説明する。 また、整数階数力学の正確な微分を計算するために自動微分がどのように用いられるかを示す一方、整数階数以外の分数微分に対しては、kanフレームワーク内で行列ベクトル積の離散化を用いる。 2次元熱偏微分方程式の最適制御を含む多次元問題に取り組む。 前方およびパラメータ同定の問題を網羅したシミュレーションの結果, カントロルフレームワークは, 精度と効率の点で, 古典的MLPよりも優れていたことが示唆された。

In this paper, we introduce the KANtrol framework, which utilizes Kolmogorov-Arnold Networks (KANs) to solve optimal control problems involving continuous time variables. We explain how Gaussian quadrature can be employed to approximate the integral parts within the problem, particularly for integro-differential state equations. We also demonstrate how automatic differentiation is utilized to compute exact derivatives for integer-order dynamics, while for fractional derivatives of non-integer order, we employ matrix-vector product discretization within the KAN framework. We tackle multi-dimensional problems, including the optimal control of a 2D heat partial differential equation. The results of our simulations, which cover both forward and parameter identification problems, show that the KANtrol framework outperforms classical MLPs in terms of accuracy and efficiency.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# マルチウェイクラスタデータを用いた因果関数の推定と推定

Estimation and Inference for Causal Functions with Multiway Clustered Data ( http://arxiv.org/abs/2409.06654v1 )

ライセンス: Link先を確認
Nan Liu, Yanbo Liu, Yuya Sasaki, (参考訳) 本稿では,マルチウェイクラスタリングにおける条件平均処理効果や連続処理効果などの一般的な因果関数の推定と一様推論手法を提案する。 因果関数は、高次元ニュアンスパラメータに依存する調整された(Neyman-orthogonal)信号の条件付き期待値として同定される。 本稿では,機械学習を用いて高次元ニュアンスパラメータを推定する2段階の手順を提案する。 2番目のステップでは、推定されたネイマン直交信号がサンプルサイズとともに次元が大きくなる基底関数の辞書に投影される。 この2段階の手順では、フルサンプルとマルチウェイのクロスフィット推定手法の両方を提案する。 これらの推定値に対して関数的極限理論が導かれる。 均一な信頼バンドを構築するために,マルチウェイクラスタ・ロバストスコアブートストラップと呼ばれる新しいリサンプリング手法を開発し,シーブスコアブートストラップ(Chen and Christensen, 2018)をマルチウェイクラスタリングによる新しい設定に拡張した。 大規模な数値シミュレーションにより,本手法が望ましい有限サンプル挙動を実現することを示す。 提案手法を適用し,アフリカにおける不信水準と歴史的奴隷貿易の因果関係を分析する。 本分析は,一様ゼロ効果の零仮説を否定し,高い貿易量に有意な影響を及ぼす不均一な処理効果を明らかにする。

This paper proposes methods of estimation and uniform inference for a general class of causal functions, such as the conditional average treatment effects and the continuous treatment effects, under multiway clustering. The causal function is identified as a conditional expectation of an adjusted (Neyman-orthogonal) signal that depends on high-dimensional nuisance parameters. We propose a two-step procedure where the first step uses machine learning to estimate the high-dimensional nuisance parameters. The second step projects the estimated Neyman-orthogonal signal onto a dictionary of basis functions whose dimension grows with the sample size. For this two-step procedure, we propose both the full-sample and the multiway cross-fitting estimation approaches. A functional limit theory is derived for these estimators. To construct the uniform confidence bands, we develop a novel resampling procedure, called the multiway cluster-robust sieve score bootstrap, that extends the sieve score bootstrap (Chen and Christensen, 2018) to the novel setting with multiway clustering. Extensive numerical simulations showcase that our methods achieve desirable finite-sample behaviors. We apply the proposed methods to analyze the causal relationship between mistrust levels in Africa and the historical slave trade. Our analysis rejects the null hypothesis of uniformly zero effects and reveals heterogeneous treatment effects, with significant impacts at higher levels of trade volumes.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# Sortformer: タイムスタンプとトークンのブリッジによる話者ダイアリゼーションとASRのシームレス統合

Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens ( http://arxiv.org/abs/2409.06656v1 )

ライセンス: Link先を確認
Taejin Park, Ivan Medennikov, Kunal Dhawan, Weiqing Wang, He Huang, Nithin Rao Koluguri, Krishna C. Puvvada, Jagadeesh Balam, Boris Ginsburg, (参考訳) 本稿では、従来のエンドツーエンドのダイアリゼーションモデルと比較して、従来とは異なる目的で訓練された、話者ダイアリゼーションのための新しいニューラルモデルであるSoltformerを提案する。 話者ダイアリゼーションにおける置換問題は、長い間重要な課題とみなされてきた。 従来のほとんどのエンドツーエンドダイアリゼーションシステムは置換不変損失(PIL)を採用しており、最も低い誤差をもたらす置換を最適化している。 対照的に、Solt Lossを導入し、PILの有無に関わらず、ダイアリゼーションモデルで順列を自律的に解決できるようにする。 我々は、Solt LossとPILを組み合わせることで、PILを専門に訓練した最先端のエンドツーエンドダイアリゼーションモデルと性能を競い合うことを実証した。 重要なことは、Soltformerを話者監視モデルとして活用し、正弦波カーネル関数を用いたASRエンコーダ状態に話者ラベル推定を組み込んだ合理化マルチスピーカASRアーキテクチャを提案する。 提案手法では,話者の順列化問題をソート対象によって解決し,話者ラベルタイムスタンプと話者トークンを効果的にブリッジする。 本実験では, 話者の監督により強化されたマルチスピーカASRアーキテクチャにより, アダプタ技術による性能向上が図られた。 コードとトレーニングされたモデルがNVIDIA NeMoフレームワークを介して公開される

We propose Sortformer, a novel neural model for speaker diarization, trained with unconventional objectives compared to existing end-to-end diarization models. The permutation problem in speaker diarization has long been regarded as a critical challenge. Most prior end-to-end diarization systems employ permutation invariant loss (PIL), which optimizes for the permutation that yields the lowest error. In contrast, we introduce Sort Loss, which enables a diarization model to autonomously resolve permutation, with or without PIL. We demonstrate that combining Sort Loss and PIL achieves performance competitive with state-of-the-art end-to-end diarization models trained exclusively with PIL. Crucially, we present a streamlined multispeaker ASR architecture that leverages Sortformer as a speaker supervision model, embedding speaker label estimation within the ASR encoder state using a sinusoidal kernel function. This approach resolves the speaker permutation problem through sorted objectives, effectively bridging speaker-label timestamps and speaker tokens. In our experiments, we show that the proposed multispeaker ASR architecture, enhanced with speaker supervision, improves performance via adapter techniques. Code and trained models will be made publicly available via the NVIDIA NeMo framework
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# Amortized Stabilizer Rényi Entropy of Quantum Dynamics (特集:量子力学)

Amortized Stabilizer Rényi Entropy of Quantum Dynamics ( http://arxiv.org/abs/2409.06659v1 )

ライセンス: Link先を確認
Chengkai Zhu, Yu-Ao Chen, Zanqiu Shen, Zhiping Liu, Zhan Yu, Xin Wang, (参考訳) 量子力学がどれだけ非安定性を生み出すかの秘密を明らかにすることは、量子優位性を達成するための重要なリソースであり、フォールトトレラントな量子計算を実現するのに不可欠である。 本研究では、量子力学の非安定度生成能力を定量化するユニタリ演算のためのマジックモノトンである、$\alpha$-stabilizer R'eny entropyを導入する。 Amortization は量子力学のマジックを定量化する鍵であり、$\alpha$-stabilizer R\'enyi entropy を考えるとき、入力状態の非安定化によって非安定化生成が拡張できることを明らかにする。 我々は、計算と基本的関心の量子力学の非安定化性資源の研究において、償却された$\alpha$-stabilizer R\'eny エントロピーの汎用性を実証する。 特に、量子フーリエ変換の$T$カウントと1次元ハイゼンベルク・ハミルトニアンの量子進化に関する改善された下界を確立し、このツールの量子優位性とフォールトトレラント量子計算における対応するコストについて検討する。

Unraveling the secrets of how much nonstabilizerness a quantum dynamic can generate is crucial for harnessing the power of magic states, the essential resources for achieving quantum advantage and realizing fault-tolerant quantum computation. In this work, we introduce the amortized $\alpha$-stabilizer R\'enyi entropy, a magic monotone for unitary operations that quantifies the nonstabilizerness generation capability of quantum dynamics. Amortization is key in quantifying the magic of quantum dynamics, as we reveal that nonstabilizerness generation can be enhanced by prior nonstabilizerness in input states when considering the $\alpha$-stabilizer R\'enyi entropy, while this is not the case for robustness of magic or stabilizer extent. We demonstrate the versatility of the amortized $\alpha$-stabilizer R\'enyi entropy in investigating the nonstabilizerness resources of quantum dynamics of computational and fundamental interest. In particular, we establish improved lower bounds on the $T$-count of quantum Fourier transforms and the quantum evolutions of one-dimensional Heisenberg Hamiltonians, showcasing the power of this tool in studying quantum advantages and the corresponding cost in fault-tolerant quantum computation.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# 重力ビュー座標による世界周囲の人間の運動回復

World-Grounded Human Motion Recovery via Gravity-View Coordinates ( http://arxiv.org/abs/2409.06662v1 )

ライセンス: Link先を確認
Zehong Shen, Huaijin Pi, Yan Xia, Zhi Cen, Sida Peng, Zechen Hu, Hujun Bao, Ruizhen Hu, Xiaowei Zhou, (参考訳) 本研究では,モノクロ映像から人間の世界の動きを復元する新しい手法を提案する。 主な課題は、列によって異なる世界座標系を定義することの曖昧さにある。 従来のアプローチでは、相対的な動きを自己回帰的に予測することでこの問題を緩和しようとするが、誤りを蓄積する傾向にある。 代わりに、世界重力とカメラビューの方向で定義される新しい重力ビュー座標系において、人間のポーズを推定する手法を提案する。 提案したGVシステムは,ビデオフレーム毎に自然に重力に整合し,一意に定義され,画像位置マッピングの学習のあいまいさを大幅に低減する。 推定されたポーズは、カメラ回転を用いて世界座標系に戻され、グローバルなモーションシーケンスを形成する。 さらに、フレーム単位の推定は自動回帰法におけるエラーの蓄積を避ける。 In-theldベンチマークの実験により、我々の手法は、カメラ空間とワールドグラウンドの設定の両方においてよりリアルな動きを回復し、精度とスピードの両方で最先端の手法より優れていることが示された。 コードはhttps://zju3dv.github.io/gvhmr/で公開されている。

We present a novel method for recovering world-grounded human motion from monocular video. The main challenge lies in the ambiguity of defining the world coordinate system, which varies between sequences. Previous approaches attempt to alleviate this issue by predicting relative motion in an autoregressive manner, but are prone to accumulating errors. Instead, we propose estimating human poses in a novel Gravity-View (GV) coordinate system, which is defined by the world gravity and the camera view direction. The proposed GV system is naturally gravity-aligned and uniquely defined for each video frame, largely reducing the ambiguity of learning image-pose mapping. The estimated poses can be transformed back to the world coordinate system using camera rotations, forming a global motion sequence. Additionally, the per-frame estimation avoids error accumulation in the autoregressive methods. Experiments on in-the-wild benchmarks demonstrate that our method recovers more realistic motion in both the camera space and world-grounded settings, outperforming state-of-the-art methods in both accuracy and speed. The code is available at https://zju3dv.github.io/gvhmr/.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# データ収集不要マスケ動画モデリング

Data Collection-free Masked Video Modeling ( http://arxiv.org/abs/2409.06665v1 )

ライセンス: Link先を確認
Yuchi Ishikawa, Masayoshi Kondo, Yoshimitsu Aoki, (参考訳) 事前トレーニングされたビデオトランスフォーマーは、一般的に大量のデータを必要とし、データ収集コストとプライバシ、ライセンシング、固有のバイアスに関連する関心事に関して重要な課題を提示する。 データの合成は、これらの問題を解決するための有望な方法の1つだが、合成データのみを事前学習することは、独自の課題がある。 本稿では,手軽で低コストな静的画像を利用する,ビデオのための効果的な自己教師型学習フレームワークを提案する。 具体的には,Pseudo Motion Generator (PMG) モジュールを定義し,画像から擬似動画を生成する。 これらの擬似モーションビデオは、マスク付きビデオモデリングに活用される。 提案手法は合成画像にも適用可能であり,データ収集コストや実際のデータに対する関心事から,ビデオの事前学習を完全に解放する。 動作認識タスクの実験を通じて、このフレームワークは擬似モーションビデオによる時空間的特徴の効果的な学習を可能にし、静止画像を用いた既存手法よりも大幅に改善され、実ビデオと合成ビデオの両方で部分的に性能が向上することが実証された。 これらの結果は、ビデオトランスフォーマーがマスク付きビデオモデリングを通して学んだことの断片を明らかにする。

Pre-training video transformers generally requires a large amount of data, presenting significant challenges in terms of data collection costs and concerns related to privacy, licensing, and inherent biases. Synthesizing data is one of the promising ways to solve these issues, yet pre-training solely on synthetic data has its own challenges. In this paper, we introduce an effective self-supervised learning framework for videos that leverages readily available and less costly static images. Specifically, we define the Pseudo Motion Generator (PMG) module that recursively applies image transformations to generate pseudo-motion videos from images. These pseudo-motion videos are then leveraged in masked video modeling. Our approach is applicable to synthetic images as well, thus entirely freeing video pre-training from data collection costs and other concerns in real data. Through experiments in action recognition tasks, we demonstrate that this framework allows effective learning of spatio-temporal features through pseudo-motion videos, significantly improving over existing methods which also use static images and partially outperforming those using both real and synthetic videos. These results uncover fragments of what video transformers learn through masked video modeling.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# LLaMA-Omni:大規模言語モデルとのシームレス音声対話

LLaMA-Omni: Seamless Speech Interaction with Large Language Models ( http://arxiv.org/abs/2409.06666v1 )

ライセンス: Link先を確認
Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng, (参考訳) GPT-4oのようなモデルは、音声による大規模言語モデル(LLM)とのリアルタイムインタラクションを可能にし、従来のテキストベースのインタラクションに比べてユーザエクスペリエンスを著しく向上させる。 しかし、オープンソースのLLMをベースとした音声対話モデルの構築方法については、まだ検討されていない。 そこで我々はLLaMA-Omniを提案する。LLaMA-Omniは低レイテンシで高品質な音声対話を実現するために設計された新しいモデルアーキテクチャである。 LLaMA-Omniは、事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。 音声の書き起こしは不要であり、非常に低レイテンシで音声命令から直接テキストと音声の応答を同時に生成することができる。 我々は最新のLlama-3.1-8B-Instructモデルに基づいてモデルを構築している。 モデルと音声対話のシナリオを一致させるために,200K音声命令と対応する音声応答を含むInstructS2S-200Kというデータセットを構築した。 実験結果から,LLaMA-Omniは従来の音声言語モデルと比較して,コンテンツとスタイルの双方で応答性が良く,応答遅延は226msであることがわかった。 さらに、LLaMA-Omniのトレーニングにはわずか4つのGPUで3日もかからない。

Models like GPT-4o enable real-time interaction with large language models (LLMs) through speech, significantly enhancing user experience compared to traditional text-based interaction. However, there is still a lack of exploration on how to build speech interaction models based on open-source LLMs. To address this, we propose LLaMA-Omni, a novel model architecture designed for low-latency and high-quality speech interaction with LLMs. LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM, and a streaming speech decoder. It eliminates the need for speech transcription, and can simultaneously generate text and speech responses directly from speech instructions with extremely low latency. We build our model based on the latest Llama-3.1-8B-Instruct model. To align the model with speech interaction scenarios, we construct a dataset named InstructS2S-200K, which includes 200K speech instructions and corresponding speech responses. Experimental results show that compared to previous speech-language models, LLaMA-Omni provides better responses in both content and style, with a response latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3 days on just 4 GPUs, paving the way for the efficient development of speech-language models in the future.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# DA-MoE:Mixture-of-Expertsモデルのための動的エキスパートアロケーションを目指して

DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models ( http://arxiv.org/abs/2409.06669v1 )

ライセンス: Link先を確認
Maryam Akhavan Aghdam, Hongpeng Jin, Yanzhao Wu, (参考訳) トランスフォーマーベースのMixture-of-Experts (MoE)モデルは、自然言語処理(NLP)における最近の技術進歩を推進している。 これらのMoEモデルはルータ機構を採用し、どの専門家が入力トークンをルーティングするためにアクティベートするかを決定する。 しかし、既存のルータ機構は各トークンに一定数の専門家を割り当て、異なる入力トークンの重要性を無視する。 本研究では,Mixture-of-Experts(DA-MoE)モデルに対する可変数のエキスパートを効果的なトークン重要度尺度に基づいて動的にアロケートする,新しい動的ルータ機構を提案する。 まず,トランスフォーマーの注意機構がトークンの重要度を計算する自然な方法であることを示す。 第2に,各入力トークンに対して,最適な専門家数(K)を効果的に決定し,上位K専門家を割り当てる動的ルータ機構を提案する。 第三に、いくつかのベンチマークデータセットに関する包括的な実験では、私たちのDA-MoEアプローチが、人気の高いGLUEベンチマーク上で、最先端のTransformerベースのMoEモデルよりも一貫して優れています。

Transformer-based Mixture-of-Experts (MoE) models have been driving several recent technological advancements in Natural Language Processing (NLP). These MoE models adopt a router mechanism to determine which experts to activate for routing input tokens. However, existing router mechanisms allocate a fixed number of experts to each token, which neglects the varying importance of different input tokens. In this study, we propose a novel dynamic router mechanism that Dynamically Allocates a variable number of experts for Mixture-of-Experts (DA-MoE) models based on an effective token importance measure. First, we show that the Transformer attention mechanism provides a natural and effective way of calculating token importance. Second, we propose a dynamic router mechanism that effectively decides the optimal number of experts (K) and allocates the top-K experts for each input token. Third, comprehensive experiments on several benchmark datasets demonstrate that our DA-MoE approach consistently outperforms the state-of-the-art Transformer based MoE model on the popular GLUE benchmark.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# YOLOを用いた甘いオレンジ葉病検出のためのセマンティックセグメンテーション手法

A Semantic Segmentation Approach on Sweet Orange Leaf Diseases Detection Utilizing YOLO ( http://arxiv.org/abs/2409.06671v1 )

ライセンス: Link先を確認
Sabit Ahamed Preanto, Md. Taimur Ahad, Yousuf Rayhan Emon, Sumaya Mustofa, Md Alamin, (参考訳) 本研究は、YOLOv8のような高度な人工知能モデルを利用して、甘いオレンジの葉の病気を診断する高度な手法を提案する。 重要な農業生産物としての重要性から、甘いオレンジはその収量と品質の両方に有害な影響を及ぼす様々な病気から重大な脅威に遭遇する。 従来の疾患検出法は, 主に手動検査に依存しており, 誤診が頻発し, 治療が遅れ, 金銭的損失が増大する。 この課題に応えて、この研究はYOLOv8を利用して、物体の検出と画像解析の能力を活用している。 YOLOv8はその迅速かつ正確な性能で認識され、VITはその詳細な特徴抽出能力で認識されている。 興味深いことに、トレーニングと検証の段階では、YOLOv8は80.4%の精度を示し、VITは99.12%の精度を示し、農業における病気の検出を変革する可能性を示した。 この研究は、農業におけるAI技術の実装に関する実践的課題を包括的に調査し、計算要求とユーザアクセシビリティを包含し、より広範な使用のために実行可能なソリューションを提供する。 さらに, 環境配慮, 特に農薬使用量の削減の可能性を強調し, 持続可能な農業と環境保全の促進を図っている。 これらの発見は、農業におけるAIの応用に関する啓発的な洞察を与え、より効果的で持続可能で技術的に進んだ農業方法への移行を示唆している。 本研究は、特定の農業領域におけるYOLOv8の有効性だけでなく、作物管理や持続可能な農業実践の幅広い応用を含むさらなる研究の基盤となる。

This research introduces an advanced method for diagnosing diseases in sweet orange leaves by utilising advanced artificial intelligence models like YOLOv8 . Due to their significance as a vital agricultural product, sweet oranges encounter significant threats from a variety of diseases that harmfully affect both their yield and quality. Conventional methods for disease detection primarily depend on manual inspection which is ineffective and frequently leads to errors, resulting in delayed treatment and increased financial losses. In response to this challenge, the research utilized YOLOv8 , harnessing their proficiencies in detecting objects and analyzing images. YOLOv8 is recognized for its rapid and precise performance, while VIT is acknowledged for its detailed feature extraction abilities. Impressively, during both the training and validation stages, YOLOv8 exhibited a perfect accuracy of 80.4%, while VIT achieved an accuracy of 99.12%, showcasing their potential to transform disease detection in agriculture. The study comprehensively examined the practical challenges related to the implementation of AI technologies in agriculture, encompassing the computational demands and user accessibility, and offering viable solutions for broader usage. Moreover, it underscores the environmental considerations, particularly the potential for reduced pesticide usage, thereby promoting sustainable farming and environmental conservation. These findings provide encouraging insights into the application of AI in agriculture, suggesting a transition towards more effective, sustainable, and technologically advanced farming methods. This research not only highlights the efficacy of YOLOv8 within a specific agricultural domain but also lays the foundation for further studies that encompass a broader application in crop management and sustainable agricultural practices.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# AIによる不確実なリスクの保険:最後のリゾートの保険会社としての国家

Insuring Uninsurable Risks from AI: The State as Insurer of Last Resort ( http://arxiv.org/abs/2409.06672v1 )

ライセンス: Link先を確認
Cristian Trout, (参考訳) 多くの専門家は、AIシステムは遅かれ早かれ、現実的なリスクを含む不確実なリスクを生じさせると考えている。 このような大惨事が発生した場合、いかなる当事者も説明責任のある元職に就けることはほとんどない。 本稿は,AI開発者を対象とした政府主導の強制刑罰プログラムである,新しいソリューションを提案する。 このプログラムは、社会的に最適なケアレベルを誘導するために、リスク価格の償還手数料を使用する。 リスク見積は、インセンティブ付き開発者を含む専門家の調査によって決定される。 ベイズ真理サーム機構は、正直で精力的な反応を刺激するために用いられる。 代替手段と比較して、このアプローチは間違いなくすべてのプライベート情報をうまく活用し、報酬を下げるために緩和すべきリスクについて、開発者に対してより明確なシグナルを提供する。 この公共財の最適供給を誘導するために、資金マッチング機構(Quadratic Financing)を採用することにより、開発者が必要とする安全研究資金の収集手数料の使用が推奨されている。 Quadratic Financingの下では、安全研究プロジェクトは開発者からのプライベートなコントリビューションを競い合う。

Many experts believe that AI systems will sooner or later pose uninsurable risks, including existential risks. This creates an extreme judgment-proof problem: few if any parties can be held accountable ex post in the event of such a catastrophe. This paper proposes a novel solution: a government-provided, mandatory indemnification program for AI developers. The program uses risk-priced indemnity fees to induce socially optimal levels of care. Risk-estimates are determined by surveying experts, including indemnified developers. The Bayesian Truth Serum mechanism is employed to incent honest and effortful responses. Compared to alternatives, this approach arguably better leverages all private information, and provides a clearer signal to indemnified developers regarding what risks they must mitigate to lower their fees. It's recommended that collected fees be used to help fund the safety research developers need, employing a fund matching mechanism (Quadratic Financing) to induce an optimal supply of this public good. Under Quadratic Financing, safety research projects would compete for private contributions from developers, signaling how much each is to be supplemented with public funds.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# 破滅的損失の責任と保険--原子力発電とAIの教訓

Liability and Insurance for Catastrophic Losses: the Nuclear Power Precedent and Lessons for AI ( http://arxiv.org/abs/2409.06673v1 )

ライセンス: Link先を確認
Cristian Trout, (参考訳) AIシステムがより自律的で有能になるにつれて、専門家はそれらが破滅的な損失を引き起こす可能性があると警告する。 この論文は、原子力産業が設定した成功事例に基づいて、フロンティアAIモデルの開発者は、危機的AI事故(CAIO)による損害に対して限定的で厳格で排他的な第三者責任を負わなければならない、と論じている。 CAIOの責任を負う強制保険は、開発者の判断責任を克服し、勝者の呪いのダイナミクスを緩和し、保険会社の準規制能力を活用するために推奨される。 類似の原子力の文脈からの理論的議論と観察に基づいて、保険会社は、AIからの重細なリスクに対する保険のコンテキストにおいて、因果リスクモデリング、監視、厳格な規制のためのロビー活動、損失防止ガイダンスの混合に関与することが期待されている。 規制の代用ではないが、明確な責任の割り当てと強制保険は、リスクモデリングと安全な設計に資源を効率的に割り当てるのに役立ち、将来の規制努力を促進する。

As AI systems become more autonomous and capable, experts warn of them potentially causing catastrophic losses. Drawing on the successful precedent set by the nuclear power industry, this paper argues that developers of frontier AI models should be assigned limited, strict, and exclusive third party liability for harms resulting from Critical AI Occurrences (CAIOs) - events that cause or easily could have caused catastrophic losses. Mandatory insurance for CAIO liability is recommended to overcome developers' judgment-proofness, mitigate winner's curse dynamics, and leverage insurers' quasi-regulatory abilities. Based on theoretical arguments and observations from the analogous nuclear power context, insurers are expected to engage in a mix of causal risk-modeling, monitoring, lobbying for stricter regulation, and providing loss prevention guidance in the context of insuring against heavy-tail risks from AI. While not a substitute for regulation, clear liability assignment and mandatory insurance can help efficiently allocate resources to risk-modeling and safe design, facilitating future regulatory efforts.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# グラフラプラシアン正規化器の展開による解釈可能なDenoiserの構成

Constructing an Interpretable Deep Denoiser by Unrolling Graph Laplacian Regularizer ( http://arxiv.org/abs/2409.06676v1 )

ライセンス: Link先を確認
Seyed Alireza Hosseini, Tam Thuc Do, Gene Cheung, Yuichi Tanaka, (参考訳) 画像復号器はPlug-and-Play (PnP)アーキテクチャを介して幅広い復元問題に利用できる。 本稿では,グラフラプラシアン正則化器(GLR)を先行信号として備えた最大アフターリ(MAP)問題に対する解を解き放つことにより,解釈可能なグラフベースディープデノイザ(GDD)を構築するための一般的な枠組みを提案する。 穏やかな条件下で、任意の (pseudo-)linear denoiser $\boldsymbol \Psi$ が GLR を用いて正規化されたMAP分解問題の解に写像できることを示す最近の定理を利用して、まずグラフ Laplacian matrix $\mathbf L$ を $\boldsymbol \Psi^{-1}$ の truncated Taylor Series Expansion (TSE) を介して初期化する。 次に、共役勾配(CG)アルゴリズムの反復をフィードフォワードネットワークとして一連のニューラルネットワーク層にアンロールすることでMAP線形系解を計算する。 結果として得られるGDDネットワークは、"graph-interpretable"であり、パラメータカウントが低く、$\mathbf L$が既知の高性能デノイザである$\boldsymbol \Psi$から導かれるため、初期化が容易である。 実験結果から,GDDは競合に比べて競合画像のデノゲーション性能が向上するが,パラメータがはるかに少なく,共変量に強いことが示唆された。

An image denoiser can be used for a wide range of restoration problems via the Plug-and-Play (PnP) architecture. In this paper, we propose a general framework to build an interpretable graph-based deep denoiser (GDD) by unrolling a solution to a maximum a posteriori (MAP) problem equipped with a graph Laplacian regularizer (GLR) as signal prior. Leveraging a recent theorem showing that any (pseudo-)linear denoiser $\boldsymbol \Psi$, under mild conditions, can be mapped to a solution of a MAP denoising problem regularized using GLR, we first initialize a graph Laplacian matrix $\mathbf L$ via truncated Taylor Series Expansion (TSE) of $\boldsymbol \Psi^{-1}$. Then, we compute the MAP linear system solution by unrolling iterations of the conjugate gradient (CG) algorithm into a sequence of neural layers as a feed-forward network -- one that is amenable to parameter tuning. The resulting GDD network is "graph-interpretable", low in parameter count, and easy to initialize thanks to $\mathbf L$ derived from a known well-performing denoiser $\boldsymbol \Psi$. Experimental results show that GDD achieves competitive image denoising performance compared to competitors, but employing far fewer parameters, and is more robust to covariate shift.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# E2LLM: 長期理解と推論のためのエンコーダ拡張大言語モデル

E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning ( http://arxiv.org/abs/2409.06679v1 )

ライセンス: Link先を確認
Zihan Liao, Jun Wang, Hang Yu, Lingxiao Wei, Jianguo Li, Jun Wang, Wei Zhang, (参考訳) LLM(Large Language Models)の領域では、多ラウンド対話、コード生成、文書要約といったタスクにおいて、長いコンテキストを処理する能力がますます重要になっている。 本稿では、長文性能の向上、計算複雑性の低減、事前学習したモデルを総合的に「不可能な三角形」と呼ぶことの課題に対処する。 本稿では,このパラドックスを効果的にナビゲートする新しいアプローチであるE2LLM(Encoder Elongated Large Language Models)を紹介する。 この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。 LLMによるソフトプロンプトの理解を容易にするために,エンコーダ出力の再構築と長文命令の微調整に着目した2つのトレーニング目標が採用された。 実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。 我々のフレームワークはこの分野において重要な進歩を示し、効果的な長文モデリングに寄与する。

In the realm of Large Language Models (LLMs), the ability to process long contexts is increasingly crucial for tasks such as multi-round dialogues, code generation, and document summarization. This paper addresses the challenges of enhancing the long-context performance, reducing computational complexity, and leveraging pretrained models collectively termed the "impossible triangle." We introduce E2LLM (Encoder Elongated Large Language Models), a novel approach that effectively navigates this paradox. The method involves splitting long contexts into chunks, compressing each into embedding vectors via a pretrained text encoder, and utilizing an adapter to align these representations with a decoder-only LLM. Two training objectives, focusing on reconstruction of the encoder output and long-context instruction fine-tuning, are employed to facilitate the understanding of soft prompts by the LLM. Experimental results demonstrate that E2LLM achieves superior performance in long-context scenarios while balancing efficiency, performance, and compatibility with pretrained models. Our framework thus represents a significant advancement in the field, contributing to effective long-text modeling.
翻訳日:2024-09-11 16:39:07 公開日:2024-09-10
# フーリエ解析による量子機械学習の周波数原理

Frequency principle for quantum machine learning via Fourier analysis ( http://arxiv.org/abs/2409.06682v1 )

ライセンス: Link先を確認
Yi-Hang Xu, Dan-Bo Zhang, (参考訳) 量子機械学習は、量子技術の最もエキサイティングな応用の1つである。 集中的な研究の下では、量子機械学習のトレーニングプロセスは比較的曖昧であり、その量子的優位性は十分に説明されていない。 本稿では、フーリエ解析の観点から量子ニューラルネットワークの学習過程について考察する。 目的関数の一次周波数範囲内の周波数を他の周波数よりも高速に学習するパラメータ化量子回路の周波数原理を実験的に提案する。 パラメータ化量子回路を低, 中, 高周波数関数として初期化し, トレーニング中の各周波数の収束挙動を観察することにより, 曲線フィッティング問題における周波数原理を詳しく検討する。 さらに、量子ニューラルネットワークカーネルによる残基の進化を研究することによって収束挙動を解明する。 さらに、周波数原理は、量子優位性が証明可能な離散対数問題で検証される。 我々の研究は、トレーニングプロセスから量子的優位性を理解するための新しい道のりを示唆している。

Quantum machine learning is one of the most exciting potential applications of quantum technology. While under intensive studies, the training process of quantum machine learning is relatively ambiguous and its quantum advantages are not very completely explained. Here we investigate the training process of quantum neural networks from the perspective of Fourier analysis. We empirically propose a frequency principle for parameterized quantum circuits that preferentially train frequencies within the primary frequency range of the objective function faster than other frequencies. We elaborate on the frequency principle in a curve fitting problem by initializing the parameterized quantum circuits as low, medium, and high-frequency functions and then observing the convergence behavior of each frequency during training. We further explain the convergence behavior by investigating the evolution of residues with quantum neural tangent kernels. Moreover, the frequency principle is verified with the discrete logarithmic problem for which the quantum advantage is provable. Our work suggests a new avenue for understanding quantum advantage from the training process.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# Alignist: ハウジング形状と対応によるCADインフォームド配向分布推定

Alignist: CAD-Informed Orientation Distribution Estimation by Fusing Shape and Correspondences ( http://arxiv.org/abs/2409.06683v1 )

ライセンス: Link先を確認
Shishir Reddy Vutukur, Rasmus Laurvig Haugaard, Junwen Huang, Benjamin Busam, Tolga Birdal, (参考訳) オブジェクトのポーズ分布の推定は、ロボット工学において、対称オブジェクトのより良い経路計画とハンドリングのために不可欠である。 近年の分布推定手法は,CADモデルが存在しない場合の1ポーズ推定確率を最大化することにより,コントラスト学習に基づくアプローチを採用している。 CADモデルを用いて得られた対応分布と形状情報の対称性を利用したポーズ分布推定手法を提案する。 対照的な学習に基づくアプローチは、現実的なシナリオでは不可能な分布を適切に学習するために、異なる視点からの訓練画像の総量を必要とする。 その代わり、CADモデルから対応分布と形状情報を活用できるパイプラインを提案し、後にポーズ分布を学習する。 さらに、画像に条件付けされたポーズ分布を学習する前に、対応に基づくポーズ分布へのアクセスは、分布間の損失を公式化するのに役立ちます。 配信に関する以前の知識は、ネットワークがよりシャープなモードに焦点を合わせるのにも役立ちます。 CADに先行して,本手法はより高速に収束し,一つのモードに焦点を絞った対照的な手法とは異なり,有効な全てのモードの近辺の分布を学習することで,より正確な分布を学習する。 SYMSOL-IおよびT-Lessデータセットのベンチマーク結果を得た。

Object pose distribution estimation is crucial in robotics for better path planning and handling of symmetric objects. Recent distribution estimation approaches employ contrastive learning-based approaches by maximizing the likelihood of a single pose estimate in the absence of a CAD model. We propose a pose distribution estimation method leveraging symmetry respecting correspondence distributions and shape information obtained using a CAD model. Contrastive learning-based approaches require an exhaustive amount of training images from different viewpoints to learn the distribution properly, which is not possible in realistic scenarios. Instead, we propose a pipeline that can leverage correspondence distributions and shape information from the CAD model, which are later used to learn pose distributions. Besides, having access to pose distribution based on correspondences before learning pose distributions conditioned on images, can help formulate the loss between distributions. The prior knowledge of distribution also helps the network to focus on getting sharper modes instead. With the CAD prior, our approach converges much faster and learns distribution better by focusing on learning sharper distribution near all the valid modes, unlike contrastive approaches, which focus on a single mode at a time. We achieve benchmark results on SYMSOL-I and T-Less datasets.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# ガス充填中空コアファイバの量子周波数変換における絡み合い伝達

Entanglement transfer during quantum frequency conversion in gas-filled hollow-core fibers ( http://arxiv.org/abs/2409.06684v1 )

ライセンス: Link先を確認
Tasio Gonzalez-Raya, Arturo Mena, Miriam Lazo, Luca Leggio, David Novoa, Mikel Sanz, (参考訳) 量子トランスダクションは将来のハイブリッド量子ネットワークにおいて必須であり、異なるスペクトル範囲のデバイスを接続する。 この点において、中空コアファイバの分子変調は効率的な周波数変換には例外的であることが証明されている。 しかし、この量子光の変換法に関する洞察は、標準の半古典的モデルを超えている。 このレターは、最近の実験と一致して分子と光子の量子力学を記述するための枠組みを導入し、絡み合いを保つために分子変調の能力を公開することができる。

Quantum transduction is essential for future hybrid quantum networks, connecting devices across different spectral ranges. In this regard, molecular modulation in hollow-core fibers has proven to be exceptional for efficient frequency conversion. However, insights on this conversion method for quantum light have remained elusive beyond standard semiclassical models. This Letter introduces a framework to describe the quantum dynamics of both molecules and photons in agreement with recent experiments and capable of unveiling the ability of molecular modulation to preserve entanglement.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# GigaGS:大規模表面再構成のための平面ベース3Dガウスのスケールアップ

GigaGS: Scaling up Planar-Based 3D Gaussians for Large Scene Surface Reconstruction ( http://arxiv.org/abs/2409.06685v1 )

ライセンス: Link先を確認
Junyi Chen, Weicai Ye, Yifan Wang, Danpeng Chen, Di Huang, Wanli Ouyang, Guofeng Zhang, Yu Qiao, Tong He, (参考訳) 3D Gaussian Splatting (3DGS) は新規なビュー合成において有望な性能を示した。 従来の方法では、個々の3Dオブジェクトの表面または限られたシーン内での取得に適応する。 本稿では,大規模なシーン表面再構成の課題に取り組むための最初の試みを行う。 このタスクは、高いGPUメモリ消費、幾何表現の様々な詳細レベル、外観上の顕著な矛盾のため、特に困難である。 そこで本研究では,3DGSを用いた大規模シーンのための高品質な表面再構成手法であるGigaGSを提案する。 GigaGSはまず、空間領域の相互可視性に基づく分割戦略を適用し、並列処理のためのカメラを効果的にグループ化する。 また、表面の質を高めるために、Level-of-Detail表現に基づく新しい多視点測光および幾何的整合性制約を提案する。 これにより,詳細な表面構造を再構築することができる。 様々なデータセットに対して総合的な実験を行う。 この一貫した改善は、GigaGSの優位性を示している。

3D Gaussian Splatting (3DGS) has shown promising performance in novel view synthesis. Previous methods adapt it to obtaining surfaces of either individual 3D objects or within limited scenes. In this paper, we make the first attempt to tackle the challenging task of large-scale scene surface reconstruction. This task is particularly difficult due to the high GPU memory consumption, different levels of details for geometric representation, and noticeable inconsistencies in appearance. To this end, we propose GigaGS, the first work for high-quality surface reconstruction for large-scale scenes using 3DGS. GigaGS first applies a partitioning strategy based on the mutual visibility of spatial regions, which effectively grouping cameras for parallel processing. To enhance the quality of the surface, we also propose novel multi-view photometric and geometric consistency constraints based on Level-of-Detail representation. In doing so, our method can reconstruct detailed surface structures. Comprehensive experiments are conducted on various datasets. The consistent improvement demonstrates the superiority of GigaGS.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# 急性リンパ芽球性白血病(ALL)の検出・分類のための深部特徴抽出法に関する研究

A study on deep feature extraction to detect and classify Acute Lymphoblastic Leukemia (ALL) ( http://arxiv.org/abs/2409.06687v1 )

ライセンス: Link先を確認
Sabit Ahamed Preanto, Md. Taimur Ahad, Yousuf Rayhan Emon, Sumaya Mustofa, Md Alamin, (参考訳) 急性リンパ芽球性白血病(ALL)は、主に成人と小児に影響を及ぼす血液悪性腫瘍である。 本研究では,深い学習,特に畳み込みニューラルネットワーク(CNN)を用いてallの検出と分類を行う。 従来の診断技術、例えば骨髄生検は費用がかかり、手による誤診も起こりやすい。 この研究は、自動技術を活用して、診断精度を向上させることを目指している。 この研究は、InceptionV3、ResNet101、VGG19、DenseNet121、MobileNetV2、DenseNet121などの事前訓練済みCNNモデルを使用して、血液スミアの画像から特徴を抽出する。 ANOVA、再帰的特徴除去(RFE)、ランダムフォレスト(Random Forest)、ラッソ(Lasso)、主成分分析(Principal Component Analysis、PCA)は、特徴抽出後に最も関連性の高い特徴を見つけるために用いられるいくつかの選択手法である。 その後、Na\"ive Bayes、Random Forest、SVM(Support Vector Machine)、K-Nearest Neighbours(KNN)といった機械学習手法を使用してこれらの特徴を分類する。 87%の精度で、ResNet101モデルは最高の結果をもたらし、その後にDenseNet121とVGG19が続いた。 研究によると、CNNベースのモデルは、all診断のスピードと正確さを増大させることで、医療専門家の必要性を減少させる可能性がある。 モデル性能を改善するため、この研究はデータセットの拡大と多様化、トランスフォーマーのようなより洗練されたデザインの調査も推奨している。 この研究は、自動化されたディープラーニングシステムが医学的診断をいかにうまく行うかを強調した。

Acute lymphoblastic leukaemia (ALL) is a blood malignancy that mainly affects adults and children. This study looks into the use of deep learning, specifically Convolutional Neural Networks (CNNs), for the detection and classification of ALL. Conventional techniques for ALL diagnosis, such bone marrow biopsy, are costly and prone to mistakes made by hand. By utilising automated technologies, the research seeks to improve diagnostic accuracy. The research uses a variety of pre-trained CNN models, such as InceptionV3, ResNet101, VGG19, DenseNet121, MobileNetV2, and DenseNet121, to extract characteristics from pictures of blood smears. ANOVA, Recursive Feature Elimination (RFE), Random Forest, Lasso, and Principal Component Analysis (PCA) are a few of the selection approaches used to find the most relevant features after feature extraction. Following that, machine learning methods like Na\"ive Bayes, Random Forest, Support Vector Machine (SVM), and K-Nearest Neighbours (KNN) are used to classify these features. With an 87% accuracy rate, the ResNet101 model produced the best results, closely followed by DenseNet121 and VGG19. According to the study, CNN-based models have the potential to decrease the need for medical specialists by increasing the speed and accuracy of ALL diagnosis. To improve model performance, the study also recommends expanding and diversifying datasets and investigating more sophisticated designs such as transformers. This study highlights how well automated deep learning systems do medical diagnosis.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# フェアアロケーションを促進するためのリソースアロケーションツールの設計: 可視化と情報フレームは重要か?

Designing Resource Allocation Tools to Promote Fair Allocation: Do Visualization and Information Framing Matter? ( http://arxiv.org/abs/2409.06688v1 )

ライセンス: Link先を確認
Arnav Verma, Luiz Morais, Pierre Dragicevic, Fanny Chevalier, (参考訳) 人道支援に焦点を当てた人間の意思決定に関する研究は、認知バイアスがリソースの公平な割り当てを妨げることを発見している。 しかし、認知バイアスを克服する方法を探求するHCIや情報可視化の研究はほとんどない。 本研究は,対話型資源配分ツールの設計がアロケーションフェアネスの促進に役立つかどうかを考察する。 具体的には、プレゼンテーションフォーマット(テキストや可視化)と特定のフレーミング戦略(グループや個人に割り当てられたリソース)の効果について検討する。 クラウドソースによる3つの実験では、2つの異なるコミュニティに利益をもたらす2つのフィクションプログラム間でお金を分配するさまざまなツールデザインを提供しました。 主な発見は、個々のフレームの可視化とテキストが、グループフレームの設計による不公平なアロケーションを抑える可能性があることを示唆している。 この研究は、インタラクティブなツールや視覚化がどのようにして、不平等な決定につながる認知バイアスに対処できるかの研究を動機付ける新しい視点を開く。

Studies on human decision-making focused on humanitarian aid have found that cognitive biases can hinder the fair allocation of resources. However, few HCI and Information Visualization studies have explored ways to overcome those cognitive biases. This work investigates whether the design of interactive resource allocation tools can help to promote allocation fairness. We specifically study the effect of presentation format (using text or visualization) and a specific framing strategy (showing resources allocated to groups or individuals). In our three crowdsourced experiments, we provided different tool designs to split money between two fictional programs that benefit two distinct communities. Our main finding indicates that individual-framed visualizations and text may be able to curb unfair allocations caused by group-framed designs. This work opens new perspectives that can motivate research on how interactive tools and visualizations can be engineered to combat cognitive biases that lead to inequitable decisions.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# 畳み込みニューラルネットワークを用いた血液がんの検出と分類に関する総合的研究

A comprehensive study on Blood Cancer detection and classification using Convolutional Neural Network ( http://arxiv.org/abs/2409.06689v1 )

ライセンス: Link先を確認
Md Taimur Ahad, Sajib Bin Mamun, Sumaya Mustofa, Bo Song, Yan Li, (参考訳) オブジェクト検出の長年にわたって、DenseNet201、InceptionV3、ResNet152v2、SEresNet152、VGG19、Xceptionなどの効率的な畳み込みニューラルネットワーク(CNN)ネットワークは、その性能のために大きな注目を集めた。 さらに、CNNパラダイムは、オリジナルのCNNアーキテクチャから学習モデルとアンサンブルモデルを移行するために拡張されている。 研究によると、トランスファーラーニングとアンサンブルモデルは、ディープラーニング(DL)モデルの精度を高めることができる。 しかし、血液悪性腫瘍の検出と局在化にこれらの技術を利用する包括的な実験は、ごくわずかである。 第1実験では6つのオリジナルのCNNを使用し、第2実験では移動学習を行い、第3実験では新しいアンサンブルモデルDIX(DenseNet201, InceptionV3, Xception)を開発し、血液がんを検出し分類した。 統計学的結果から、DIXはオリジナルとトランスファーの学習性能より優れており、99.12%の精度が得られたことが示唆されている。 しかし, 転送学習では元のCNNの精度が向上しなかったため, 転送学習では負の結果が得られなかった。 他の多くのがんと同様に、血液がんは効果的な治療計画のタイムリーな同定と生存可能性の向上を必要とする。 CNNを用いた血液がんの検出と分類の精度は、CNNモデルが血液がんの検出に有望であることを示唆している。 本研究は, バイオメディカルエンジニアリング, コンピュータ支援型疾患診断, MLに基づく疾患検出の分野において重要である。

Over the years in object detection several efficient Convolutional Neural Networks (CNN) networks, such as DenseNet201, InceptionV3, ResNet152v2, SEresNet152, VGG19, Xception gained significant attention due to their performance. Moreover, CNN paradigms have expanded to transfer learning and ensemble models from original CNN architectures. Research studies suggest that transfer learning and ensemble models are capable of increasing the accuracy of deep learning (DL) models. However, very few studies have conducted comprehensive experiments utilizing these techniques in detecting and localizing blood malignancies. Realizing the gap, this study conducted three experiments; in the first experiment -- six original CNNs were used, in the second experiment -- transfer learning and, in the third experiment a novel ensemble model DIX (DenseNet201, InceptionV3, and Xception) was developed to detect and classify blood cancer. The statistical result suggests that DIX outperformed the original and transfer learning performance, providing an accuracy of 99.12%. However, this study also provides a negative result in the case of transfer learning, as the transfer learning did not increase the accuracy of the original CNNs. Like many other cancers, blood cancer diseases require timely identification for effective treatment plans and increased survival possibilities. The high accuracy in detecting and categorization blood cancer detection using CNN suggests that the CNN model is promising in blood cancer disease detection. This research is significant in the fields of biomedical engineering, computer-aided disease diagnosis, and ML-based disease detection.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# メインステージ・ダンス・ミュージックのためのサブジャンル分類のベンチマーク

Benchmarking Sub-Genre Classification For Mainstage Dance Music ( http://arxiv.org/abs/2409.06690v1 )

ライセンス: Link先を確認
Hongzhi Shu, Xinglin Li, Hongyu Jiang, Minghao Fu, Xinyu Li, (参考訳) 幅広い用途の楽曲分類は、音楽情報検索において最も顕著な課題の1つである。 メインステージダンス音楽の分類における包括的データセットやハイパフォーマンス手法の欠如に対処するため,本研究では,新たなデータセットとベースラインを含む新たなベンチマークを導入する。 我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。 連続的なソフトラベリングアプローチは、複数のサブジャンルにまたがるトラックを考慮に入れ、固有の洗練を保っている。 ベースラインとして,現在最先端のマルチモデル言語モデルより優れたディープラーニングモデルを開発し,ハウスミュージックのサブジャンルを特定するのに苦労し,きめ細かいデータセットで訓練された専門モデルの必要性を強調した。 我々のベンチマークは、音楽レコメンデーション、DJセットキュレーション、インタラクティブマルチメディアといったアプリケーションシナリオに応用でき、ビデオデモも提供しています。 我々のコードは \url{https://anonymous.4open.science/r/Mainstage-EDM-Benchmark/} にある。

Music classification, with a wide range of applications, is one of the most prominent tasks in music information retrieval. To address the absence of comprehensive datasets and high-performing methods in the classification of mainstage dance music, this work introduces a novel benchmark comprising a new dataset and a baseline. Our dataset extends the number of sub-genres to cover most recent mainstage live sets by top DJs worldwide in music festivals. A continuous soft labeling approach is employed to account for tracks that span multiple sub-genres, preserving the inherent sophistication. For the baseline, we developed deep learning models that outperform current state-of-the-art multimodel language models, which struggle to identify house music sub-genres, emphasizing the need for specialized models trained on fine-grained datasets. Our benchmark is applicable to serve for application scenarios such as music recommendation, DJ set curation, and interactive multimedia, where we also provide video demos. Our code is on \url{https://anonymous.4open.science/r/Mainstage-EDM-Benchmark/}.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# ソフトな選好ラベルに対する幾何学的平均選好最適化

Geometric-Averaged Preference Optimization for Soft Preference Labels ( http://arxiv.org/abs/2409.06691v1 )

ライセンス: Link先を確認
Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur, (参考訳) LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。 しかし、異なる個人によって異なる可能性があると考えることは合理的であり、したがって、応答間のきめ細かい関係を反映する分布性を持つべきである。 本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。 これにより、ソフトラベルに基づいて学習損失の規模を調整し、等しく望ましい応答による損失はゼロに近いものとなる。 この単純な修正は、どんなDPOファミリーにも容易に適用でき、モデルが過度な最適化や客観的なミスマッチから逃れるのに役立つ。 実験では,LLMからのAIフィードバックでソフトな選好ラベルをシミュレートし,幾何平均化がアライメント研究のための標準ベンチマークの性能を一貫して改善することを示した。 特に、バイナリラベルよりもより望ましいレスポンスを観察し、適度に信頼されたラベルが多数を占めるデータで大幅に改善する。

Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, it is reasonable to think that they can vary with different individuals, and thus should be distributional to reflect the fine-grained relationship between the responses. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. In doing so, the scale of learning loss is adjusted based on the soft labels, and the loss with equally preferred responses would be close to zero. This simple modification can be easily applied to any DPO family and helps the models escape from the over-optimization and objective mismatch prior works suffer from. In our experiments, we simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements with data where modestly-confident labels are in the majority.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# HybridFC:知識グラフのためのハイブリッドFact-Checkingアプローチ

HybridFC: A Hybrid Fact-Checking Approach for Knowledge Graphs ( http://arxiv.org/abs/2409.06692v1 )

ライセンス: Link先を確認
Umair Qudus, Michael Roeder, Muhammad Saleem, Axel-Cyrille Ngonga Ngomo, (参考訳) 知識グラフにおけるアサーションの正確性を予測することを目的としたファクトチェック手法を検討する。 知識グラフのファクトチェックアプローチの5つの主要なカテゴリが近年の文献で提案されている。 特に、現在のテキストベースのアプローチは手動の機能工学によって制限されている。 パスベースのアプローチとルールベースのアプローチは、背景知識として知識グラフを排他的に使用することで制限され、埋め込みベースのアプローチは、現在の事実チェックタスクにおいて、低い精度のスコアに悩まされる。 本研究では,既存のファクトチェックアプローチのカテゴリを,アンサンブル学習環境内での多様性を活用して,予測性能を大幅に向上させるハイブリッドアプローチであるHybridFCを提案する。 特に,本手法は,FactBenchデータセットの受信者動作曲線の下での面積において,最先端の0.14から0.27よりも優れていた。 私たちのコードはオープンソースで、https://github.com/dice-group/HybridFCで確認できます。

We consider fact-checking approaches that aim to predict the veracity of assertions in knowledge graphs. Five main categories of fact-checking approaches for knowledge graphs have been proposed in the recent literature, of which each is subject to partially overlapping limitations. In particular, current text-based approaches are limited by manual feature engineering. Path-based and rule-based approaches are limited by their exclusive use of knowledge graphs as background knowledge, and embedding-based approaches suffer from low accuracy scores on current fact-checking tasks. We propose a hybrid approach -- dubbed HybridFC -- that exploits the diversity of existing categories of fact-checking approaches within an ensemble learning setting to achieve a significantly better prediction performance. In particular, our approach outperforms the state of the art by 0.14 to 0.27 in terms of Area Under the Receiver Operating Characteristic curve on the FactBench dataset. Our code is open-source and can be found at https://github.com/dice-group/HybridFC.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# DANCE:Chaos Enhanced Kaleidoscopic Imageを用いた深層学習支援タンパク質配列の解析

DANCE: Deep Learning-Assisted Analysis of Protein Sequences Using Chaos Enhanced Kaleidoscopic Images ( http://arxiv.org/abs/2409.06694v1 )

ライセンス: Link先を確認
Taslim Murad, Prakash Chourasia, Sarwan Ali, Murray Patterson, (参考訳) 癌は、制御不能な細胞増殖を特徴とする複雑な疾患である。 免疫系において重要なタンパク質であるT細胞受容体(TCR)は、がんに関連する抗原の認識において重要な役割を担っている。 近年のシークエンシング技術の進歩は、TCRレパートリーの包括的プロファイリングを促進し、強力な抗がん活性を持つTCRを発見し、TCRベースの免疫療法を可能にしている。 しかし、これらの複雑な生体分子を解析するには、それらの構造的および機能的な情報をキャプチャする効率的な表現が必要である。 T細胞タンパク質配列は、他の生体分子と比較して長さが比較的小さいため、特異な課題を引き起こす。 画像に基づく表現アプローチは、効率的な埋め込みに好適な選択となり、重要な詳細を保存し、T細胞タンパク質配列の包括的な解析を可能にする。 本稿では,カレイドスコピック画像を用いたカオスゲーム表現(CGR)の概念を用いて,タンパク質配列から画像を生成することを提案する。 このDeep Learning Assisted Analysis of Protein Sequences using Chaos Enhanced Kaleidoscopic Images (DANCE)は、中央のシードポイントの周りにカオスゲームルールを再帰的に適用することで、タンパク質配列を可視化するユニークな方法を提供する。 TCRは癌に対する免疫応答で知られており,T細胞受容体(TCR)タンパク質配列の分類を行う。 TCRシーケンスはDANCE法を用いて画像に変換する。 そこで我々は, 深層学習型視覚モデルを用いて, 生成したカレイドスコープ画像の視覚パターンと, 基礎となるタンパク質の性質との関係を把握した。 CGRに基づく画像生成とディープラーニングの分類を組み合わせることで、タンパク質分析領域における新たな可能性を開くことができる。

Cancer is a complex disease characterized by uncontrolled cell growth. T cell receptors (TCRs), crucial proteins in the immune system, play a key role in recognizing antigens, including those associated with cancer. Recent advancements in sequencing technologies have facilitated comprehensive profiling of TCR repertoires, uncovering TCRs with potent anti-cancer activity and enabling TCR-based immunotherapies. However, analyzing these intricate biomolecules necessitates efficient representations that capture their structural and functional information. T-cell protein sequences pose unique challenges due to their relatively smaller lengths compared to other biomolecules. An image-based representation approach becomes a preferred choice for efficient embeddings, allowing for the preservation of essential details and enabling comprehensive analysis of T-cell protein sequences. In this paper, we propose to generate images from the protein sequences using the idea of Chaos Game Representation (CGR) using the Kaleidoscopic images approach. This Deep Learning Assisted Analysis of Protein Sequences Using Chaos Enhanced Kaleidoscopic Images (called DANCE) provides a unique way to visualize protein sequences by recursively applying chaos game rules around a central seed point. we perform the classification of the T cell receptors (TCRs) protein sequences in terms of their respective target cancer cells, as TCRs are known for their immune response against cancer disease. The TCR sequences are converted into images using the DANCE method. We employ deep-learning vision models to perform the classification to obtain insights into the relationship between the visual patterns observed in the generated kaleidoscopic images and the underlying protein properties. By combining CGR-based image generation with deep learning classification, this study opens novel possibilities in the protein analysis domain.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# 乳がん検出のための深部畳み込みニューラルネットワーク,トランスファーラーニングおよびアンサンブルモデルに関する研究

A study on Deep Convolutional Neural Networks, Transfer Learning and Ensemble Model for Breast Cancer Detection ( http://arxiv.org/abs/2409.06699v1 )

ライセンス: Link先を確認
Md Taimur Ahad, Sumaya Mustofa, Faruk Ahmed, Yousuf Rayhan Emon, Aunirudra Dey Anu, (参考訳) ディープラーニングでは、トランスファーラーニングとアンサンブルモデルにより、コンピュータ支援型疾患診断の改善が期待されている。 しかし,伝達学習とアンサンブルモデルの適用は比較的限られている。 さらに、アンサンブルモデルの開発はアドホックであり、冗長なレイヤを見落とし、不均衡なデータセットと不十分な拡張に悩まされている。 最後に、乳がんを検出し分類するために重要なディープ畳み込みニューラルネットワーク(D-CNN)が導入されている。 それでも、既存のCNNアーキテクチャの精度と効率を調査するための比較研究はほとんど行われていない。 本研究は, 乳がん検出におけるオリジナルのCNN, 転写学習, アンサンブルモデルを含むD-CNNの性能を比較した。 本稿では,CNNに基づく6つのディープラーニングアーキテクチャ(SE-ResNet152,MobileNetV2,VGG19,ResNet18,InceptionV3,DenseNet-121)と転移学習,乳がん検出のためのアンサンブルモデルを用いて比較を行った。 これらのモデルの比較の中で、アンサンブルモデルが最も高い検出精度と分類精度が99.94%である。 しかし, 転送学習では, 元のSE-ResNet152, MobileNetV2, VGG19, ResNet18, InceptionV3, DenseNet-121モデルの精度は向上しなかった。 CNNを用いた乳癌の検出と分類の精度は,CNNモデルが乳癌の診断に有効であることを示唆している。 本研究は, バイオメディカルエンジニアリング, コンピュータ支援型疾患診断, MLベースの疾患検出において重要である。

In deep learning, transfer learning and ensemble models have shown promise in improving computer-aided disease diagnosis. However, applying the transfer learning and ensemble model is still relatively limited. Moreover, the ensemble model's development is ad-hoc, overlooks redundant layers, and suffers from imbalanced datasets and inadequate augmentation. Lastly, significant Deep Convolutional Neural Networks (D-CNNs) have been introduced to detect and classify breast cancer. Still, very few comparative studies were conducted to investigate the accuracy and efficiency of existing CNN architectures. Realising the gaps, this study compares the performance of D-CNN, which includes the original CNN, transfer learning, and an ensemble model, in detecting breast cancer. The comparison study of this paper consists of comparison using six CNN-based deep learning architectures (SE-ResNet152, MobileNetV2, VGG19, ResNet18, InceptionV3, and DenseNet-121), a transfer learning, and an ensemble model on breast cancer detection. Among the comparison of these models, the ensemble model provides the highest detection and classification accuracy of 99.94% for breast cancer detection and classification. However, this study also provides a negative result in the case of transfer learning, as the transfer learning did not increase the accuracy of the original SE-ResNet152, MobileNetV2, VGG19, ResNet18, InceptionV3, and DenseNet-121 model. The high accuracy in detecting and categorising breast cancer detection using CNN suggests that the CNN model is promising in breast cancer disease detection. This research is significant in biomedical engineering, computer-aided disease diagnosis, and ML-based disease detection.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# Hint-AD: エンド・ツー・エンド自動運転における一貫した解釈可能性

Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving ( http://arxiv.org/abs/2409.06702v1 )

ライセンス: Link先を確認
Kairui Ding, Boyuan Chen, Yuchen Su, Huan-ang Gao, Bu Jin, Chonghao Sima, Wuqiang Zhang, Xiaohui Li, Paul Barsch, Hongyang Li, Hao Zhao, (参考訳) 自動運転(AD)におけるエンドツーエンドアーキテクチャは、人間とAIの信頼を阻害する、解釈可能性において大きな課題に直面している。 ヒューマンフレンドリーな自然言語は、説明や3Dキャプションなどのタスクのために研究されてきた。 しかし、以前の研究は主に宣言的解釈可能性のパラダイムに焦点を当てており、自然言語の解釈はADシステムの中間出力に根ざしていないため、解釈は宣言的のみである。 対照的に、整合性はADシステムの言語と中間出力との接続を確立する。 本稿では,Hint-ADについて紹介する。Hint-ADは,ADモデルの包括的知覚予測計画出力に対応する言語を生成する統合AD言語システムである。 Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効機能適応に組み込むことで、望ましい精度を実現し、運転説明、3D密接なキャプション、コマンド予測などの言語タスクの最先端結果を達成する。 nuScenesにおける説明課題の推進を容易にするために,人間ラベル付きデータセットNu-Xを導入する。 コード、データセット、モデルは公開されます。

End-to-end architectures in autonomous driving (AD) face a significant challenge in interpretability, impeding human-AI trust. Human-friendly natural language has been explored for tasks such as driving explanation and 3D captioning. However, previous works primarily focused on the paradigm of declarative interpretability, where the natural language interpretations are not grounded in the intermediate outputs of AD systems, making the interpretations only declarative. In contrast, aligned interpretability establishes a connection between language and the intermediate outputs of AD systems. Here we introduce Hint-AD, an integrated AD-language system that generates language aligned with the holistic perception-prediction-planning outputs of the AD model. By incorporating the intermediate outputs and a holistic token mixer sub-network for effective feature adaptation, Hint-AD achieves desirable accuracy, achieving state-of-the-art results in driving language tasks including driving explanation, 3D dense captioning, and command prediction. To facilitate further study on driving explanation task on nuScenes, we also introduce a human-labeled dataset, Nu-X. Codes, dataset, and models will be publicly available.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# LEIA : 難治性3次元関節症に対する潜時視差不変インプラント

LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation ( http://arxiv.org/abs/2409.06703v1 )

ライセンス: Link先を確認
Archana Swaminathan, Anubhav Gupta, Kamal Gupta, Shishira R. Maiya, Vatsal Agarwal, Abhinav Shrivastava, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は静的なシーンや物体を3Dで再現し、前例のない品質を実現している。 しかし、動的オブジェクトやオブジェクトの関節をモデル化するためにNeRFを拡張することは、依然として難しい問題である。 従来の研究は、対象物の部分レベルの再構築と運動推定に焦点をあててこの問題に対処してきたが、それらはしばしば、その実用性を制限できる可動部や対象カテゴリーの数に関するヒューリスティックに頼っている。 本研究では,動的3次元オブジェクトを表現する新しいアプローチであるLEIAを紹介する。 提案手法では,物体を異なる時間ステップあるいは「状態」で観察し,現在の状態にハイパーネットワークを条件付け,この手法を用いてNeRFのパラメータ化を行う。 このアプローチにより、各状態に対するビュー不変の潜在表現を学習することができる。 さらに、これらの状態間の補間により、以前は見えなかった3次元空間に新しい調音構成を生成できることを実証する。 実験結果は,視角や関節構成に依存しない方法で物体を調音する手法の有効性を強調した。 特に,本手法は,調音登録のための動作情報に依存する従来の手法よりも優れていた。

Neural Radiance Fields (NeRFs) have revolutionized the reconstruction of static scenes and objects in 3D, offering unprecedented quality. However, extending NeRFs to model dynamic objects or object articulations remains a challenging problem. Previous works have tackled this issue by focusing on part-level reconstruction and motion estimation for objects, but they often rely on heuristics regarding the number of moving parts or object categories, which can limit their practical use. In this work, we introduce LEIA, a novel approach for representing dynamic 3D objects. Our method involves observing the object at distinct time steps or "states" and conditioning a hypernetwork on the current state, using this to parameterize our NeRF. This approach allows us to learn a view-invariant latent representation for each state. We further demonstrate that by interpolating between these states, we can generate novel articulation configurations in 3D space that were previously unseen. Our experimental results highlight the effectiveness of our method in articulating objects in a manner that is independent of the viewing angle and joint configuration. Notably, our approach outperforms previous methods that rely on motion information for articulation registration.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# GeoCalib: 幾何学最適化による単一画像校正学習

GeoCalib: Learning Single-image Calibration with Geometric Optimization ( http://arxiv.org/abs/2409.06704v1 )

ライセンス: Link先を確認
Alexander Veicht, Paul-Edouard Sarlin, Philipp Lindenberger, Marc Pollefeys, (参考訳) 単一の画像から視覚的な手がかりは、焦点距離や重力方向などの内在的および外在的なカメラパラメータを推定するのに役立ちます。 このシングルイメージキャリブレーションは、画像編集や3Dマッピングなど、さまざまなダウンストリームアプリケーションに役立てることができる。 この問題に対する現在のアプローチは、行と消滅点を持つ古典幾何学か、エンドツーエンドで訓練されたディープニューラルネットワークに基づいている。 学習されたアプローチはより堅牢だが、新しい環境への一般化に苦慮し、従来のアプローチよりも正確ではない。 我々は、それらが3次元幾何学が提供する制約を欠いていると仮定する。 本研究では,最適化プロセスを通じて3次元幾何の普遍的規則を利用するディープニューラルネットワークであるGeoCalibを紹介する。 GeoCalibは、カメラパラメータを推定するためにエンドツーエンドでトレーニングされ、データから有用な視覚的手がかりを見つけることを学ぶ。 様々なベンチマーク実験により、GeoCalibは既存の古典的および学習的アプローチよりも堅牢で正確であることが示されている。 内部最適化では不確実性を見積もっているため,障害ケースのフラグ付けや,視覚的なローカライゼーションなどの下流アプリケーションへのメリットが期待できる。 コードとトレーニングされたモデルはhttps://github.com/cvg/GeoCalib.comで公開されている。

From a single image, visual cues can help deduce intrinsic and extrinsic camera parameters like the focal length and the gravity direction. This single-image calibration can benefit various downstream applications like image editing and 3D mapping. Current approaches to this problem are based on either classical geometry with lines and vanishing points or on deep neural networks trained end-to-end. The learned approaches are more robust but struggle to generalize to new environments and are less accurate than their classical counterparts. We hypothesize that they lack the constraints that 3D geometry provides. In this work, we introduce GeoCalib, a deep neural network that leverages universal rules of 3D geometry through an optimization process. GeoCalib is trained end-to-end to estimate camera parameters and learns to find useful visual cues from the data. Experiments on various benchmarks show that GeoCalib is more robust and more accurate than existing classical and learned approaches. Its internal optimization estimates uncertainties, which help flag failure cases and benefit downstream applications like visual localization. The code and trained models are publicly available at https://github.com/cvg/GeoCalib.
翻訳日:2024-09-11 16:23:35 公開日:2024-09-10
# Pythonのためのスケーラブルで高精度なアプリケーション中心のコールグラフ構築

Scalable and Precise Application-Centered Call Graph Construction for Python ( http://arxiv.org/abs/2305.05949v5 )

ライセンス: Link先を確認
Kaifeng Huang, Yixuan Yan, Bihuan Chen, Zixin Tao, Xin Peng, (参考訳) コールグラフ構築は、手続き間静的解析の基礎である。 PYCGはPythonプログラムのコールグラフを構築するための最先端のアプローチである。 残念ながら、PyCGは、アプリケーションと依存ライブラリの両方が解析されるプログラム全体の解析に適応する場合、大規模プログラムにはスケールしない。 さらに、PyCGはフローに敏感であり、Pythonの機能を完全にサポートしていないため、その正確さを妨げている。 このような欠点を克服するために,Pythonプログラム用のアプリケーション中心のコールグラフを構築するためのスケーラブルで正確なアプローチを提案し,プロトタイプツールであるJARVISとして実装する。 JARVISは、型推論を可能にするプログラムの各関数の型グラフ(すなわち、プログラム識別子の型関係)を保持する。 1つの関数を入力として、JARVISはオンザフライでコールグラフを生成し、フローセンシティブなイントラプロデューラル解析とイントラプロデューラル解析を交互に行い、強力な更新を行う。 135個のPythonプログラムのマイクロベンチマークと6個の実世界のPythonアプリケーションのマクロベンチマークによる評価は、JARVISがPYCGを少なくとも67%高速化し、精度が84%向上し、リコール時に少なくとも20%向上できることを示した。

Call graph construction is the foundation of inter-procedural static analysis. PYCG is the state-of-the-art approach for constructing call graphs for Python programs. Unfortunately, PyCG does not scale to large programs when adapted to whole-program analysis where application and dependent libraries are both analyzed. Moreover, PyCG is flow-insensitive and does not fully support Python's features, hindering its accuracy. To overcome these drawbacks, we propose a scalable and precise approach for constructing application-centered call graphs for Python programs, and implement it as a prototype tool JARVIS. JARVIS maintains a type graph (i.e., type relations of program identifiers) for each function in a program to allow type inference. Taking one function as an input, JARVIS generates the call graph on-the-fly, where flow-sensitive intra-procedural analysis and inter-procedural analysis are conducted in turn and strong updates are conducted. Our evaluation on a micro-benchmark of 135 small Python programs and a macro-benchmark of 6 real-world Python applications has demonstrated that JARVIS can significantly improve PYCG by at least 67% faster in time, 84% higher in precision, and at least 20% higher in recall.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# 非逐次的タブラリデータの自己教師付き学習に関する調査研究

A Survey on Self-Supervised Learning for Non-Sequential Tabular Data ( http://arxiv.org/abs/2402.01204v4 )

ライセンス: Link先を確認
Wei-Yao Wang, Wei-Wei Du, Derek Xu, Wei Wang, Wen-Chih Peng, (参考訳) 自己教師付き学習(SSL)は、さまざまなドメインの最先端モデルに組み込まれており、SSLはコンテキスト化された堅牢な表現を学ぶためのラベルなしデータセットに基づいて、プレテキストタスクを定義している。 近年、SSLは表形式のデータ領域における表現学習能力の探求において新たなトレンドとなっている。 本調査は,非シーケンス表データ(SSL4NS-TD)におけるSSLの最近の進歩と課題を体系的にレビューし,要約することを目的としている。 まず、NS-TDの形式的定義を示し、関連する研究との相関を明らかにする。 次に、これらのアプローチは、予測学習、コントラスト学習、ハイブリッド学習の3つのグループに分類される。 さらに、SSL4NS-TDのアプリケーション問題として、自動データエンジニアリング、クロステーブル転送性、ドメイン知識の統合などが紹介されている。 さらに、NS-TDアプリケーションのための既存のベンチマークとデータセットについて詳述し、既存の表形式モデルの性能を分析する。 最後に,SSL4NS-TDの課題について論じ,今後の研究の方向性を示す。 当社の作業は、タブ状ドメインのSSL入力障壁の低減と、暗黙的なタブ状データの基礎の改善に関するさらなる研究を奨励する上で、有用であると期待しています。

Self-supervised learning (SSL) has been incorporated into many state-of-the-art models in various domains, where SSL defines pretext tasks based on unlabeled datasets to learn contextualized and robust representations. Recently, SSL has become a new trend in exploring the representation learning capability in the realm of tabular data, which is more challenging due to not having explicit relations for learning descriptive representations. This survey aims to systematically review and summarize the recent progress and challenges of SSL for non-sequential tabular data (SSL4NS-TD). We first present a formal definition of NS-TD and clarify its correlation to related studies. Then, these approaches are categorized into three groups - predictive learning, contrastive learning, and hybrid learning, with their motivations and strengths of representative methods in each direction. Moreover, application issues of SSL4NS-TD are presented, including automatic data engineering, cross-table transferability, and domain knowledge integration. In addition, we elaborate on existing benchmarks and datasets for NS-TD applications to analyze the performance of existing tabular models. Finally, we discuss the challenges of SSL4NS-TD and provide potential directions for future research. We expect our work to be useful in terms of encouraging more research on lowering the barrier to entry SSL for the tabular domain, and of improving the foundations for implicit tabular data.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# 散乱波束の2次非局所シフト:Goos-HänchenとImbert-Fedorov効果で何が測定できるのか?

Second-order nonlocal shifts of scattered wave-packets: What can be measured by Goos-Hänchen and Imbert-Fedorov effects ? ( http://arxiv.org/abs/2408.00375v4 )

ライセンス: Link先を確認
K. Morawetz, (参考訳) 表面における任意のエネルギー分散を伴うウェーブパペットの散乱を解析した。 散乱シフトの2階まで拡大すると、既知のグース・アンチェンやイムベルト・フェドロフ空間オフセットに加えて、ウィグナー遅延時間、新しい運動量、周波数シフトが現れる。 さらに、散乱波パケットの幅も変更され、多重散乱によるパルスの縮小につながる可能性がある。 縦・横の誘電関数を特徴とする誘電体モデルでは、シフトを解析的に計算する。 Goos-H\ と Imbert-Fedorov シフトから、縦方向と横方向の誘電関数にアクセスできる。 散乱ビームに対する完全な配向結晶対称性軸は、イムベルト=フェドロフ効果を示さない。 等質材料には、グース・アンチェンとイムベルト・フェドロフ効果が欠如していることが判明した。 反対に、ウィグナー遅延時間と時間パルス幅の縮小は、ビーム幾何学に依存しない誘電関数にアクセスすることができる。

The scattering of wavepackets with arbitrary energy dispersion on surfaces has been analyzed. Expanding up to second order in scattering shifts, it is found that besides the known Goos-H\"anchen or Imbert-Fedorov spatial offset, as well as the Wigner delay time, new momentum and frequency shifts appear. Furthermore, the width of the scattered wave packet becomes modified as well, which can lead to a shrinking of pulses by multiple scattering. For a model of dielectric material characterized by a longitudinal and transverse dielectric function the shifts are calculated analytically. From the Goos-H\"anchen and Imbert-Fedorov shifts one can access the longitudinal and transversal dielectric function. Perfectly aligned crystal symmetry axes with respect to scattering beam shows no Imbert-Fedorov effect. It is found that the Goos-H\"anchen and Imbert-Fedorov effect are absent for homogeneous materials. Oppositely it is found that the Wigner delay time and the shrinking of the temporal pulse width allows to access the dielectric function independent on the beam geometry.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# ニューラルアーキテクチャ検索に基づくパームベイン認識のためのグローバルローカルビジョンマンバ

Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition ( http://arxiv.org/abs/2408.05743v4 )

ライセンス: Link先を確認
Huafeng Qin, Yuming Fu, Jing Chen, Mounim A. El-Yacoubi, Xinbo Gao, Feng Xi, (参考訳) 高セキュリティ,高プライバシ,活力認識などの利点により,近年は静脈認識がますます注目されている。 近年のディープラーニングモデル,例えば,Mambaは線形計算複雑性を持つ頑健な特徴表現を示し,視覚タスクにうまく適用されている。 しかし、Vision Manbaは長距離機能依存関係をキャプチャできるが、残念ながらローカル機能の詳細は劣化している。 加えて、人間の事前知識に基づくMambaアーキテクチャを手動で設計することは、非常に時間がかかり、エラーが発生しやすい。 本稿ではまず,画像の局所的相関と静脈特徴表現のためのトークン間のグローバルな依存関係を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。 第2に,視覚的マンバの特徴表現能力を向上させるために,異なる方向に沿った依存関係を学習するためのマルチヘッドマンバを設計する。 第3に,MHM(Multi-head Mamba branch),FIU(Feature Iteration Unit branch),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。 最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索し,静脈認識タスクの認識性能を向上させる。 我々は3つの公開パームベインデータベース上で厳密な実験を行い、その性能を推定する。 実験の結果,提案手法は代表的手法よりも優れ,最先端の認識精度が得られた。

Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# 高次元連続関数に対する最適ニューラルネットワーク近似

Optimal Neural Network Approximation for High-Dimensional Continuous Functions ( http://arxiv.org/abs/2409.02363v2 )

ライセンス: Link先を確認
Ayan Maiti, Michelle Michelle, Haizhao Yang, (参考訳) 近年、Shen Yang Zhang (JMLR, 2022) の著者らは、C([a,b]^d)$の関数に対する超近似特性を達成するために、初等普遍活性化関数と呼ばれる特別な活性化関数を利用する、幅3,6d(2d + 1)$と深さ1,11$のニューラルネットワークを開発した。 すなわち、構築されたネットワークは、任意の精度で$d$-次元ハイパーキューブ上の$d$-変数連続関数を近似するために、固定数のニューロンしか必要としない。 ネットワークは$\mathcal{O}(d^2)$固定ニューロンを使用する。 対処すべき自然な疑問は、そのようなネットワーク内でこれらのニューロンの数を減らすことができるかどうかである。 コルモゴロフ重畳定理の変種を利用して、この超近似特性を達成できる366d +365$の固定内在性(非反復性)ニューロンを持つ基本普遍活性化関数によって生成されたニューラルネットワークが存在することを示す。 さらに、その近似において任意の精度を達成するために、少なくとも幅$d$、従って少なくとも$d$固有のニューロンを必要とする連続関数の族を示す。 このことは、$\mathcal{O}(d)$内在ニューロンの要求が入力次元$d$で線形に成長するという意味で最適であることを示し、パラメータが$d$で指数関数的に成長するいくつかの近似法とは対照的である。

Recently, the authors of Shen Yang Zhang (JMLR, 2022) developed a neural network with width $36d(2d + 1)$ and depth $11$, which utilizes a special activation function called the elementary universal activation function, to achieve the super approximation property for functions in $C([a,b]^d)$. That is, the constructed network only requires a fixed number of neurons to approximate a $d$-variate continuous function on a $d$-dimensional hypercube with arbitrary accuracy. Their network uses $\mathcal{O}(d^2)$ fixed neurons. One natural question to address is whether we can reduce the number of these neurons in such a network. By leveraging a variant of the Kolmogorov Superposition Theorem, our analysis shows that there is a neural network generated by the elementary universal activation function with only $366d +365$ fixed, intrinsic (non-repeated) neurons that attains this super approximation property. Furthermore, we present a family of continuous functions that requires at least width $d$, and therefore at least $d$ intrinsic neurons, to achieve arbitrary accuracy in its approximation. This shows that the requirement of $\mathcal{O}(d)$ intrinsic neurons is optimal in the sense that it grows linearly with the input dimension $d$, unlike some approximation methods where parameters may grow exponentially with $d$.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# FrameCorr:リソースとタイミング制約付きネットワーク設定のビデオ再構成のための適応型オートエンコーダベースニューラル圧縮

FrameCorr: Adaptive, Autoencoder-based Neural Compression for Video Reconstruction in Resource and Timing Constrained Network Settings ( http://arxiv.org/abs/2409.02453v2 )

ライセンス: Link先を確認
John Li, Shehab Sarar Ahmed, Deepak Nair, (参考訳) インターネット・オブ・モノ(IoT)デバイスによるビデオ処理の普及はコスト効率の向上によるものだが、取得したデータを近くのサーバに送信することは、タイミングの制約やネットワーク帯域幅の不足による問題を引き起こす。 既存のビデオ圧縮手法では、不完全データが提供されると、圧縮データの回復が困難となる。 本稿では、フレームの欠落部分を予測するために、以前受信したデータを利用したディープラーニングベースのソリューションであるFrameCorrを紹介し、部分的に受信したデータからフレームを再構築することを可能にする。

Despite the growing adoption of video processing via Internet of Things (IoT) devices due to their cost-effectiveness, transmitting captured data to nearby servers poses challenges due to varying timing constraints and scarcity of network bandwidth. Existing video compression methods face difficulties in recovering compressed data when incomplete data is provided. Here, we introduce FrameCorr, a deep-learning based solution that utilizes previously received data to predict the missing segments of a frame, enabling the reconstruction of a frame from partially received data.
翻訳日:2024-09-11 12:33:33 公開日:2024-09-10
# MMMU-Pro: よりロバストな多分野マルチモーダル理解ベンチマーク

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark ( http://arxiv.org/abs/2409.02813v2 )

ライセンス: Link先を確認
Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig, (参考訳) 本稿では,MMMU(Massive Multi-discipline Multi-modal Understanding and Reasoning)ベンチマークの頑健なバージョンであるMMMU-Proを紹介する。 MMMU-Proは,(1) テキストのみのモデルで答えられる質問をフィルタリングし,(2) 候補を拡大し,(3) 画像内に質問が埋め込まれた視覚のみの入力設定を導入する。 この設定は、視覚情報とテキスト情報をシームレスに統合する基本的な人間の認知スキルをテストすることによって、AIに真に「見る」と同時に「読む」よう促す。 その結果、MMMU-Proではモデル全体の16.8%から26.9%の範囲でモデル性能がMMMU-Proよりも大幅に低いことが示された。 我々は、OCRプロンプトとCoT(Chain of Thought)推論の影響について検討し、OCRプロンプトが最小限の効果を持つのに対して、CoTは一般に性能を向上することを示した。 MMMU-Proはより厳格な評価ツールを提供し、現実世界のシナリオを忠実に模倣し、将来のマルチモーダルAI研究に有用な方向を提供する。

This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# LongCite:Lum-context QAにおける微粒化生成のためのLLMの導入

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA ( http://arxiv.org/abs/2409.02897v3 )

ライセンス: Link先を確認
Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li, (参考訳) 現在のLong-Context Large Language Model (LLM) は、広範囲なテキストに基づいてユーザーの質問に答える能力が顕著であることを示しているが、その回答に引用がないことは、ユーザの検証を困難にしており、彼らの幻覚の可能性を懸念している。 本研究では,長文LLMが文レベルのきめ細かな引用で応答を生成できるようにし,その忠実さと妥当性を向上させることを目的とする。 最初にLongBench-Citeを紹介した。これはLong-Context Question Answering with Citations (LQAC)において、現在のLLMのパフォーマンスを評価するための自動ベンチマークであり、改善の余地があることを明らかにする。 そこで本研究では,LQAC用の大規模SFTデータセットであるLongCite-45kを構築するために,LongCite-45kを構築するために,既製のLLMを用いて,文レベルの精度の高い長文QAインスタンスを自動的に生成する新しいパイプラインであるCoF(Coarse to Fine)を提案する。 最後に,LongCite-45kデータセットを用いてLongCite-8BとLongCite-9Bをトレーニングし,精度の高い応答生成と文レベルのきめ細かい引用を単一出力で実現する。 また,LongBench-Citeの評価結果から,GPT-4oを含む先進的なプロプライエタリモデルを上回る,最先端の励磁品質が得られることが示された。

Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# LibMOON: PyTorchのグラディエントベースの多目的最適化ライブラリ

LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch ( http://arxiv.org/abs/2409.02969v2 )

ライセンス: Link先を確認
Xiaoyuan Zhang, Liang Zhao, Yingying Yu, Xi Lin, Zhenkun Wang, Han Zhao, Qingfu Zhang, (参考訳) マルチ目的最適化問題(MOP)は、機械学習、マルチタスク学習、公正性や堅牢性制約下での学習などにおいて広く用いられている。 複数の目的関数をスカラー目的関数に還元する代わりに、MOPは、数百万のパラメータを持つモデルよりも複数の目的関数を同時に最適化することを含む、いわゆるパレート最適性(Pareto optimality)あるいはパレート集合学習(Pareto set learning)を最適化することを目指している。 MOPの既存のベンチマークライブラリは、主に進化アルゴリズムに焦点を当てており、そのほとんどは、目的物からの高次情報を効果的に活用せず、数百万のパラメータを持つ大規模モデルにスケールできないゼロ階法である。 本稿では,このギャップを考慮し,最先端の勾配法をサポートする初の多目的最適化ライブラリであるLibMOONを紹介する。

Multiobjective optimization problems (MOPs) are prevalent in machine learning, with applications in multi-task learning, learning under fairness or robustness constraints, etc. Instead of reducing multiple objective functions into a scalar objective, MOPs aim to optimize for the so-called Pareto optimality or Pareto set learning, which involves optimizing more than one objective function simultaneously, over models with millions of parameters. Existing benchmark libraries for MOPs mainly focus on evolutionary algorithms, most of which are zeroth-order methods that do not effectively utilize higher-order information from objectives and cannot scale to large-scale models with millions of parameters. In light of the above gap, this paper introduces LibMOON, the first multiobjective optimization library that supports state-of-the-art gradient-based methods, provides a fair benchmark, and is open-sourced for the community.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# データの量はいくらか? 家庭内翻訳のための微調整大言語モデル:複数のデータセットサイズでの性能評価

How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes ( http://arxiv.org/abs/2409.03454v2 )

ライセンス: Link先を確認
Inacio Vieira, Will Allred, Séamus Lankford, Sheila Castilho, Andy Way, (参考訳) デコーダのみのLLMは、広範囲なデータセットから学習し、高品質な翻訳を生成することができるため、MTで顕著な性能を示している。 しかし、LLMは組織固有の翻訳に必要なニュアンスやスタイルに悩まされることが多い。 そこで本研究では,Llama 3 8Bインストラクションにおいて,翻訳記憶(TM)を有効活用し,精度と効率を向上させることを目的とした,微調整大規模言語モデル(LLM)の有効性について検討する。 ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。 実験では,ブラジルポルトガル語,チェコ語,ドイツ語,フィンランド語,韓国語)の言語にまたがる5つの翻訳方向について検討した。 学習データセット(1k〜207kセグメント)のさまざまなサイズを分析し、翻訳品質への影響を評価した。 トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。 以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。 BLEUとCOMETのスコアは,ベースラインモデルに対する最大のトレーニングセットでそれぞれ13点,25点増加した。 特に, 1k と 2k のサンプルのみを微調整すると, ベースラインモデルと比較して性能が低下するが, トレーニングデータセットのサイズが大きくなるにつれて, 大幅な改善が見られた。 この研究は、TMをLLMと統合し、ビジネスのニーズに合わせたベスパイク翻訳モデルを作成する可能性を強調し、翻訳品質を向上し、ターンアラウンド時間を短縮する。 このアプローチは、特に狭いドメインにおいて、最適な翻訳結果にTMとLLMを活用しようとする組織にとって、貴重な洞察を提供する。

Decoder-only LLMs have shown impressive performance in MT due to their ability to learn from extensive datasets and generate high-quality translations. However, LLMs often struggle with the nuances and style required for organisation-specific translation. In this study, we explore the effectiveness of fine-tuning Large Language Models (LLMs), particularly Llama 3 8B Instruct, leveraging translation memories (TMs), as a valuable resource to enhance accuracy and efficiency. We investigate the impact of fine-tuning the Llama 3 model using TMs from a specific organisation in the software sector. Our experiments cover five translation directions across languages of varying resource levels (English to Brazilian Portuguese, Czech, German, Finnish, and Korean). We analyse diverse sizes of training datasets (1k to 207k segments) to evaluate their influence on translation quality. We fine-tune separate models for each training set and evaluate their performance based on automatic metrics, BLEU, chrF++, TER, and COMET. Our findings reveal improvement in translation performance with larger datasets across all metrics. On average, BLEU and COMET scores increase by 13 and 25 points, respectively, on the largest training set against the baseline model. Notably, there is a performance deterioration in comparison with the baseline model when fine-tuning on only 1k and 2k examples; however, we observe a substantial improvement as the training dataset size increases. The study highlights the potential of integrating TMs with LLMs to create bespoke translation models tailored to the specific needs of businesses, thus enhancing translation quality and reducing turn-around times. This approach offers a valuable insight for organisations seeking to leverage TMs and LLMs for optimal translation outcomes, especially in narrower domains.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# LAST:言語モデルが音声認識を意識する

LAST: Language Model Aware Speech Tokenization ( http://arxiv.org/abs/2409.03701v2 )

ライセンス: Link先を確認
Arnon Turetzky, Yossi Adi, (参考訳) 音声トークン化は、音声言語モデル(LM)の基礎として機能し、音声言語モデリング、テキスト音声、音声音声テキストなど様々なタスクを実行できる。 ほとんどの音声トークンは、別々の音響モデルと量子化法に依存して、LMトレーニングプロセスとは独立して訓練される。 このようなアプローチに従うと、トークン化プロセスとその使用方法のミスマッチが発生する可能性がある。 本研究では,事前学習されたテキストLMの目的を生かして,音声トークン化者の訓練を行う新しい手法を提案する。 我々は、この目的を個別の音声表現を学習するプロセスに統合することを提唱する。 本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。 音声語彙サイズやテキストLMサイズなど,様々なモデル設計選択の影響を実証的に検討する。 提案手法は,音声言語モデルと音声テキストの両方を考慮した評価ベースラインよりも優れていることを示す。 さらに,従来のトークン化手法とは違って,提案手法では,音声入力とテキスト入力の両処理に1つの事前学習されたLMを用いることが可能である。

Speech tokenization serves as the foundation of speech language model (LM), enabling them to perform various tasks such as spoken language modeling, text-to-speech, speech-to-text, etc. Most speech tokenizers are trained independently of the LM training process, relying on separate acoustic models and quantization methods. Following such an approach may create a mismatch between the tokenization process and its usage afterward. In this study, we propose a novel approach to training a speech tokenizer by leveraging objectives from pre-trained textual LMs. We advocate for the integration of this objective into the process of learning discrete speech representations. Our aim is to transform features from a pre-trained speech model into a new feature space that enables better clustering for speech LMs. We empirically investigate the impact of various model design choices, including speech vocabulary size and text LM size. Our results demonstrate the proposed tokenization method outperforms the evaluated baselines considering both spoken language modeling and speech-to-text. More importantly, unlike prior work, the proposed method allows the utilization of a single pre-trained LM for processing both speech and text inputs, setting it apart from conventional tokenization approaches.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# ニューラルタンジェントカーネルによるてんかんの不確かさと観察ノイズ

Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel ( http://arxiv.org/abs/2409.03953v2 )

ライセンス: Link先を確認
Sergio Calvo-Ordoñez, Konstantina Palla, Kamil Ciosek, (参考訳) 近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ニューラル・タンジェント・カーネル(NTK)を用いたガウス過程(GP)における後部分布の計算と正式に等価であることが示されている。 本稿では,この枠組みを2つの方法で拡張する。 まず、ゼロでないアラートノイズに対処する方法を示す。 第2に, 後部共分散推定器を導出し, てんかんの不確実性について検討した。 提案手法は,平均二乗誤差損失に対する勾配勾配を用いた少数の追加予測器のトレーニングを含むため,標準的なトレーニングパイプラインとシームレスに統合する。 本研究では, 合成回帰の実証的評価を通じて, 提案手法の実証実験を行った。

Recent work has shown that training wide neural networks with gradient descent is formally equivalent to computing the mean of the posterior distribution in a Gaussian Process (GP) with the Neural Tangent Kernel (NTK) as the prior covariance and zero aleatoric noise \parencite{jacot2018neural}. In this paper, we extend this framework in two ways. First, we show how to deal with non-zero aleatoric noise. Second, we derive an estimator for the posterior covariance, giving us a handle on epistemic uncertainty. Our proposed approach integrates seamlessly with standard training pipelines, as it involves training a small number of additional predictors using gradient descent on a mean squared error loss. We demonstrate the proof-of-concept of our method through empirical evaluation on synthetic regression.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# GitHubでユーザプライバシの意識を探る - 実証的研究

Exploring User Privacy Awareness on GitHub: An Empirical Study ( http://arxiv.org/abs/2409.04048v2 )

ライセンス: Link先を確認
Costanza Alfieri, Juri Di Rocco, Paola Inverardi, Phuong T. Nguyen, (参考訳) GitHubは、開発者にソースコードを配布し、共通のプロジェクトで共同作業するための実践的な方法を提供する。 アカウントのセキュリティとプライバシを強化するため、GitHubでは、アクセス権限の管理、監査ログのレビュー、二要素認証を有効にしている。 しかし、この努力にもかかわらず、プラットフォームはユーザーのプライバシーに関する様々な問題に直面している。 本稿では,GitHubエコシステムに関する実証的研究を紹介する。 我々の焦点は、プラットフォーム上でのプライバシー設定の活用と、ユーザーが開示した各種機密情報の特定である。 6,132人の開発者からなるデータセットを活用して、プルリクエストに対するコメントによってアクティビティを報告し、分析する。 以上の結果から,GitHub上のプライバシ設定が利用可能なユーザによる積極的な関与が示唆された。 特に、プルリクエストコメント内で異なる形式のプライベート情報の開示を観察する。 この観察により、大きな言語モデルとBERTを用いた感度検出の探索が進められ、パーソナライズされたプライバシアシスタントの道が拓かれた。 私たちの研究は、プライバシー設定などの既存のプライバシ保護ツールの利用と、その固有の制限に関する洞察を提供します。 本研究の目的は,このようなプライバシ保護ツールを開発する動機と,それをパーソナライズするための方法論を両立させることである。

GitHub provides developers with a practical way to distribute source code and collaboratively work on common projects. To enhance account security and privacy, GitHub allows its users to manage access permissions, review audit logs, and enable two-factor authentication. However, despite the endless effort, the platform still faces various issues related to the privacy of its users. This paper presents an empirical study delving into the GitHub ecosystem. Our focus is on investigating the utilization of privacy settings on the platform and identifying various types of sensitive information disclosed by users. Leveraging a dataset comprising 6,132 developers, we report and analyze their activities by means of comments on pull requests. Our findings indicate an active engagement by users with the available privacy settings on GitHub. Notably, we observe the disclosure of different forms of private information within pull request comments. This observation has prompted our exploration into sensitivity detection using a large language model and BERT, to pave the way for a personalized privacy assistant. Our work provides insights into the utilization of existing privacy protection tools, such as privacy settings, along with their inherent limitations. Essentially, we aim to advance research in this field by providing both the motivation for creating such privacy protection tools and a proposed methodology for personalizing them.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# リーマン最適化による強化学習のためのガウスモデルQ-Functions

Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization ( http://arxiv.org/abs/2409.04374v2 )

ライセンス: Link先を確認
Minh Vu, Konstantinos Slavakis, (参考訳) 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。 GMMが確率密度関数の推定として典型的な役割を果たす既存のRL文献とは異なり、GMMはここでのQ-函数の損失を近似する。 GMM-QFと呼ばれる新しいQ関数近似器はベルマン残差に組み込まれ、リーマン最適化タスクを標準方針決定スキームの新しいポリシー評価ステップとして推進する。 本稿は、ガウス核のハイパーパラメータ(平均と共分散行列)がデータからどのように学習されるかを示し、したがってリーマン最適化の強力なツールボックスへのRLの扉を開く。 数値実験では、経験データを使用しなくても、提案設計は、RLのベンチマークタスクで経験データを使用する最先端のQ-networksよりも優れていることが示された。

This paper establishes a novel role for Gaussian-mixture models (GMMs) as functional approximators of Q-function losses in reinforcement learning (RL). Unlike the existing RL literature, where GMMs play their typical role as estimates of probability density functions, GMMs approximate here Q-function losses. The new Q-function approximators, coined GMM-QFs, are incorporated in Bellman residuals to promote a Riemannian-optimization task as a novel policy-evaluation step in standard policy-iteration schemes. The paper demonstrates how the hyperparameters (means and covariance matrices) of the Gaussian kernels are learned from the data, opening thus the door of RL to the powerful toolbox of Riemannian optimization. Numerical tests show that with no use of experienced data, the proposed design outperforms state-of-the-art methods, even deep Q-networks which use experienced data, on benchmark RL tasks.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# 質問応答型高精細ビデオイベント

Question-Answering Dense Video Events ( http://arxiv.org/abs/2409.04388v3 )

ライセンス: Link先を確認
Hangyu Qin, Junbin Xiao, Angela Yao, (参考訳) MLLM(Multimodal Large Language Models)は,単一イベントビデオの質問応答において優れた性能を示した。 本稿では,長時間にわたる複数の事象を忠実に理解し,原因を解明するためにMLLMに挑戦する。 この研究を容易にするために、DeVE-QA - 10.6Kの長ビデオ上での26Kイベントに関する78Kの質問を含むデータセットを構築した。 次に、DVE-QAにおいて、シングルイベントのQAにおいて優れた既存のMLLMが、よく機能するのに苦労していることをベンチマークし、示す。 改良のために,階層型キャプションモジュール,時間的イベントメモリモジュール,自己整合性チェックモジュールを強調表示した新しい学習自由MLLM手法であるDeViを提案する。 大規模な実験では、DeViは密集した質問に答え、関連するビデオの瞬間をグラウンド化するのに優れていることが示されている。 既存のMLLMと比較して、DeVE-QA と NExT-GQA でそれぞれ G(round)QA の精度が4.1%、G(round)QA が3.7%向上している。

Multimodal Large Language Models (MLLMs) have shown excellent performance in question-answering of single-event videos. In this paper, we present question-answering dense video events, a novel task that requires answering and grounding the dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events occurring over extended time periods. To facilitate the study, we construct DeVE-QA - a dataset featuring 78K questions about 26K events on 10.6K long videos. We then benchmark and show that existing MLLMs excelling at single-event QA struggle to perform well in DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.1 percent and 3.7 percent for G(round)QA accuracy on DeVE-QA and NExT-GQA respectively.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# Diff-INR:電気インピーダンストモグラフィのための生成規則化

Diff-INR: Generative Regularization for Electrical Impedance Tomography ( http://arxiv.org/abs/2409.04494v2 )

ライセンス: Link先を確認
Bowen Tong, Junwu Wang, Dong Liu, (参考訳) 電気インピーダンストモグラフィ(EIT)は、境界測定から体内の伝導率分布を再構成する非侵襲イメージング技術である。 しかし、EIT再構成は、正確な結果が複雑である不測の非線形逆問題によって妨げられている。 そこで本研究では,拡散モデルを用いて生成正則化とインプリシットニューラル表現(INR)を組み合わせた新しい手法であるDiff-INRを提案する。 Diff-INRは、従来の正規化手法の欠点を効果的に解決するために、再構成のガイドとなる幾何学的先行を導入している。 事前学習した拡散正則化器をINRに統合することにより,シミュレーションと実験データの両方で最先端の再現精度を実現する。 この方法は、様々なメッシュ密度とハイパーパラメータ設定にまたがる堅牢なパフォーマンスを示し、その柔軟性と効率を強調している。 この進歩は、EITの不正な性質を管理する上で大きな改善となる。 さらに、この手法の原理は、不適切な逆問題と同じような課題に直面している他の画像モダリティにも適用できる。

Electrical Impedance Tomography (EIT) is a non-invasive imaging technique that reconstructs conductivity distributions within a body from boundary measurements. However, EIT reconstruction is hindered by its ill-posed nonlinear inverse problem, which complicates accurate results. To tackle this, we propose Diff-INR, a novel method that combines generative regularization with Implicit Neural Representations (INR) through a diffusion model. Diff-INR introduces geometric priors to guide the reconstruction, effectively addressing the shortcomings of traditional regularization methods. By integrating a pre-trained diffusion regularizer with INR, our approach achieves state-of-the-art reconstruction accuracy in both simulation and experimental data. The method demonstrates robust performance across various mesh densities and hyperparameter settings, highlighting its flexibility and efficiency. This advancement represents a significant improvement in managing the ill-posed nature of EIT. Furthermore, the method's principles are applicable to other imaging modalities facing similar challenges with ill-posed inverse problems.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# QueryBuilder: 情報検索のためのHuman-in-the-Loopクエリ開発

QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval ( http://arxiv.org/abs/2409.04667v2 )

ライセンス: Link先を確認
Hemanth Kandula, Damianos Karakos, Haoling Qiu, Benjamin Rozonoyer, Ian Soboroff, Lee Tarlin, Bonan Min, (参考訳) しばしば、IR(Information Retrieval)システムのユーザは、情報要求(すなわち、分析タスク)をまとめて開始し、その分析タスクの様々な重要な側面(すなわち、サブトピック)をカバーするよりきめ細かいクエリを定義する。 我々は、初心者の英語を話すユーザが、英語開発コーパスを効率的に探索することで、ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発し、少ない労力でクエリを作成できる「$\textit{QueryBuilder}$」という対話型システムを提案する。 QueryBuilderは、ユーザが入力した検索語に基づいてドキュメントをほぼリアルタイムで検索する。 クエリ用語(およびオプションでイベント特徴、イベント$'triggers'$(インデックス用語)とエージェント/患者ロールをキャプチャする)は適切に重み付けされ、テキストの意味をよりよくキャプチャし、他の関連するコンテンツを検索するニューラルネットワークシステムである。 検索とマーキングのプロセスは、必要に応じて何度も繰り返され、各イテレーションでより洗練されたクエリが生まれます。 最後の製品は、CLIR(Cross-Lingual Information Retrieval)で使用されるきめ細かいクエリである。 分析タスクとIARPA BETTER IRデータセットからの要求を用いた実験では、わずかな労力(サブトピックあたり10分以上)で、初心者ユーザは理解できない言語を含む詳細なクエリを$\textit{useful}$で作成できることがわかった。 QueryBuilderはまた、従来のコーパス探索とクエリ生成プロセスに有益な機能を提供する。 デモビデオはhttps://vimeo.com/734795835で公開されている。

Frequently, users of an Information Retrieval (IR) system start with an overarching information need (a.k.a., an analytic task) and proceed to define finer-grained queries covering various important aspects (i.e., sub-topics) of that analytic task. We present a novel, interactive system called $\textit{QueryBuilder}$, which allows a novice, English-speaking user to create queries with a small amount of effort, through efficient exploration of an English development corpus in order to rapidly develop cross-lingual information retrieval queries corresponding to the user's information needs. QueryBuilder performs near real-time retrieval of documents based on user-entered search terms; the user looks through the retrieved documents and marks sentences as relevant to the information needed. The marked sentences are used by the system as additional information in query formation and refinement: query terms (and, optionally, event features, which capture event $'triggers'$ (indicator terms) and agent/patient roles) are appropriately weighted, and a neural-based system, which better captures textual meaning, retrieves other relevant content. The process of retrieval and marking is repeated as many times as desired, giving rise to increasingly refined queries in each iteration. The final product is a fine-grained query used in Cross-Lingual Information Retrieval (CLIR). Our experiments using analytic tasks and requests from the IARPA BETTER IR datasets show that with a small amount of effort (at most 10 minutes per sub-topic), novice users can form $\textit{useful}$ fine-grained queries including in languages they don't understand. QueryBuilder also provides beneficial capabilities to the traditional corpus exploration and query formation process. A demonstration video is released at https://vimeo.com/734795835
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# 幾何学的・意味的情報融合に基づく学習自由点認識

Training-Free Point Cloud Recognition Based on Geometric and Semantic Information Fusion ( http://arxiv.org/abs/2409.04760v2 )

ライセンス: Link先を確認
Yan Chen, Di Huang, Zhichao Liao, Xi Cheng, Xinghui Li, Lone Zeng, (参考訳) ポイントクラウド認識にトレーニングフリーの手法を採用する傾向は、計算資源と時間コストの大幅な削減により、ますます人気が高まっている。 しかし、既存のアプローチは、一般的に幾何学的特徴または意味的特徴を抽出するため、制限されている。 この制限に対処するため、幾何学的特徴と意味的特徴を統合した新しいトレーニング不要な手法を最初に提案する。 幾何学的分岐に対しては、幾何学的特徴を抽出するための非パラメトリック戦略を採用する。 セマンティックブランチでは、テキストの特徴と整合したモデルを利用してセマンティックな特徴を得る。 さらに,点雲の幾何学的情報を補完する GFE モジュールと MFF モジュールを導入し,数ショット設定での性能向上を図る。 実験の結果,本手法は,ModelNetやScanObiectNNなど,主要なベンチマークデータセット上で,最先端のトレーニングフリーアプローチよりも優れていることがわかった。

The trend of employing training-free methods for point cloud recognition is becoming increasingly popular due to its significant reduction in computational resources and time costs. However, existing approaches are limited as they typically extract either geometric or semantic features. To address this limitation, we are the first to propose a novel training-free method that integrates both geometric and semantic features. For the geometric branch, we adopt a non-parametric strategy to extract geometric features. In the semantic branch, we leverage a model aligned with text features to obtain semantic features. Additionally, we introduce the GFE module to complement the geometric information of point clouds and the MFF module to improve performance in few-shot settings. Experimental results demonstrate that our method outperforms existing state-of-the-art training-free approaches on mainstream benchmark datasets, including ModelNet and ScanObiectNN.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# 私の車は何を言ったか? 自動運転車の説明エラーと運転状況が快適さ、信頼性、満足感、運転信頼に及ぼす影響

What Did My Car Say? Impact of Autonomous Vehicle Explanation Errors and Driving Context On Comfort, Reliance, Satisfaction, and Driving Confidence ( http://arxiv.org/abs/2409.05731v2 )

ライセンス: Link先を確認
Robert Kaufman, Aaron Broukhim, David Kirsh, Nadir Weibel, (参考訳) 自動運転車(AV)の判断に関する説明は信頼を築けるかもしれないが、説明には誤りが含まれる可能性がある。 シミュレーション運転研究(n = 232)では,AVの誤り,運転状況の特徴(害や運転困難を知覚する),個人特性(事前信頼と専門知識)が,AVに依存する乗客の快適さ,制御の好み,AV能力に対する信頼感,説明満足度にどのように影響するかを検証した。 エラーはすべての結果に悪影響を及ぼした。 意外なことに、同じ運転にもかかわらず、説明ミスによりAVの運転能力の評価は低下した。 重大さと潜在的な害は、エラーの負の影響を増幅した。 文脈的危害と運転困難は結果評価に直接影響を与え、エラーと結果の関係に影響を及ぼした。 事前の信頼と専門知識は、成果評価に肯定的な関連があった。 その結果、信頼、信頼、満足、信頼を育むために、正確で、文脈的に適応し、パーソナライズされたAV説明の必要性を強調した。 我々は、信頼できるAV説明システムの設計、研究、展開の勧告を締めくくる。

Explanations for autonomous vehicle (AV) decisions may build trust, however, explanations can contain errors. In a simulated driving study (n = 232), we tested how AV explanation errors, driving context characteristics (perceived harm and driving difficulty), and personal traits (prior trust and expertise) affected a passenger's comfort in relying on an AV, preference for control, confidence in the AV's ability, and explanation satisfaction. Errors negatively affected all outcomes. Surprisingly, despite identical driving, explanation errors reduced ratings of the AV's driving ability. Severity and potential harm amplified the negative impact of errors. Contextual harm and driving difficulty directly impacted outcome ratings and influenced the relationship between errors and outcomes. Prior trust and expertise were positively associated with outcome ratings. Results emphasize the need for accurate, contextually adaptive, and personalized AV explanations to foster trust, reliance, satisfaction, and confidence. We conclude with design, research, and deployment recommendations for trustworthy AV explanation systems.
翻訳日:2024-09-11 12:24:07 公開日:2024-09-10
# 大規模環境におけるタスクプランニングのためのLCM, グラフ, オブジェクト階層の活用

Leveraging LLMs, Graphs and Object Hierarchies for Task Planning in Large-Scale Environments ( http://arxiv.org/abs/2409.04775v2 )

ライセンス: Link先を確認
Rodrigo Pérez-Dattari, Zhaoting Li, Robert Babuška, Jens Kober, Cosimo Della Santina, (参考訳) 大規模環境におけるタスクレベルの問題の解法において,計画手法は計算的難解性に苦慮する。 この研究は、LLMに符号化されたコモンセンス知識を活用して、これらの複雑なシナリオに対処するための計画手法を強化する。 計画問題の状態空間から無関係成分を抽出するためにLLMを効率よく利用し、その複雑さを大幅に単純化する。 7-DoFマニピュレータ(video https://youtu.be/6ro2UOtOQS4。

Planning methods struggle with computational intractability in solving task-level problems in large-scale environments. This work explores leveraging the commonsense knowledge encoded in LLMs to empower planning techniques to deal with these complex scenarios. We achieve this by efficiently using LLMs to prune irrelevant components from the planning problem's state space, substantially simplifying its complexity. We demonstrate the efficacy of this system through extensive experiments within a household simulation environment, alongside real-world validation using a 7-DoF manipulator (video https://youtu.be/6ro2UOtOQS4).
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 潰瘍性大腸炎重症度推定のための相対アノテーション付き深ベイズ能動的学習

Deep Bayesian Active Learning-to-Rank with Relative Annotation for Estimation of Ulcerative Colitis Severity ( http://arxiv.org/abs/2409.04952v2 )

ライセンス: Link先を確認
Takeaki Kadota, Hideaki Hayashi, Ryoma Bise, Kiyohito Tanaka, Seiichi Uchida, (参考訳) 画像に基づく重症度自動推定は,コンピュータ支援診断において重要な課題である。 ディープラーニングによる重症度推定は、高いパフォーマンスを達成するために大量のトレーニングデータを必要とする。 一般に、重大度推定は、個別(量子化された)重大度ラベルでアノテートされたトレーニングデータを使用する。 離散ラベルのアノテートは、曖昧な重大さを持つ画像では困難であり、アノテーションのコストが高い。 対照的に、一対のイメージ間の重大さを比較する相対的アノテーションは、重大さの定量化を回避し、より容易にすることができる。 相対的なアノテーションを用いた学習からランクまでのフレームワークを用いて,相対的な病気の重症度を推定できるが,相対的なアノテーションには,注釈付け可能な膨大な数のペアの問題がある。 したがって、適切なペアの選択は相対的なアノテーションに不可欠である。 本稿では,相対的アノテーションに対して適切なペアを自動的に選択する深層ベイズ能動的学習 to ランクを提案する。 本手法は,サンプルのモデル不確実性から,ラベルのないペアに高い学習効率でアノテートする。 ベイズニューラルネットワークを相互に学習してランク付けするための理論的基礎を証明し,私的および公的なデータセットの潰瘍性大腸炎の内視鏡的画像化実験を通じて,本手法の有効性を実証する。 また,本手法は,マイノリティクラスからのサンプルを自動的に選択するため,クラス不均衡な条件下で高い性能を達成することを示す。

Automatic image-based severity estimation is an important task in computer-aided diagnosis. Severity estimation by deep learning requires a large amount of training data to achieve a high performance. In general, severity estimation uses training data annotated with discrete (i.e., quantized) severity labels. Annotating discrete labels is often difficult in images with ambiguous severity, and the annotation cost is high. In contrast, relative annotation, in which the severity between a pair of images is compared, can avoid quantizing severity and thus makes it easier. We can estimate relative disease severity using a learning-to-rank framework with relative annotations, but relative annotation has the problem of the enormous number of pairs that can be annotated. Therefore, the selection of appropriate pairs is essential for relative annotation. In this paper, we propose a deep Bayesian active learning-to-rank that automatically selects appropriate pairs for relative annotation. Our method preferentially annotates unlabeled pairs with high learning efficiency from the model uncertainty of the samples. We prove the theoretical basis for adapting Bayesian neural networks to pairwise learning-to-rank and demonstrate the efficiency of our method through experiments on endoscopic images of ulcerative colitis on both private and public datasets. We also show that our method achieves a high performance under conditions of significant class imbalance because it automatically selects samples from the minority classes.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 中国語ビデオにおけるパロライズとコンデデント言語:マルチモーダルデータセットと検出器

Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector ( http://arxiv.org/abs/2409.05005v2 )

ライセンス: Link先を確認
Hongbo Wang, Junyu Lu, Yan Han, Kai Ma, Liang Yang, Hongfei Lin, (参考訳) Patronizing and Condescending Language (PCL)は、脆弱なグループをターゲットにした差別的な有害なスピーチの一種であり、オンラインとオフラインの両方の安全性を脅かす。 有害な音声研究は主にヘイトスピーチのような過剰な毒性に焦点を当てているが、PCLの形でのマイクロアグレッションは未解明のままである。 さらに、支配的な集団の差別的な表情と脆弱なコミュニティに対する態度は、口頭で考えるよりも影響が大きいが、これらのフレームの特徴は見過ごされがちである。 本稿では,Blibili の 715 の注釈付きビデオと高品質な PCL 顔フレームからなる PCLMM データセットを紹介する。 また,PCL認識のための表情検出モジュールを備えたMultiPCL検出器を提案する。 本研究は, 有害音声領域における微小加速度検出の進展に重要な貢献をしている。

Patronizing and Condescending Language (PCL) is a form of discriminatory toxic speech targeting vulnerable groups, threatening both online and offline safety. While toxic speech research has mainly focused on overt toxicity, such as hate speech, microaggressions in the form of PCL remain underexplored. Additionally, dominant groups' discriminatory facial expressions and attitudes toward vulnerable communities can be more impactful than verbal cues, yet these frame features are often overlooked. In this paper, we introduce the PCLMM dataset, the first Chinese multimodal dataset for PCL, consisting of 715 annotated videos from Bilibili, with high-quality PCL facial frame spans. We also propose the MultiPCL detector, featuring a facial expression detection module for PCL recognition, demonstrating the effectiveness of modality complementarity in this challenging task. Our work makes an important contribution to advancing microaggression detection within the domain of toxic speech.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# ニューラルネットワークの安定性,一貫性,収束性に関するいくつかの結果:非IIDデータ,高次元設定,物理インフォームドニューラルネットワークの考察

Some Results on Neural Network Stability, Consistency, and Convergence: Insights into Non-IID Data, High-Dimensional Settings, and Physics-Informed Neural Networks ( http://arxiv.org/abs/2409.05030v2 )

ライセンス: Link先を確認
Ronald Katende, Henry Kasumba, Godwin Kakuba, John M. Mango, (参考訳) 本稿では,機械学習における重要な課題,特に非IIDデータに基づくニューラルネットワークの安定性,一貫性,収束性,分布シフト,高次元設定について論じる。 非凸条件下での動的学習率を持つニューラルネットワークの均一安定性に関する新しい理論的結果を提供する。 さらに,非ユークリッド空間におけるフェデレート学習モデルの整合性境界を確立し,分布シフトと曲率効果を考慮に入れた。 物理インフォームドニューラルネットワーク(PINN)では、雑音環境下での部分微分方程式(PDE)を解くための安定性、一貫性、収束保証を導出する。 これらの結果は、複雑で非理想的な条件下でのモデル行動理解において大きなギャップを埋め、より堅牢で信頼性の高い機械学習アプリケーションへの道を開く。

This paper addresses critical challenges in machine learning, particularly the stability, consistency, and convergence of neural networks under non-IID data, distribution shifts, and high-dimensional settings. We provide new theoretical results on uniform stability for neural networks with dynamic learning rates in non-convex settings. Further, we establish consistency bounds for federated learning models in non-Euclidean spaces, accounting for distribution shifts and curvature effects. For Physics-Informed Neural Networks (PINNs), we derive stability, consistency, and convergence guarantees for solving Partial Differential Equations (PDEs) in noisy environments. These results fill significant gaps in understanding model behavior in complex, non-ideal conditions, paving the way for more robust and reliable machine learning applications.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# MaxCutPool: グラフニューラルネットワークにおけるプールのための識別可能な特徴認識Maxcut

MaxCutPool: differentiable feature-aware Maxcut for pooling in graph neural networks ( http://arxiv.org/abs/2409.05100v2 )

ライセンス: Link先を確認
Carlo Abate, Filippo Maria Bianchi, (参考訳) 本稿では,属性グラフ,すなわちノードやエッジに関連付けられた特徴を持つグラフにおいて,MAXCUTを計算するための新しい手法を提案する。 我々のアプローチは、基礎となるグラフトポロジに対して堅牢であり、完全に微分可能であり、MAXCUTを他の目的と共に共同で最適化するソリューションを見つけることができる。 得られたMAXCUT分割に基づいて,グラフニューラルネットワークの階層的なグラフプーリング層を実装した。

We propose a novel approach to compute the MAXCUT in attributed graphs, i.e., graphs with features associated with nodes and edges. Our approach is robust to the underlying graph topology and is fully differentiable, making it possible to find solutions that jointly optimize the MAXCUT along with other objectives. Based on the obtained MAXCUT partition, we implement a hierarchical graph pooling layer for Graph Neural Networks, which is sparse, differentiable, and particularly suitable for downstream tasks on heterophilic graphs.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# テンソルタッカー補完における微量ノルム最小化の再検討:直列学習アプローチ

Revisiting Trace Norm Minimization for Tensor Tucker Completion: A Direct Multilinear Rank Learning Approach ( http://arxiv.org/abs/2409.05139v2 )

ライセンス: Link先を確認
Xueke Tong, Hancheng Zhu, Lei Cheng, Yik-Chung Wu, (参考訳) Tuckerフォーマットを使用してテンソルデータを効率的に表現するためには、モデルがオーバーフレキシブルで過度に適合しないよう、マルチリニアランクを最小限に抑えることが重要なタスクである。 テンソルにおけるランク最小化ツールの欠如により、既存の研究は、テンソルデータから展開された行列の標準最小化をトレースするために、タッカー多重線型ランク最小化を結び付けている。 これらの定式化はテンソルと行列の低次元構造を同定する共通の目的を生かそうとしているが、この論文はタッカー完備化における既存のトレースノルムに基づく定式化が多重線型階数最小化において非効率であることを明らかにする。 さらに、テンソルデータから展開される行列ではなく、等価表現の係数行列にトレースノルム最小化を適用するタッカー形式の新しい解釈を提案する。 新たに確立された問題定式化に基づいて、固定点反復アルゴリズムを提案し、その収束性を証明した。 提案アルゴリズムは,既存のトレースノルムに基づくタッカー補完法と比較して,多線形階数学習およびテンソル信号の回復精度において著しく向上した性能を示すことを示す。

To efficiently express tensor data using the Tucker format, a critical task is to minimize the multilinear rank such that the model would not be over-flexible and lead to overfitting. Due to the lack of rank minimization tools in tensor, existing works connect Tucker multilinear rank minimization to trace norm minimization of matrices unfolded from the tensor data. While these formulations try to exploit the common aim of identifying the low-dimensional structure of the tensor and matrix, this paper reveals that existing trace norm-based formulations in Tucker completion are inefficient in multilinear rank minimization. We further propose a new interpretation of Tucker format such that trace norm minimization is applied to the factor matrices of the equivalent representation, rather than some matrices unfolded from tensor data. Based on the newly established problem formulation, a fixed point iteration algorithm is proposed, and its convergence is proved. Numerical results are presented to show that the proposed algorithm exhibits significant improved performance in terms of multilinear rank learning and consequently tensor signal recovery accuracy, compared to existing trace norm based Tucker completion methods.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 影響に基づく属性を操作できる

Influence-based Attributions can be Manipulated ( http://arxiv.org/abs/2409.05208v2 )

ライセンス: Link先を確認
Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri, (参考訳) インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。 本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを検討する。 これは本当に可能であり、後方フレンドリーな実装で効率的な攻撃を提供する。 我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。

Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influencebased attributions and investigate whether these attributions can be systematically tampered by an adversary. We show that this is indeed possible and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions under adversarial circumstances.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 大規模言語モデルを用いたロバストな知識集中型質問応答モデルの構築に向けて

Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models ( http://arxiv.org/abs/2409.05385v2 )

ライセンス: Link先を確認
Hong Xingyun Hong, Shao Yan Shao, Wang Zhilin Wang, Duan Manni Duan, Jin Xiongnan, (参考訳) LLMの開発は質問応答のインテリジェンスと流布度を大幅に向上させ、検索強化の出現により、モデルが外部情報をよりよく活用できるようになった。 しかし、抽出された情報にノイズや誤りがあることは、LLMの堅牢性に困難をもたらす。 本研究では、複数の干渉下でモデルの性能を評価するために、まず、クリティカル情報欠如、ノイズ、コンフリクトなど、さまざまなシナリオをシミュレートした機械学習理解データセットに基づいてデータセットを構築する。 ノイズのある外部情報によるモデル精度低下の問題に対処するため,LLMのノイズに対する頑健性を高めるためのデータ拡張に基づく微調整手法を提案する。 さらに,外部情報の識別能力を維持するために,コントラスト学習手法を用いる。 その結果,提案手法はモデルの識別能力を高めつつ,モデルロバスト性を向上させることが示唆された。

The development of LLMs has greatly enhanced the intelligence and fluency of question answering, while the emergence of retrieval enhancement has enabled models to better utilize external information. However, the presence of noise and errors in retrieved information poses challenges to the robustness of LLMs. In this work, to evaluate the model's performance under multiple interferences, we first construct a dataset based on machine reading comprehension datasets simulating various scenarios, including critical information absence, noise, and conflicts. To address the issue of model accuracy decline caused by noisy external information, we propose a data augmentation-based fine-tuning method to enhance LLM's robustness against noise. Additionally, contrastive learning approach is utilized to preserve the model's discrimination capability of external information. We have conducted experiments on both existing LLMs and our approach, the results are evaluated by GPT-4, which indicates that our proposed methods improve model robustness while strengthening the model's discrimination capability.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して

DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation ( http://arxiv.org/abs/2409.05463v2 )

ライセンス: Link先を確認
Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding, (参考訳) 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。 しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。 本稿では,多視点3Dコンディション誘導ビデオ生成のためのエンドツーエンドフレームワークDriveScapeを提案する。 DriveScapeは、カメラデータを統合して、空間的時間的包摂性を確保するだけでなく、双方向変調トランスモジュールを導入し、3D道路構造情報を効果的に整合させる。 その結果,本手法は映像生成の正確な制御を可能にし,リアリズムを著しく向上させ,マルチビュー・ドライビング・ビデオを生成するための堅牢なソリューションを提供する。 FIDスコア8.34、FVDスコア76.39、および様々な知覚タスクにおける優れたパフォーマンスを示す。 これにより、自動運転におけるより正確な環境シミュレーションの道が開ける。 コードは \href{https://metadrivescape.github.io/papers_project/drivescapev1/index.html}{our project homepage} で入手できる。

Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. In this paper, we propose an end-to-end framework named DriveScape for multi-view, 3D condition-guided video generation. DriveScape not only streamlines the process by integrating camera data to ensure comprehensive spatial-temporal coverage, but also introduces a Bi-Directional Modulated Transformer module to effectively align 3D road structural information. As a result, our approach enables precise control over video generation, significantly enhancing realism and providing a robust solution for generating multi-view driving videos. Our framework achieves state-of-the-art results on the nuScenes dataset, demonstrating impressive generative quality metrics with an FID score of 8.34 and an FVD score of 76.39, as well as superior performance across various perception tasks. This paves the way for more accurate environmental simulations in autonomous driving. Code will be available at \href{https://metadrivescape.github.io/papers_project/drivescapev1/index.html}{our project homepage}.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 変圧器を用いた時間グラフニューラルネットワークの再構成

Retrofitting Temporal Graph Neural Networks with Transformer ( http://arxiv.org/abs/2409.05477v2 )

ライセンス: Link先を確認
Qiang Huang, Xiao Yan, Xin Wang, Susie Xi Rao, Zhichao Han, Fangcheng Fu, Wentao Zhang, Jiawei Jiang, (参考訳) テンポラルグラフニューラルネットワーク(TGNN)は、時間情報をグラフベースの操作に組み込むことで、通常のGNNより優れている。 しかし、TGNNは特別なモデル(TGN、TGAT、APANなど)を採用しており、適切なトレーニングフレームワーク(TGL、ETCなど)を必要とする。 本稿では,TGNNのバックボーンモデルとしてTransformerデコーダを用いたTF-TGNを提案する。 特にTransformerは言語モデリングにおいて大きな成功を収めており、コミュニティは高性能カーネル(例えば、フラッシュアテンションとメモリ効率の注意)と効率的な分散トレーニングスキーム(例えば、PyTorch FSDP、DeepSpeed、Megatron-LM)を開発した。 我々は,TGNNが言語モデリングに類似していること,すなわち,TGNNにおける時系列的に発生するノードとその隣接ノード間のメッセージアグリゲーション操作を,シーケンスモデリングとして構造化することができることを観察した。 この類似性に加えて、接尾辞の埋め込み、自己ループによる時間グラフの注意、TF-TGNを機能させるために因果マスキングの自己注意を含む一連のアルゴリズム設計も取り入れている。 トレーニング中、既存のシステムはグラフトポロジを変換し、グラフサンプリングを行うのが遅い。 そこで本研究では,CSRフォーマット変換とグラフサンプリングを並列化する手法を提案する。 また、Transformerのコードベースを適用して、TF-TGNを複数のGPUで効率的にトレーニングする。 9つのグラフを実験し、2つの最先端TGNNトレーニングフレームワークと比較した。 その結果、TF-TGNは既存のSOTA TGNNと同等またはそれ以上の精度でトレーニングを2.20以上加速できることがわかった。 TF-TGNはhttps://github.com/qianghuangwhu/TF-TGNで利用可能である。

Temporal graph neural networks (TGNNs) outperform regular GNNs by incorporating time information into graph-based operations. However, TGNNs adopt specialized models (e.g., TGN, TGAT, and APAN ) and require tailored training frameworks (e.g., TGL and ETC). In this paper, we propose TF-TGN, which uses Transformer decoder as the backbone model for TGNN to enjoy Transformer's codebase for efficient training. In particular, Transformer achieves tremendous success for language modeling, and thus the community developed high-performance kernels (e.g., flash-attention and memory-efficient attention) and efficient distributed training schemes (e.g., PyTorch FSDP, DeepSpeed, and Megatron-LM). We observe that TGNN resembles language modeling, i.e., the message aggregation operation between chronologically occurring nodes and their temporal neighbors in TGNNs can be structured as sequence modeling. Beside this similarity, we also incorporate a series of algorithm designs including suffix infilling, temporal graph attention with self-loop, and causal masking self-attention to make TF-TGN work. During training, existing systems are slow in transforming the graph topology and conducting graph sampling. As such, we propose methods to parallelize the CSR format conversion and graph sampling. We also adapt Transformer codebase to train TF-TGN efficiently with multiple GPUs. We experiment with 9 graphs and compare with 2 state-of-the-art TGNN training frameworks. The results show that TF-TGN can accelerate training by over 2.20 while providing comparable or even superior accuracy to existing SOTA TGNNs. TF-TGN is available at https://github.com/qianghuangwhu/TF-TGN.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# CRADLE-VAE:反現実的推論に基づくアーチファクト歪みを用いた単一セル遺伝子摂動モデルの実現

CRADLE-VAE: Enhancing Single-Cell Gene Perturbation Modeling with Counterfactual Reasoning-based Artifact Disentanglement ( http://arxiv.org/abs/2409.05484v2 )

ライセンス: Link先を確認
Seungheun Baek, Soyon Park, Yan Ting Chok, Junhyun Lee, Jueon Park, Mogan Gim, Jaewoo Kang, (参考訳) 様々な摂動に対する細胞応答を予測することは、薬物発見とパーソナライズされた治療に重要な焦点を置き、深層学習モデルがこの取り組みに重要な役割を果たしている。 シングルセルデータセットには、そのようなモデルの予測可能性を妨げる技術的アーティファクトが含まれており、この分野で高い評価を受けている品質管理の問題を引き起こす。 そこで本研究では,単一細胞遺伝子摂動モデルに適した因果生成フレームワークであるCRADLE-VAEを提案する。 トレーニングを通じて、CRADLE-VAEは、単一のセルデータセットに存在する技術的アーティファクトと摂動効果の根底にある潜伏分布をモデル化する。 副次的推論を用いて、潜伏した基底空間を変調することで、これらのアーティファクトを効果的に解体し、高品質なセル応答データを生成するための堅牢な特徴を学習する。 実験により, 本手法は治療効果評価性能だけでなく, 生成品質も向上することが示された。 CRADLE-VAEのコードベースはhttps://github.com/dmis-lab/CRADLE-VAEで公開されている。

Predicting cellular responses to various perturbations is a critical focus in drug discovery and personalized therapeutics, with deep learning models playing a significant role in this endeavor. Single-cell datasets contain technical artifacts that may hinder the predictability of such models, which poses quality control issues highly regarded in this area. To address this, we propose CRADLE-VAE, a causal generative framework tailored for single-cell gene perturbation modeling, enhanced with counterfactual reasoning-based artifact disentanglement. Throughout training, CRADLE-VAE models the underlying latent distribution of technical artifacts and perturbation effects present in single-cell datasets. It employs counterfactual reasoning to effectively disentangle such artifacts by modulating the latent basal spaces and learns robust features for generating cellular response data with improved quality. Experimental results demonstrate that this approach improves not only treatment effect estimation performance but also generative quality as well. The CRADLE-VAE codebase is publicly available at https://github.com/dmis-lab/CRADLE-VAE.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 高解像度衛星画像のための大気補正統合LULCセグメンテーションモデル

An Atmospheric Correction Integrated LULC Segmentation Model for High-Resolution Satellite Imagery ( http://arxiv.org/abs/2409.05494v2 )

ライセンス: Link先を確認
Soham Mukherjee, Yash Dixit, Naman Srivastava, Joel D Joy, Rohan Olikara, Koesha Sinha, Swarup E, Rakshit Ramesh, (参考訳) 大規模マルチスペクトル画像とディープラーニングモデルの統合は、土地利用と土地被覆(LULC)の分類に革命をもたらした。 しかし, 大気表面反射率の精度を向上するためには, 測定値のディジタル数値を補正する必要がある。 本研究では、高分解能CARTOSAT-3マルチスペクトル(MX)画像の大気中反射率と透過率を推定するために、ルックアップテーブルに基づく放射光伝達シミュレーションを用いる。 修正表面反射率データはその後、教師付きおよび半教師付きセグメンテーションモデルで使用され、特に疎ラベルデータを用いた場合、多クラス(建物、道路、木、水域)のLULCセグメンテーション精度の安定性を実証した。

The integration of fine-scale multispectral imagery with deep learning models has revolutionized land use and land cover (LULC) classification. However, the atmospheric effects present in Top-of-Atmosphere sensor measured Digital Number values must be corrected to retrieve accurate Bottom-of-Atmosphere surface reflectance for reliable analysis. This study employs look-up-table-based radiative transfer simulations to estimate the atmospheric path reflectance and transmittance for atmospherically correcting high-resolution CARTOSAT-3 Multispectral (MX) imagery for several Indian cities. The corrected surface reflectance data were subsequently used in supervised and semi-supervised segmentation models, demonstrating stability in multi-class (buildings, roads, trees and water bodies) LULC segmentation accuracy, particularly in scenarios with sparsely labelled data.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# MemoRAG: メモリにインスパイアされた知識発見による次世代RAGへの移行

MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery ( http://arxiv.org/abs/2409.05591v2 )

ライセンス: Link先を確認
Hongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou, (参考訳) Retrieval-Augmented Generation (RAG)は、検索ツールを活用して外部データベースにアクセスし、最適化されたコンテキストを通じて大規模言語モデル(LLM)の生成品質を向上させる。 しかし,既存の検索手法は,明示されたクエリと十分に構造化された知識との関連性マッチングしか行えず,曖昧な情報要求や構造化されていない知識を含むタスクを処理できないため,本質的に制約されている。 したがって、既存のRAGシステムは、簡単な質問応答タスクに主に有効である。 本稿では,MemoRAGを提案する。MemoRAGは,長期記憶によって強化された新しい検索拡張生成パラダイムである。 MemoRAGはデュアルシステムアーキテクチャを採用している。 一方で、データベースのグローバルメモリを形成するために、軽量だが長距離のLLMを使用している。 タスクが提示されると、ドラフト回答が生成され、検索ツールがデータベース内の有用な情報を見つける。 一方,LLMは高価だが表現力に富むLCMを利用して,検索した情報に基づいて究極の回答を生成する。 この汎用フレームワーク上に構築したMemoRAGは,そのクレーリング機構と記憶能力を向上させることで,さらに性能を最適化する。 実験では,従来のRAGが失敗する複雑なタスクや,RAGが一般的に適用される単純なタスクなど,さまざまな評価タスクにおいて優れたパフォーマンスを実現している。

Retrieval-Augmented Generation (RAG) leverages retrieval tools to access external databases, thereby enhancing the generation quality of large language models (LLMs) through optimized context. However, the existing retrieval methods are constrained inherently, as they can only perform relevance matching between explicitly stated queries and well-formed knowledge, but unable to handle tasks involving ambiguous information needs or unstructured knowledge. Consequently, existing RAG systems are primarily effective for straightforward question-answering tasks. In this work, we propose MemoRAG, a novel retrieval-augmented generation paradigm empowered by long-term memory. MemoRAG adopts a dual-system architecture. On the one hand, it employs a light but long-range LLM to form the global memory of database. Once a task is presented, it generates draft answers, cluing the retrieval tools to locate useful information within the database. On the other hand, it leverages an expensive but expressive LLM, which generates the ultimate answer based on the retrieved information. Building on this general framework, we further optimize MemoRAG's performance by enhancing its cluing mechanism and memorization capacity. In our experiment, MemoRAG achieves superior performance across a variety of evaluation tasks, including both complex ones where conventional RAG fails and straightforward ones where RAG is commonly applied.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# NeurLZ: 科学的データに対する誤り制御型ニューラルラーニングに基づく損失圧縮性能の向上について

NeurLZ: On Enhancing Lossy Compression Performance based on Error-Controlled Neural Learning for Scientific Data ( http://arxiv.org/abs/2409.05785v2 )

ライセンス: Link先を確認
Wenqi Jia, Youyuan Liu, Zhewen Hu, Jinzhen Wang, Boyuan Zhang, Wei Niu, Junzhou Huang, Stavros Kalafatis, Sian Jin, Miao Yin, (参考訳) 大規模科学シミュレーションは、ストレージとI/Oに重大な課題をもたらす巨大なデータセットを生成する。 従来の圧縮技術では性能が向上するが、圧縮率、データ品質、スループットのバランスは依然として難しい。 そこで我々は,科学データのための新しいクロスフィールド学習と誤り制御圧縮フレームワークNeurLZを提案する。 DNNモデルのスキップ、クロスフィールド学習、エラー制御を統合することで、このフレームワークは圧縮性能を著しく向上することを目的としている。 1) 高忠実度詳細保持のための軽量スキップモデルを設計し、予測精度をさらに向上する。 2)データ予測精度を大幅に向上するクロスフィールド学習手法を導入し,圧縮率を大幅に改善した。 (3) ユーザ要求に応じて厳密なエラー境界を提供するためのエラー制御手法を開発する。 我々はNyx(宇宙シミュレーション)、Miranda(大規模乱流シミュレーション)、Hurricane(ウェザーシミュレーション)などの実世界のHPCアプリケーションデータセット上でNeurLZを評価した。 実験により、我々のフレームワークは同じデータ歪み下で最大90%のビットレートの相対的な削減を実現していることが示された。

Large-scale scientific simulations generate massive datasets that pose significant challenges for storage and I/O. While traditional lossy compression techniques can improve performance, balancing compression ratio, data quality, and throughput remains difficult. To address this, we propose NeurLZ, a novel cross-field learning-based and error-controlled compression framework for scientific data. By integrating skipping DNN models, cross-field learning, and error control, our framework aims to substantially enhance lossy compression performance. Our contributions are three-fold: (1) We design a lightweight skipping model to provide high-fidelity detail retention, further improving prediction accuracy. (2) We adopt a cross-field learning approach to significantly improve data prediction accuracy, resulting in a substantially improved compression ratio. (3) We develop an error control approach to provide strict error bounds according to user requirements. We evaluated NeurLZ on several real-world HPC application datasets, including Nyx (cosmological simulation), Miranda (large turbulence simulation), and Hurricane (weather simulation). Experiments demonstrate that our framework achieves up to a 90% relative reduction in bit rate under the same data distortion, compared to the best existing approach.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10
# 人間と画像モデルにおける多視点オブジェクト整合性の評価

Evaluating Multiview Object Consistency in Humans and Image Models ( http://arxiv.org/abs/2409.05862v2 )

ライセンス: Link先を確認
Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros, (参考訳) 人間の観察者と視覚モデルとのアライメントを直接評価するベンチマークを3次元形状推論タスクで導入する。 我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学からの実験的デザインを利用する:一組のイメージを与えられた参加者は、かなりの視点の変化にもかかわらず、同じ/異なる物体を含むものを識別する。 一般的な物体(例:椅子)や抽象的な形状(例:手続き的に生成された「ナンセンス」物体)を含む多様な画像から抽出する。 2000以上のユニークなイメージセットを構築した後、これらのタスクを人間の被験者に管理し、500人以上の参加者から35Kの行動データを収集した。 これには明確な選択行動や、反応時間や視線データなどの中間測度が含まれる。 次に、一般的な視覚モデル(例えば、DINOv2、MAE、CLIP)の性能を評価する。 人間はあらゆるモデルよりも広いマージンで優れています。 マルチスケール評価手法を用いて、モデルと人間の相似性と相違点を同定する。人間モデルの性能は相関するが、人間は挑戦的な試行により多くの時間/処理を割り当てる。 すべてのイメージ、データ、コードは、プロジェクトページからアクセスできます。

We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.
翻訳日:2024-09-11 12:03:11 公開日:2024-09-10