このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240807となっている論文です。

PDF登録状況(公開日: 20240807)

TitleAuthorsAbstract論文公表日・翻訳日
# 逆アンテナ設計のための適応重み付き多目的メメティックアルゴリズム

Multi-objective Memetic Algorithm with Adaptive Weights for Inverse Antenna Design ( http://arxiv.org/abs/2409.14245v1 )

ライセンス: Link先を確認
Petr Kadlec, Miloslav Capek, (参考訳) 本稿では,単目的アルゴリズムの多目的アルゴリズムへの変更について述べる。 その結果、数十から数百までの速度が大幅に向上し、その結果のパレートフロントは、従来の最先端の自動化逆設計システムよりも高品質になった。 この進歩は、勾配に基づく局所最小値探索とヒューリスティック最適化を組み合わせて十分な多様性を維持するメメティックアルゴリズムにより可能である。 局所アルゴリズムはランク1の摂動に基づいており、グローバルアルゴリズムはNSGA-IIである。 重要な進歩は、最適化中の目的関数の適応重み付けである。 この手順は、物理的およびトポロジカルなメトリクスと多目的的な設定の両方を扱う3つの難しい例で検証される。 その結果を標準手法と比較し,提案手法の最高性能を報告する。 実装されたアルゴリズムはアンテナ逆設計問題に適用され、機械学習ツールの効率的なデータマイナである。

This paper describes the modification of a single-objective algorithm into its multi-objective counterpart. The outcome is a considerable increase in speed in the order of tens to hundreds and the resulting Pareto front is of higher quality compared to conventional state-of-the-art automated inverse design setups. This advancement is possible thanks to a memetic algorithm combining a gradient-based search for local minima with heuristic optimization to maintain sufficient diversity. The local algorithm is based on rank-1 perturbations; the global algorithm is NSGA-II. An important advancement is the adaptive weighting of objective functions during optimization. The procedure is tested on three challenging examples dealing with both physical and topological metrics and multi-objective settings. The results are compared with standard techniques, and the superb performance of the proposed technique is reported. The implemented algorithm applies to antenna inverse design problems and is an efficient data miner for machine learning tools.
翻訳日:2024-11-06 23:37:15 公開日:2024-08-07
# インテリジェント光ファイバー通信のためのファイバーニューラルネットワーク

Fiber neural networks for the intelligent optical fiber communications ( http://arxiv.org/abs/2408.12602v1 )

ライセンス: Link先を確認
Yubin Zang, Zuxing Zhang, Simin Li, Fangzheng Zhang, Hongwei Chen, (参考訳) 近年、光学ニューラルネットワークが注目されている。 他の光学構造ニューラルネットワークと同様に、光伝送のメカニズムを利用して計算を行うファイバーニューラルネットワークは、計算効率と消費電力の両方において大きな利点がある。 光ファイバーの潜在的な能力は、ファイバーニューラルネットワークの確立によって実証されたが、5Gのインテリジェント通信信号処理を超える未来のニーズを満たすために、ファイバー伝送とコンピュータ機能を組み合わせることは、非常に重要である。 したがって、このレターでは、ファイバーニューラルネットワークとその関連する光信号処理法が共に開発される。 これにより、送信された信号から得られる情報は、電子領域に変換されるのではなく、光学領域で直接処理することができる。 これにより、処理効率と消費電力の両方の顕著な利得が得られる。 一般性を損なうことなく光ファイバー通信において重要な役割を果たす変調形式認識のタスクにより,構造全体の忠実度とその関連性を実証する。

Optical neural networks have long cast attention nowadays. Like other optical structured neural networks, fiber neural networks which utilize the mechanism of light transmission to compute can take great advantages in both computing efficiency and power cost. Though the potential ability of optical fiber was demonstrated via the establishing of fiber neural networks, it will be of great significance of combining both fiber transmission and computing functions so as to cater the needs of future beyond 5G intelligent communication signal processing. Thus, in this letter, the fiber neural networks and their related optical signal processing methods will be both developed. In this way, information derived from the transmitted signals can be directly processed in the optical domain rather than being converted to the electronic domain. As a result, both prominent gains in processing efficiency and power cost can be further obtained. The fidelity of the whole structure and related methods is demonstrated by the task of modulation format recognition which plays important role in fiber optical communications without losing the generality.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-07
# Sleeper Social Bots:新しい世代のAI偽情報ボットはすでに政治的脅威だ

Sleeper Social Bots: a new generation of AI disinformation bots are already a political threat ( http://arxiv.org/abs/2408.12603v1 )

ライセンス: Link先を確認
Jaiv Doshi, Ines Novacic, Curtis Fletcher, Mats Borges, Elea Zhong, Mark C. Marino, Jason Gan, Sophia Mager, Dane Sprague, Melinda Xia, (参考訳) 本稿では, 情報拡散と世論の操作を目的とした, 政治現場におけるAI駆動型ソーシャルボット「スリーパー・ソーシャルボット」の脅威拡大に関する研究を行う。 私たちは、Sleeperソーシャルボットという名前を、社会的プラットフォーム上で人間として通る能力に基づいています。 南カリフォルニア大学の我々の研究チームは、これらのボットがもたらす脅威を説明するために、プライベートなMastodonサーバーを使ってデモを作成しました。 予備的な発見は、これらのボットが人間として説得力を持って通過し、会話に積極的に参加し、情報の拡散を効果的に行うことを示唆している。 さらに、人間の介在者の反応に基づいて議論を適応させ、その動的かつ説得的な能力を示す。 最初の実験に参加した大学生は、私たちのボットを特定することができず、AI駆動の偽情報、特にボットによって拡散される偽情報の危険性について、認識と教育の急激な必要性を強調した。 私たちの研究の意味は、2024年の米国大統領選挙以降でソーシャルボットがもたらす重大な課題を示している。

This paper presents a study on the growing threat of "sleeper social bots," AI-driven social bots in the political landscape, created to spread disinformation and manipulate public opinion. We based the name sleeper social bots on their ability to pass as humans on social platforms, where they're embedded like political "sleeper" agents, making them harder to detect and more disruptive. To illustrate the threat these bots pose, our research team at the University of Southern California constructed a demonstration using a private Mastodon server, where ChatGPT-driven bots, programmed with distinct personalities and political viewpoints, engaged in discussions with human participants about a fictional electoral proposition. Our preliminary findings suggest these bots can convincingly pass as human users, actively participate in conversations, and effectively disseminate disinformation. Moreover, they can adapt their arguments based on the responses of human interlocutors, showcasing their dynamic and persuasive capabilities. College students participating in initial experiments failed to identify our bots, underscoring the urgent need for increased awareness and education about the dangers of AI-driven disinformation, and in particular, disinformation spread by bots. The implications of our research point to the significant challenges posed by social bots in the upcoming 2024 U.S. presidential election and beyond.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-07
# 動的コードオーケストレーション: 適応型スクリプト実行のための大規模言語モデルのパワーを損なう

Dynamic Code Orchestration: Harnessing the Power of Large Language Models for Adaptive Script Execution ( http://arxiv.org/abs/2408.11060v1 )

ライセンス: Link先を確認
Justin Del Vecchio, Andrew Perreault, Eliana Furmanek, (参考訳) 当初、コンピュータプログラミングは人間が直接目標を機械コードに変換する必要があった。 これらの目的は、簡単に書かれた(あるいは人間の)言語指令として表現できる。 しかし、コンピュータは文章言語を十分に解釈する能力を持っていなかった。 大規模言語モデルは、コンピュータプログラムの自動生成や、書き言葉ディレクティブからのアセンブリコードなど、まさにこの機能を提供する。 本研究では,実行中のアプリケーションのコンテキスト内で書かれた言語ディレクティブの動的コード実行について検討する。 ビジネスロジックは大きな言語モデルプロンプトによって純粋にバックアップされているテキストエディタを実装している。 すなわち、プログラムの実行はプロンプトと記述言語ディレクティブを使用して、必要な時点でアプリケーションロジックを動的に生成する。 この研究は、大規模な言語モデルに支えられて書かれた言語ディレクティブが、いかにして根本的に新しいプログラミングとオペレーティングシステムのパラダイムを提供するかを明確に示している。 例えば、ユーザーが記述された言語ディレクティブを介して要求を直接実装する権限を付与することで、プログラマのチームやリリーススケジュールなどの必要性が代替される。 あるいは、静的実行可能で、リバースエンジニアリングやファジィングのターゲットである新しいセキュリティメカニズムは、もはや存在しない。 それらは一時的な実行ファイルに置き換えられ、継続的に変更され、完全に削除され、容易に更新される。

Computer programming initially required humans to directly translate their goals into machine code. These goals could have easily been expressed as a written (or human) language directive. Computers, however, had no capacity to satisfactorily interpret written language. Large language model's provide exactly this capability; automatic generation of computer programs or even assembly code from written language directives. This research examines dynamic code execution of written language directives within the context of a running application. It implements a text editor whose business logic is purely backed by large language model prompts. That is, the program's execution uses prompts and written language directives to dynamically generate application logic at the point in time it is needed. The research clearly shows how written language directives, backed by a large language model, offer radically new programming and operating system paradigms. For example, empowerment of users to directly implement requirements via written language directives, thus supplanting the need for a team ofprogrammers, a release schedule and the like. Or, new security mechanisms where static executables, always a target for reverse engineering or fuzzing, no longer exist. They are replaced by ephemeral executables that may continually change, be completely removed, and are easily updated.
翻訳日:2024-08-25 14:11:11 公開日:2024-08-07
# StructuredRAG: 大規模言語モデルによるJSON応答予測

StructuredRAG: JSON Response Formatting with Large Language Models ( http://arxiv.org/abs/2408.11061v1 )

ライセンス: Link先を確認
Connor Shorten, Charles Pierse, Thomas Benjamin Smith, Erika Cardenas, Akanksha Sharma, John Trengrove, Bob van Luijt, (参考訳) JSONのような構造化された出力を生成するためのLLM(Large Language Models)の能力は、複合AIシステムでの使用に不可欠である。 しかし、この能力の評価と改善は依然として難しい。 本研究では,LLMの応答形式指示に従う際の習熟度を評価するための6つのタスクのベンチマークであるStructuredRAGを紹介する。 我々は、2つの異なるプロンプト戦略を用いて、4ビット量子化を施した2つの最先端LLMであるGemini 1.5 ProとLlama 3 8Bの評価を行った。 本稿では、これらのプロンプト戦略をf-StringとFollow the Format(FF)プロンプトとして紹介する。 24実験中、平均成功率は82.55%である。 さらに、タスクやモデル、成功率0から100%の戦略の推進など、パフォーマンスのばらつきも高くなっています。 Llama 3 8B命令は、しばしばGemini 1.5 Proと競合する。 タスクの複雑さは、リストや複合オブジェクトのアウトプットを含むタスクにより、パフォーマンスに大きく影響します。 本研究は,LLMにおける構造的出力生成の信頼性と整合性の向上に向けたさらなる研究の必要性を浮き彫りにするものである。 実験コードと結果をgithub.com/weaviate/structured-ragでオープンソース化しました。

The ability of Large Language Models (LLMs) to generate structured outputs, such as JSON, is crucial for their use in Compound AI Systems. However, evaluating and improving this capability remains challenging. In this work, we introduce StructuredRAG, a benchmark of six tasks designed to assess LLMs' proficiency in following response format instructions. We evaluate two state-of-the-art LLMs, Gemini 1.5 Pro and Llama 3 8B-instruct with 4-bit quantization using two distinct prompting strategies. We introduce these prompting strategies as f-String and Follow the Format (FF) prompting. Across 24 experiments, we find an average success rate of 82.55%. We further find a high variance in performance across tasks, models, and prompting strategies with success rates ranging from 0 to 100%. We find that Llama 3 8B-instruct often performs competitively with Gemini 1.5 Pro. We observe that task complexity significantly influences performance, with tasks involving lists or composite object outputs proving more challenging. Our findings highlight the need for further research into improving the reliability and consistency of structured output generation in LLMs. We have open-sourced our experimental code and results at github.com/weaviate/structured-rag.
翻訳日:2024-08-25 14:11:11 公開日:2024-08-07
# 深層学習における適応的摩擦--シグモイドとタン関数による最適化の強化

Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function ( http://arxiv.org/abs/2408.11839v1 )

ライセンス: Link先を確認
Hongye Zheng, Bingxing Wang, Minheng Xiao, Honglin Qin, Zhizhong Wu, Lianghao Tan, (参考訳) 適応オプティマイザは、ディープニューラルネットワークの重み付け更新を導く上で重要であるが、一般化の貧弱や発振の問題といった課題に直面していることが多い。 これに対応するために、Sigmoid 関数と Tanh 関数に基づいて適応摩擦係数を統合する2つの新しい最適化器である sigSignGrad と tanhSignGrad を導入する。 これらのアルゴリズムは、diffGradやAngularGradのような従来のアダム変種で見過ごされる短期勾配情報を利用してパラメータの更新と収束を強化する。我々の理論的解析は、ターゲットパラメータの更新戦略と整合し、最適化軌道の滑らかさと収束率の両方において既存の手法より優れている摩擦係数Sの広範囲な調整能力を実証する。 ResNet50とViTアーキテクチャを用いたCIFAR-10, CIFAR-100, Mini-ImageNetデータセットの大規模な実験により,提案したオプティマイザの優れた性能が確認され, 精度の向上とトレーニング時間の短縮が示された。 SigSignAdamWとsigSignAdamPの変種が示すように、プラグインとして適応的な摩擦係数を既存のオプティマイザに統合するという革新的なアプローチは、確立されたアルゴリズムの最適化性能を高めるための有望な戦略を示す。 本研究は,ディープラーニングにおける最適化設計の進歩に寄与する。

Adaptive optimizers are pivotal in guiding the weight updates of deep neural networks, yet they often face challenges such as poor generalization and oscillation issues. To counter these, we introduce sigSignGrad and tanhSignGrad, two novel optimizers that integrate adaptive friction coefficients based on the Sigmoid and Tanh functions, respectively. These algorithms leverage short-term gradient information, a feature overlooked in traditional Adam variants like diffGrad and AngularGrad, to enhance parameter updates and convergence.Our theoretical analysis demonstrates the wide-ranging adjustment capability of the friction coefficient S, which aligns with targeted parameter update strategies and outperforms existing methods in both optimization trajectory smoothness and convergence rate. Extensive experiments on CIFAR-10, CIFAR-100, and Mini-ImageNet datasets using ResNet50 and ViT architectures confirm the superior performance of our proposed optimizers, showcasing improved accuracy and reduced training time. The innovative approach of integrating adaptive friction coefficients as plug-ins into existing optimizers, exemplified by the sigSignAdamW and sigSignAdamP variants, presents a promising strategy for boosting the optimization performance of established algorithms. The findings of this study contribute to the advancement of optimizer design in deep learning.
翻訳日:2024-08-25 14:01:15 公開日:2024-08-07
# 拡散確率微分モデルを用いた関節PET-MRI再構成

Joint PET-MRI Reconstruction with Diffusion Stochastic Differential Model ( http://arxiv.org/abs/2408.11840v1 )

ライセンス: Link先を確認
Taofeng Xie, Zhuoxu Cui, Congcong Liu, Chen Luo, Huayu Wang, Yuanzhi Zhang, Xuemei Wang, Yihang Zhou, Qiyu Jin, Guoqing Chen, Dong Liang, Haifeng Wang, (参考訳) PETは信号対雑音比が低い。 一方、MRIにおけるk-spaceデータ取得プロセスはPET-MRIシステムで時間を要する。 我々は、MRIを加速し、PET画像の品質を向上させることを目指している。 本稿では,PETとMRIの関節確率分布の学習に基づく拡散確率微分方程式による新しい関節再構成モデルを提案する。 我々のモデルがPETとMRIにもたらす質的かつ定量的な改善を、現在の最先端の方法論を超越した結果と比較する。 PET-MRIの併用はPET-MRIシステムの課題である。 この研究は、縁を越えて広がる関係に焦点を当てている。 本研究では,関節の確率分布を関係として学習し,MRIからPETを生成する。

PET suffers from a low signal-to-noise ratio. Meanwhile, the k-space data acquisition process in MRI is time-consuming by PET-MRI systems. We aim to accelerate MRI and improve PET image quality. This paper proposed a novel joint reconstruction model by diffusion stochastic differential equations based on learning the joint probability distribution of PET and MRI. Compare the results underscore the qualitative and quantitative improvements our model brings to PET and MRI reconstruction, surpassing the current state-of-the-art methodologies. Joint PET-MRI reconstruction is a challenge in the PET-MRI system. This studies focused on the relationship extends beyond edges. In this study, PET is generated from MRI by learning joint probability distribution as the relationship.
翻訳日:2024-08-25 14:01:15 公開日:2024-08-07
# ChatGPTはエンジニアリングデグレをもたらすか?AIアシスタントに対する高等教育の脆弱性を評価する

Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants ( http://arxiv.org/abs/2408.11841v1 )

ライセンス: Link先を確認
Beatriz Borges, Negar Foroutan, Deniz Bayazit, Anna Sotnikova, Syrielle Montariol, Tanya Nazaretzky, Mohammadreza Banaei, Alireza Sakhaeirad, Philippe Servant, Seyed Parsa Neshaei, Jibril Frej, Angelika Romanou, Gail Weiss, Sepideh Mamooler, Zeming Chen, Simin Fan, Silin Gao, Mete Ismayilzada, Debjit Paul, Alexandre Schöpfer, Andrej Janchevski, Anja Tiede, Clarence Linden, Emanuele Troiani, Francesco Salvi, Freya Behrens, Giacomo Orsi, Giovanni Piccioli, Hadrien Sevel, Louis Coulon, Manuela Pineros-Rodriguez, Marin Bonnassies, Pierre Hellich, Puck van Gerwen, Sankalp Gambhir, Solal Pirelli, Thomas Blanchard, Timothée Callens, Toni Abi Aoun, Yannick Calvino Alonso, Yuri Cho, Alberto Chiappa, Antonio Sclocchi, Étienne Bruno, Florian Hofhammer, Gabriel Pescia, Geovani Rizk, Leello Dadi, Lucas Stoffl, Manoel Horta Ribeiro, Matthieu Bovel, Yueyang Pan, Aleksandra Radenovic, Alexandre Alahi, Alexander Mathis, Anne-Florence Bitbol, Boi Faltings, Cécile Hébert, Devis Tuia, François Maréchal, George Candea, Giuseppe Carleo, Jean-Cédric Chappelier, Nicolas Flammarion, Jean-Marie Fürbringer, Jean-Philippe Pellet, Karl Aberer, Lenka Zdeborová, Marcel Salathé, Martin Jaggi, Martin Rajman, Mathias Payer, Matthieu Wyart, Michael Gastpar, Michele Ceriotti, Ola Svensson, Olivier Lévêque, Paolo Ienne, Rachid Guerraoui, Robert West, Sanidhya Kashyap, Valerio Piazza, Viesturs Simanis, Viktor Kuncak, Volkan Cevher, Philippe Schwaller, Sacha Friedli, Patrick Jermann, Tanja Kaser, Antoine Bosselut, (参考訳) AIアシスタントは、高等教育機関に入学する学生によってますます利用されています。 これらのツールは、教育と教育を改善する機会を提供する一方で、評価と学習の成果に対して重要な課題を提起する。 我々は、これらの課題を、脆弱性のレンズ、大学の評価や学習結果が、生成AIの学生利用に影響を及ぼす可能性を通じて概念化する。 我々は,AIアシスタントが標準大学レベルのSTEMコースで評価質問を完遂できる程度を測定することで,この脆弱性の潜在的な規模について検討する。 具体的には、EPFLの50のコースからテキストアセスメントの新たなデータセットを作成し、GPT-3.5とGPT-4の2つのAIアシスタントがこれらの質問に適切に答えられるかどうかを評価する。 我々は、8つのプロンプト戦略を用いて回答を生成し、GPT-4が65.8%の質問に対して正解し、85.1%の質問に対して少なくとも1つのプロンプト戦略で正しい答えを得られることを発見した。 我々のデータセットを学位プログラムでグルーピングする場合、これらのシステムは、既に様々な学位プログラムにおける多数の中核コースの非プロジェクト評価をパスしており、これらのモデルの改善に伴って増幅される高等教育認定のリスクを生じさせる。 この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。

AI assistants are being increasingly used by students enrolled in higher education institutions. While these tools provide opportunities for improved teaching and education, they also pose significant challenges for assessment and learning outcomes. We conceptualize these challenges through the lens of vulnerability, the potential for university assessments and learning outcomes to be impacted by student use of generative AI. We investigate the potential scale of this vulnerability by measuring the degree to which AI assistants can complete assessment questions in standard university-level STEM courses. Specifically, we compile a novel dataset of textual assessment questions from 50 courses at EPFL and evaluate whether two AI assistants, GPT-3.5 and GPT-4 can adequately answer these questions. We use eight prompting strategies to produce responses and find that GPT-4 answers an average of 65.8% of questions correctly, and can even produce the correct answer across at least one prompting strategy for 85.1% of questions. When grouping courses in our dataset by degree program, these systems already pass non-project assessments of large numbers of core courses in various degree programs, posing risks to higher education accreditation that will be amplified as these models improve. Our results call for revising program-level assessment design in higher education in light of advances in generative AI.
翻訳日:2024-08-25 14:01:15 公開日:2024-08-07
# 編集可能なフェアネス:言語モデルにおける微粒バイアス緩和

Editable Fairness: Fine-Grained Bias Mitigation in Language Models ( http://arxiv.org/abs/2408.11843v1 )

ライセンス: Link先を確認
Ruizhe Chen, Yichen Li, Jianfei Yang, Joey Tianyi Zhou, Zuozhu Liu, (参考訳) 公正で正確な予測を生成することは、大規模言語モデル(LLM)を現実世界に展開する上で重要な役割を果たす。 しかし、既存のデバイアス法は必然的に不公平または不正な予測を発生させ、異なる社会集団間の平等を達成するために設計され、評価されるが、個々のコモンセンスの事実は別として、不合理または望ましくない予測を誘発する修正された知識をもたらす。 本稿では,新たに構築されたデータセットと,知識保持と一般化に関するメトリクスを活用することで,性能を体系的に評価する新しいバイアス緩和ベンチマークBiaScopeを確立する。 そこで我々は,個々人の社会的偏見をきめ細かなキャリブレーションが可能な,新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは、社会的バイアスを保存し、小さなモジュールネットワークを統合することで出力を校正する決定的なレイヤを特定し、バイアス軽減と知識保存の要求の両方を考慮している。 総合的な実験により、FASTは、知識保持と下流予測の全体的なモデル能力を損なうことなく、最先端のベースラインを越え、優れたデバイアス性能を持つことを示した。 このことは、LLMの公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。 コードは公開されます。

Generating fair and accurate predictions plays a pivotal role in deploying large language models (LLMs) in the real world. However, existing debiasing methods inevitably generate unfair or incorrect predictions as they are designed and evaluated to achieve parity across different social groups but leave aside individual commonsense facts, resulting in modified knowledge that elicits unreasonable or undesired predictions. In this paper, we first establish a new bias mitigation benchmark, BiaScope, which systematically assesses performance by leveraging newly constructed datasets and metrics on knowledge retention and generalization. Then, we propose a novel debiasing approach, Fairness Stamp (FAST), which enables fine-grained calibration of individual social biases. FAST identifies the decisive layer responsible for storing social biases and then calibrates its outputs by integrating a small modular network, considering both bias mitigation and knowledge-preserving demands. Comprehensive experiments demonstrate that FAST surpasses state-of-the-art baselines with superior debiasing performance while not compromising the overall model capability for knowledge retention and downstream predictions. This highlights the potential of fine-grained debiasing strategies to achieve fairness in LLMs. Code will be publicly available.
翻訳日:2024-08-25 14:01:15 公開日:2024-08-07
# 脳MRIの解剖基盤モデル

Anatomical Foundation Models for Brain MRIs ( http://arxiv.org/abs/2408.07079v1 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Matteo Brunello, Benoit Dufumier, Marco Grangetto, (参考訳) 神経画像における深層学習(DL)は、神経疾患や神経変性疾患の検出においてますます重要になっている。 神経イメージングにおける最も主要なバイオマーカーの1つは、アルツハイマー病など様々な疾患の指標である脳年齢である。 転送学習設定におけるDLモデルの事前学習に脳年齢を用いると、特に異なる条件のデータ不足に対処する場合に有望な結果が示されている。 一方、脳MRIの解剖学的情報(例えば皮質の厚さ)は、多くの下流タスクに転送できる優れた表現を学習するための重要な情報を提供することができる。 本研究では,脳MRIの解剖学的基礎モデルであるAnatCLを提案する。 ) 解剖学的情報を弱対照的な学習アプローチとiiで活用する。 は、多くのダウンストリームタスクで最先端のパフォーマンスを達成する。 アプローチを検証するために,診断分類のための12の下流タスクと10の異なる臨床評価スコアの予測について検討した。

Deep Learning (DL) in neuroimaging has become increasingly relevant for detecting neurological conditions and neurodegenerative disorders. One of the most predominant biomarkers in neuroimaging is represented by brain age, which has been shown to be a good indicator for different conditions, such as Alzheimer's Disease. Using brain age for pretraining DL models in transfer learning settings has also recently shown promising results, especially when dealing with data scarcity of different conditions. On the other hand, anatomical information of brain MRIs (e.g. cortical thickness) can provide important information for learning good representations that can be transferred to many downstream tasks. In this work, we propose AnatCL, an anatomical foundation model for brain MRIs that i.) leverages anatomical information with a weakly contrastive learning approach and ii.) achieves state-of-the-art performances in many different downstream tasks. To validate our approach we consider 12 different downstream tasks for diagnosis classification, and prediction of 10 different clinical assessment scores.
翻訳日:2024-08-19 03:47:26 公開日:2024-08-07
# 大規模言語モデルによるソースコードの品質評価 : 比較研究

Evaluating Source Code Quality with Large Languagem Models: a comparative study ( http://arxiv.org/abs/2408.07082v1 )

ライセンス: Link先を確認
Igor Regis da Silva Simões, Elaine Venson, (参考訳) コード品質は、複雑さ、可読性、テスト容易性、相互運用性、再利用可能性、良いプラクティスや悪いプラクティスの使用など、さまざまなメトリクスで構成されている属性です。 静的コード解析ツールは、コード品質を評価するための属性のセットを測定することを目的としている。 しかしながら、いくつかの品質特性は、コードレビューアクティビティにおいて人間によってのみ測定され、可読性はその例です。 自然言語のテキスト処理能力を考えると、LLM(Large Language Model)がコードの品質を評価することができると仮定する。 本稿では,LLMを静的解析ツールとして使用して得られた結果を記述し,解析し,コード全体の品質を評価することを目的とする。 GPT 3.5 Turbo と GPT 4o の2つのバージョンを比較し,総計1,641 のクラスを解析した。 GPT 3.5 Turbo LLMにはコード品質を評価する能力があり,Sonarのメトリクスと相関関係があることを実証した。 しかし、LSMがSonarQubeと異なる具体的な側面がある。 GPT 4o版では、低品質と評価されたコードに高い分類を割り当てることで、以前のモデルとSonarから切り離された結果が示されなかった。 本研究では,LLMによるコード品質評価の可能性を示す。 しかし, LLMのコスト, 出力のばらつき, 従来の静的解析ツールでは測定されない品質特性の探索など, さらなる研究が必要である。

Code quality is an attribute composed of various metrics, such as complexity, readability, testability, interoperability, reusability, and the use of good or bad practices, among others. Static code analysis tools aim to measure a set of attributes to assess code quality. However, some quality attributes can only be measured by humans in code review activities, readability being an example. Given their natural language text processing capability, we hypothesize that a Large Language Model (LLM) could evaluate the quality of code, including attributes currently not automatable. This paper aims to describe and analyze the results obtained using LLMs as a static analysis tool, evaluating the overall quality of code. We compared the LLM with the results obtained with the SonarQube software and its Maintainability metric for two Open Source Software (OSS) Java projects, one with Maintainability Rating A and the other B. A total of 1,641 classes were analyzed, comparing the results in two versions of models: GPT 3.5 Turbo and GPT 4o. We demonstrated that the GPT 3.5 Turbo LLM has the ability to evaluate code quality, showing a correlation with Sonar's metrics. However, there are specific aspects that differ in what the LLM measures compared to SonarQube. The GPT 4o version did not present the same results, diverging from the previous model and Sonar by assigning a high classification to codes that were assessed as lower quality. This study demonstrates the potential of LLMs in evaluating code quality. However, further research is necessary to investigate limitations such as LLM's cost, variability of outputs and explore quality characteristics not measured by traditional static analysis tools.
翻訳日:2024-08-19 03:47:26 公開日:2024-08-07
# ペン・アンド・ペーパーCS教育のための手書き符号認識

Handwritten Code Recognition for Pen-and-Paper CS Education ( http://arxiv.org/abs/2408.07220v1 )

ライセンス: Link先を確認
Md Sazzad Islam, Moussa Koulako Bala Doumbouya, Christopher D. Manning, Chris Piech, (参考訳) 知的支援ツールを用いた統合開発環境(IDE)や「単に物事を試す」ことに比べ、集中学習が可能であり、注意深い思考が必要である。 ペンや紙の慣れ親しんだ環境は、コンピュータの経験のない学生の認知負荷を減らします。 最後に、この教育アプローチは、コンピュータへのアクセスが限られている学生に学習機会を開放する。 しかし、現在手書きプログラムを運用するための教育方法やサポートソフトウェアが不足している点が大きな障害となっている。 手書きコードの光学文字認識(OCR)は、難しい。 マイナーなOCRエラーは、おそらく様々な手書きスタイルのために、コードの実行を困難にし、インデンテーションの認識はPythonのような言語には不可欠だが、手書きの水平間隔が矛盾しているため、実行が困難である。 我々の手法は2つの革新的な方法を統合する。 1つ目は、OCRとインデント認識モジュールと、幻覚を導入することなく、OCR後の誤り訂正のために設計された言語モデルを組み合わせたものである。 この方法は、我々の知る限り、手書きのコード認識において、既存のすべてのシステムを上回る。 これは、学生プログラムに対する論理的修正の最小限の幻覚で、最先端の30 %から5 %に誤差を減少させる。 第2の方法は、多モーダル言語モデルを利用して、エンドツーエンドで手書きプログラムを認識する。 この貢献により、さらなる教育研究が促進され、CS教育を普遍的に利用できるようにするという目標に貢献できることを願っている。 我々は、将来の研究をサポートする手書きプログラムとコードのデータセットをhttps://github.com/mdoumbouya/codeocrでリリースします。

Teaching Computer Science (CS) by having students write programs by hand on paper has key pedagogical advantages: It allows focused learning and requires careful thinking compared to the use of Integrated Development Environments (IDEs) with intelligent support tools or "just trying things out". The familiar environment of pens and paper also lessens the cognitive load of students with no prior experience with computers, for whom the mere basic usage of computers can be intimidating. Finally, this teaching approach opens learning opportunities to students with limited access to computers. However, a key obstacle is the current lack of teaching methods and support software for working with and running handwritten programs. Optical character recognition (OCR) of handwritten code is challenging: Minor OCR errors, perhaps due to varied handwriting styles, easily make code not run, and recognizing indentation is crucial for languages like Python but is difficult to do due to inconsistent horizontal spacing in handwriting. Our approach integrates two innovative methods. The first combines OCR with an indentation recognition module and a language model designed for post-OCR error correction without introducing hallucinations. This method, to our knowledge, surpasses all existing systems in handwritten code recognition. It reduces error from 30\% in the state of the art to 5\% with minimal hallucination of logical fixes to student programs. The second method leverages a multimodal language model to recognize handwritten programs in an end-to-end fashion. We hope this contribution can stimulate further pedagogical research and contribute to the goal of making CS education universally accessible. We release a dataset of handwritten programs and code to support future research at https://github.com/mdoumbouya/codeocr
翻訳日:2024-08-19 03:47:26 公開日:2024-08-07
# 類似度対策の指針

A Guide to Similarity Measures ( http://arxiv.org/abs/2408.07706v1 )

ライセンス: Link先を確認
Avivit Levy, B. Riva Shalom, Michal Chalamish, (参考訳) 類似度測定は、様々なデータサイエンスアプリケーション領域において、幅広いタスクにおいて中心的な役割を果たす。 このガイドでは、非専門家と専門家の両方に役立てるための、一般的な類似度対策の包括的セットについて説明する。 測度に対するモチベーションとそれを使用する方法を理解したい非専門家は、その測度の公式のフレンドリで詳細な説明を見つけることができる一方、専門家は、所定のアプリケーション領域において、望ましいタスクに対する類似度を測定するためのより良い方法として、類似度測度とアイデアを設計する原則を垣間見ることができる。

Similarity measures play a central role in various data science application domains for a wide assortment of tasks. This guide describes a comprehensive set of prevalent similarity measures to serve both non-experts and professional. Non-experts that wish to understand the motivation for a measure as well as how to use it may find a friendly and detailed exposition of the formulas of the measures, whereas experts may find a glance to the principles of designing similarity measures and ideas for a better way to measure similarity for their desired task in a given application domain.
翻訳日:2024-08-19 03:35:49 公開日:2024-08-07
# SocFedGPT:ソーシャルネットワークにおけるユーザインタラクションを活用したGPTベースの適応コンテンツフィルタリングシステム

SocFedGPT: Federated GPT-based Adaptive Content Filtering System Leveraging User Interactions in Social Networks ( http://arxiv.org/abs/2408.05243v1 )

ライセンス: Link先を確認
Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, (参考訳) 本研究では,ソーシャルメディアプラットフォームにおけるユーザインタラクションとコンテンツ関連性を高めるための多面的アプローチを,フェデレート学習フレームワークを通じて提案する。 我々は、プライバシとセキュリティのためのフェデレーション学習を利用して、パーソナライズされた GPT と Context ベースのソーシャルメディア LLM モデルを導入する。 4つのクライアントエンティティがベースGPT-2モデルとローカルに収集されたソーシャルメディアデータを受信し、統合アグリゲーションにより最新のモデルメンテナンスが保証される。 その後のモジュールは、ユーザー投稿の分類、ユーザーペルソナスコアの計算、友人リストからの関連投稿の特定に重点を置いている。 定量的なソーシャルエンゲージメントアプローチは、行列因数分解技術と相まって、パーソナライズされたコンテンツ提案をリアルタイムで促進する。 適応的なフィードバックループと可読性スコアアルゴリズムにより、ユーザに提示されるコンテンツの品質と関連性も向上する。 我々のシステムは、コンテンツフィルタリングとレコメンデーションに対する包括的なソリューションを提供し、ユーザのプライバシーを保護しながら、調整された、魅力的なソーシャルメディア体験を育みます。

Our study presents a multifaceted approach to enhancing user interaction and content relevance in social media platforms through a federated learning framework. We introduce personalized GPT and Context-based Social Media LLM models, utilizing federated learning for privacy and security. Four client entities receive a base GPT-2 model and locally collected social media data, with federated aggregation ensuring up-to-date model maintenance. Subsequent modules focus on categorizing user posts, computing user persona scores, and identifying relevant posts from friends' lists. A quantifying social engagement approach, coupled with matrix factorization techniques, facilitates personalized content suggestions in real-time. An adaptive feedback loop and readability score algorithm also enhance the quality and relevance of content presented to users. Our system offers a comprehensive solution to content filtering and recommendation, fostering a tailored and engaging social media experience while safeguarding user privacy.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-07
# ブラウザ履歴からのライブチャットインテントの予測

Forecasting Live Chat Intent from Browsing History ( http://arxiv.org/abs/2408.04668v1 )

ライセンス: Link先を確認
Se-eun Yoon, Ahmad Bin Rabiah, Zaid Alibadi, Surya Kallumadi, Julian McAuley, (参考訳) 顧客は、製品の詳細やリターンの要求など、さまざまな意図を持ったオンラインライブチャットエージェントに連絡を取る。 本稿では,閲覧履歴からユーザ意図を予測する問題を提案し,それを2段階のアプローチで解決する。 第1段階は、ユーザのブラウジング履歴を高レベルなインテントカテゴリに分類する。 ここでは、各ブラウジング履歴をページ属性のテキストシーケンスとして表現し、グランドトゥルースクラスラベルを用いて事前学習したトランスフォーマーを微調整する。 第2段階は、閲覧履歴と予測意図クラスを備えた大きな言語モデル(LLM)を提供し、きめ細かいインテントを生成する。 自動評価には,人間の判断と密接に一致した,生成された意図と地道意図の類似性を判断するために,別個のLCMを用いる。 我々の2段階のアプローチは、分類段階を伴わない意図の生成に比べ、大きなパフォーマンス向上をもたらす。

Customers reach out to online live chat agents with various intents, such as asking about product details or requesting a return. In this paper, we propose the problem of predicting user intent from browsing history and address it through a two-stage approach. The first stage classifies a user's browsing history into high-level intent categories. Here, we represent each browsing history as a text sequence of page attributes and use the ground-truth class labels to fine-tune pretrained Transformers. The second stage provides a large language model (LLM) with the browsing history and predicted intent class to generate fine-grained intents. For automatic evaluation, we use a separate LLM to judge the similarity between generated and ground-truth intents, which closely aligns with human judgments. Our two-stage approach yields significant performance gains compared to generating intents without the classification stage.
翻訳日:2024-08-12 17:39:53 公開日:2024-08-07
# プロンプトと偏見

Prompt and Prejudice ( http://arxiv.org/abs/2408.04671v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Marco Bertini, Alberto Del Bimbo, (参考訳) 本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) におけるファーストネームの使用が,特に倫理的意思決定タスクにおいて与える影響について検討する。 本稿では、倫理的に注釈付けされたテキストシナリオにファーストネームを付加して、モデル出力における人口統計バイアスを明らかにするアプローチを提案する。 私たちの研究は、様々な性別や民族的背景を表す300以上の名前のキュレートされたリストを含んでおり、数千の道徳的シナリオでテストされています。 社会科学の監査手法に倣って,これらのシステムにおける偏見の認識と緩和の重要性を強調することによって,一般的なLLM/VLMを包含した詳細な分析手法を提案する。 さらに、日々の意思決定シナリオにおける性別や人口的偏見に関連するバイアスの存在を評価するための新しいベンチマークであるPratical Scenarios Benchmark (PSB)を導入するとともに、LCMが合理的な決定(住宅ローンや保険の付与など)を行うための実践シナリオも導入する。 このベンチマークは、異なる階層カテゴリにわたるモデル行動の包括的な比較を可能にし、LLMやVLMの実践的応用で生じる可能性のあるリスクとバイアスを強調している。

This paper investigates the impact of using first names in Large Language Models (LLMs) and Vision Language Models (VLMs), particularly when prompted with ethical decision-making tasks. We propose an approach that appends first names to ethically annotated text scenarios to reveal demographic biases in model outputs. Our study involves a curated list of more than 300 names representing diverse genders and ethnic backgrounds, tested across thousands of moral scenarios. Following the auditing methodologies from social sciences we propose a detailed analysis involving popular LLMs/VLMs to contribute to the field of responsible AI by emphasizing the importance of recognizing and mitigating biases in these systems. Furthermore, we introduce a novel benchmark, the Pratical Scenarios Benchmark (PSB), designed to assess the presence of biases involving gender or demographic prejudices in everyday decision-making scenarios as well as practical scenarios where an LLM might be used to make sensible decisions (e.g., granting mortgages or insurances). This benchmark allows for a comprehensive comparison of model behaviors across different demographic categories, highlighting the risks and biases that may arise in practical applications of LLMs and VLMs.
翻訳日:2024-08-12 17:39:53 公開日:2024-08-07
# AutoFAIR : 機械読取による自動データフィアライゼーション

AutoFAIR : Automatic Data FAIRification via Machine Reading ( http://arxiv.org/abs/2408.04673v1 )

ライセンス: Link先を確認
Tingyan Ma, Wei Liu, Bin Lu, Xiaoying Gan, Yunqiang Zhu, Luoyi Fu, Chenghu Zhou, (参考訳) データによる爆発的な成長は、データ駆動の研究を加速させ、さまざまな領域の進歩を促進する。 FAIR原則は、データの発見可能性、アクセシビリティ、相互運用性、再利用性を高めることを目的として、ガイド標準として登場した。 しかし、現在の取り組みは、主に手動データFAIRificationに焦点を当てている。 この問題に対処するため,データFAIRnessを自動的に拡張するアーキテクチャであるAutoFAIRを提案する。 まず、各データとメタデータ操作を特定のFAIRインジケータと整合させて、マシン実行可能なアクションをガイドします。 そして,構造化されたデータWebページスキーマがなくても,言語モデルに基づくメタデータを自動的に抽出するためにWeb Readerを利用する。 その後、FAIRアライメントを使用して、オントロジーガイダンスとセマンティックマッチングによってメタデータをFAIR原則に準拠させる。 最後に,様々なデータ,特に山岳災害の分野にAutoFAIRを適用することで,データの発見性,アクセシビリティ,相互運用性,再利用性に大きな改善が見られた。 AutoFAIRの適用前後のFAIRnessスコアは、拡張データ値を示している。

The explosive growth of data fuels data-driven research, facilitating progress across diverse domains. The FAIR principles emerge as a guiding standard, aiming to enhance the findability, accessibility, interoperability, and reusability of data. However, current efforts primarily focus on manual data FAIRification, which can only handle targeted data and lack efficiency. To address this issue, we propose AutoFAIR, an architecture designed to enhance data FAIRness automately. Firstly, We align each data and metadata operation with specific FAIR indicators to guide machine-executable actions. Then, We utilize Web Reader to automatically extract metadata based on language models, even in the absence of structured data webpage schemas. Subsequently, FAIR Alignment is employed to make metadata comply with FAIR principles by ontology guidance and semantic matching. Finally, by applying AutoFAIR to various data, especially in the field of mountain hazards, we observe significant improvements in findability, accessibility, interoperability, and reusability of data. The FAIRness scores before and after applying AutoFAIR indicate enhanced data value.
翻訳日:2024-08-12 17:39:53 公開日:2024-08-07
# ACL Ready: ACLチェックリストのためのRAGベースのアシスタント

ACL Ready: RAG Based Assistant for the ACL Checklist ( http://arxiv.org/abs/2408.04675v1 )

ライセンス: Link先を確認
Michael Galarnyk, Rutwik Routu, Kosha Bheda, Priyanshu Mehta, Agam Shah, Sudheer Chava, (参考訳) ARR Responsible NLP Research checklist Webサイトは、「チェックリストは、責任ある研究のためにベストプラクティスを奨励し、研究倫理、社会的影響、再現性の問題に対処するために設計されている」と述べている。 質問に答えることは、著者が自身の業績を反映し、共有された科学的資産がベストプラクティスに従うことを確実にする機会である。 理想的には、提出前のチェックリストを考慮すると、研究論文の執筆に好影響を与える可能性がある。 しかし、チェックリストは最後に記入されることが多い。 そこで本研究では,著者の作業の反映やACLチェックリストの作成支援に使用可能な検索拡張言語モデルアプリケーションであるACLReadyを紹介する。 システムの有効性を検証するために,13名のユーザを対象に質的研究を行い,92%のユーザが有用で使いやすく,7%のユーザが期待する情報を提供していることが分かった。 私たちのコードはGitHubのCC BY-NC 4.0ライセンスで公開されている。

The ARR Responsible NLP Research checklist website states that the "checklist is designed to encourage best practices for responsible research, addressing issues of research ethics, societal impact and reproducibility." Answering the questions is an opportunity for authors to reflect on their work and make sure any shared scientific assets follow best practices. Ideally, considering the checklist before submission can favorably impact the writing of a research paper. However, the checklist is often filled out at the last moment. In this work, we introduce ACLReady, a retrieval-augmented language model application that can be used to empower authors to reflect on their work and assist authors with the ACL checklist. To test the effectiveness of the system, we conducted a qualitative study with 13 users which shows that 92% of users found the application useful and easy to use as well as 77% of the users found that the application provided the information they expected. Our code is publicly available under the CC BY-NC 4.0 license on GitHub.
翻訳日:2024-08-12 17:39:53 公開日:2024-08-07
# 大規模行動空間における非線形強化学習:後部サンプリングの構造条件とサンプル効率

Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling ( http://arxiv.org/abs/2203.08248v2 )

ライセンス: Link先を確認
Alekh Agarwal, Tong Zhang, (参考訳) リッチな観測と関数近似を備えたRL(Reinforcement Learning)は,特に基礎となる関数近似器が線形である場合,近年著しく進歩している。 この線形状態において、計算的かつ統計的に効率的な方法は、既知の特徴埋め込みを通じて潜在的に無限の状態と作用空間をキャプチャし、これらの特徴の(本質的な)次元のサンプル複雑性をスケーリングするものである。 作用空間が有限であるとき、さらに高度な結果により、基礎となるRL問題に対する適切な構造的制約の下での非線形関数近似が可能となり、例えば、それらへのアクセスを仮定する代わりに良い特徴の学習が可能になる。 本研究では, 一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。 このような問題に対する新しい楽観的な後続サンプリング戦略TS^3を設計し、RL問題のランクパラメータによるスケール保証、本研究で導入された線形埋め込み次元、および関数クラスの複雑性の標準尺度を示す。

Provably sample-efficient Reinforcement Learning (RL) with rich observations and function approximation has witnessed tremendous recent progress, particularly when the underlying function approximators are linear. In this linear regime, computationally and statistically efficient methods exist where the potentially infinite state and action spaces can be captured through a known feature embedding, with the sample complexity scaling with the (intrinsic) dimension of these features. When the action space is finite, significantly more sophisticated results allow non-linear function approximation under appropriate structural constraints on the underlying RL problem, permitting for instance, the learning of good features instead of assuming access to them. In this work, we present the first result for non-linear function approximation which holds for general action spaces under a linear embeddability condition, which generalizes all linear and finite action settings. We design a novel optimistic posterior sampling strategy, TS^3 for such problems, and show worst case sample complexity guarantees that scale with a rank parameter of the RL problem, the linear embedding dimension introduced in this work and standard measures of the function class complexity.
翻訳日:2024-08-09 21:34:30 公開日:2024-08-07
# エッジデータ統合性検証に関する総合的調査:基礎と今後の展望

A Comprehensive Survey on Edge Data Integrity Verification: Fundamentals and Future Trends ( http://arxiv.org/abs/2210.10978v2 )

ライセンス: Link先を確認
Yao Zhao, Youyang Qu, Yong Xiang, Md Palash Uddin, Dezhong Peng, Longxiang Gao, (参考訳) エッジコンピューティング〜(EC)の最近の進歩は、クラウドベースのデータキャッシュサービスをエッジに押し上げたが、このようなエッジストレージは、多くの困難でユニークなセキュリティ問題を引き起こしている。 一つはエッジデータ整合性検証(EDIV)の問題で、複数の参加者(例えば、データ所有者とエッジノード)をコーディネートして、エッジにキャッシュされたデータが本物かどうかを検査する。 現在、EDIV問題に対処する様々な解決策が提案されているが、体系的なレビューはない。 そこで本研究では,現在行われている研究状況,オープンな問題,そしてこの未調査分野をさらに調査する上で有望な洞察を読者に提供することを目的とした,総合的な調査を初めて実施する。 具体的には、EDIV問題の重要性、クラウドとエッジにキャッシュされたデータ間の整合性検証の相違、および対応する検査処理を伴う3つの典型的なシステムモデルについて述べる。 先行研究を徹底的に評価するために,有効な検証手法が満たすべき普遍的基準フレームワークを合成する。 その上で,EDIV研究の進展を逐次的に明らかにするために,スキーマ開発タイムラインが開発され,続いて既存のEDIVソリューションの詳細なレビューが行われる。 最後に、今後の作業における興味深い研究課題と可能な方向性を強調し、今後の技術、例えば機械学習とコンテキスト認識セキュリティがECのセキュリティをいかに強化できるかについて議論する。 EDIVソリューションに様々な機能を備え、研究シナリオを多様化する傾向、EDIVを2種類の参加者(すなわちデータオーナとエッジノード)で完成させる傾向が注目に値する。

Recent advances in edge computing~(EC) have pushed cloud-based data caching services to edge, however, such emerging edge storage comes with numerous challenging and unique security issues. One of them is the problem of edge data integrity verification (EDIV) which coordinates multiple participants (e.g., data owners and edge nodes) to inspect whether data cached on edge is authentic. To date, various solutions have been proposed to address the EDIV problem, while there is no systematic review. Thus, we offer a comprehensive survey for the first time, aiming to show current research status, open problems, and potentially promising insights for readers to further investigate this under-explored field. Specifically, we begin by stating the significance of the EDIV problem, the integrity verification difference between data cached on cloud and edge, and three typical system models with corresponding inspection processes. To thoroughly assess prior research efforts, we synthesize a universal criteria framework that an effective verification approach should satisfy. On top of it, a schematic development timeline is developed to reveal the research advance on EDIV in a sequential manner, followed by a detailed review of the existing EDIV solutions. Finally, we highlight intriguing research challenges and possible directions for future work, along with a discussion on how forthcoming technology, e.g., machine learning and context-aware security, can augment security in EC. Given our findings, some major observations are: there is a noticeable trend to equip EDIV solutions with various functions and diversify study scenarios; completing EDIV within two types of participants (i.e., data owner and edge nodes) is garnering escalating interest among researchers; although the majority of existing methods rely on cryptography, emerging technology is being explored to handle the EDIV problem.
翻訳日:2024-08-09 21:29:15 公開日:2024-08-07
# 因果的抽象化:機械的解釈可能性の理論的基礎

Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability ( http://arxiv.org/abs/2301.04709v3 )

ライセンス: Link先を確認
Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard, (参考訳) 因果的抽象化は、既知のが不透明なブラックボックスAIモデルの低レベル詳細を忠実に単純化する無知なアルゴリズムを提供する分野である、機械論的解釈可能性の理論的基盤を提供する。 本研究の貢献は,(1) 機構置換(ハードとソフトの介入)から任意の機構変換(例えば,古い機構から新しい機構への機能)への因果的抽象化理論の一般化,(2) モジュラー特徴,ポリセマンティックニューロン,次数的忠実性のコア概念の柔軟かつ正確な形式化,(3) 因果的抽象の共通言語,すなわち活性化と経路パッチング,因果的仲介分析,因果的追跡,因果的追跡,回路解析,概念消去,バイナリマスク,分散アライメント,アクティベーションステアリングといった機械的解釈可能性方法論の統一,である。

Causal abstraction provides a theoretical foundation for mechanistic interpretability, the field concerned with providing intelligible algorithms that are faithful simplifications of the known, but opaque low-level details of black box AI models. Our contributions are (1) generalizing the theory of causal abstraction from mechanism replacement (i.e., hard and soft interventions) to arbitrary mechanism transformation (i.e., functionals from old mechanisms to new mechanisms), (2) providing a flexible, yet precise formalization for the core concepts of modular features, polysemantic neurons, and graded faithfulness, and (3) unifying a variety of mechanistic interpretability methodologies in the common language of causal abstraction, namely activation and path patching, causal mediation analysis, causal scrubbing, causal tracing, circuit analysis, concept erasure, sparse autoencoders, differential binary masking, distributed alignment search, and activation steering.
翻訳日:2024-08-09 21:29:15 公開日:2024-08-07
# Mixture-of-Supernets:Architecture-Routed Mixture-of-Expertsによるウェイトシェアリング・スーパーネットトレーニングの改善

Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts ( http://arxiv.org/abs/2306.04845v2 )

ライセンス: Link先を確認
Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang, Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra, (参考訳) 軽量共有スーパーネットは、最先端のニューラルネットワークサーチ(NAS)フレームワークのパフォーマンス推定に不可欠である。 様々なサブネットを再訓練せずに作成できるにもかかわらず、これらのサブネットの品質は重量共有のため保証されていない。 機械翻訳や事前訓練された言語モデリングといったNLPタスクでは、同じモデルアーキテクチャにおいて、スーパーネットとスクラッチからのトレーニングの間に大きなパフォーマンスギャップがあり、最適なアーキテクチャの識別後の再トレーニングが必要になります。 そこで本研究では,Mix-of-experts(MoE)を応用し,トレーニングオーバーヘッドを最小限に抑えたスーパーネットモデルの表現性を向上する手法であるMix-of-supernetsを提案する。 従来のスーパーネットとは異なり、この手法はアーキテクチャに基づくルーティング機構を採用しており、サブネット間でモデルの重みを間接的に共有することができる。 特定のアーキテクチャの重みのカスタマイズは、勾配勾配から学習し、再訓練時間を最小化し、NLPのトレーニング効率を大幅に向上させる。 提案手法は,高速機械翻訳モデルにおけるNASの最先端(SoTA)性能を達成し,機械翻訳のためのSOTANASフレームワークであるHATと比較して遅延-BLEUトレードオフが優れていることを示す。 さらに、メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASを抜いて、NAS-BERTとAutoDistilを様々なモデルサイズで超越している。 コードはhttps://github.com/UBC-NLP/MoS.comで参照できる。

Weight-sharing supernets are crucial for performance estimation in cutting-edge neural architecture search (NAS) frameworks. Despite their ability to generate diverse subnetworks without retraining, the quality of these subnetworks is not guaranteed due to weight sharing. In NLP tasks like machine translation and pre-trained language modeling, there is a significant performance gap between supernet and training from scratch for the same model architecture, necessitating retraining post optimal architecture identification. This study introduces a solution called mixture-of-supernets, a generalized supernet formulation leveraging mixture-of-experts (MoE) to enhance supernet model expressiveness with minimal training overhead. Unlike conventional supernets, this method employs an architecture-based routing mechanism, enabling indirect sharing of model weights among subnetworks. This customization of weights for specific architectures, learned through gradient descent, minimizes retraining time, significantly enhancing training efficiency in NLP. The proposed method attains state-of-the-art (SoTA) performance in NAS for fast machine translation models, exhibiting a superior latency-BLEU tradeoff compared to HAT, the SoTA NAS framework for machine translation. Furthermore, it excels in NAS for building memory-efficient task-agnostic BERT models, surpassing NAS-BERT and AutoDistil across various model sizes. The code can be found at: https://github.com/UBC-NLP/MoS.
翻訳日:2024-08-09 21:19:13 公開日:2024-08-07
# 言語モデルからの効果的なプロンプト抽出

Effective Prompt Extraction from Language Models ( http://arxiv.org/abs/2307.06865v3 )

ライセンス: Link先を確認
Yiming Zhang, Nicholas Carlini, Daphne Ippolito, (参考訳) 大規模言語モデルが生成するテキストは、ユーザのクエリにプリコンパイルされたプロンプトがモデルの出力をガイドするプロンプトによって一般的に制御される。 企業がモデルをガイドするために使用するプロンプトは、しばしばシークレットとして扱われ、クエリを行うユーザから隠される。 商品として扱われ、市場で販売されることもある。 しかし、逸話報告では、敵のユーザはこれらのプロンプトを回復するために即時抽出攻撃を利用している。 本稿では,これらの攻撃の有効性を体系的に評価する枠組みを提案する。 3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。 本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。 Claude 3 や ChatGPT のような実システムからのプロンプト抽出は、既存の防御にもかかわらず、相手によってシステムプロンプトを明らかにすることができることを示唆している。

The text generated by large language models is commonly controlled by prompting, where a prompt prepended to a user's query guides the model's output. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold on marketplaces. However, anecdotal reports have shown adversarial users employing prompt extraction attacks to recover these prompts. In this paper, we present a framework for systematically measuring the effectiveness of these attacks. In experiments with 3 different sources of prompts and 11 underlying large language models, we find that simple text-based attacks can in fact reveal prompts with high probability. Our framework determines with high precision whether an extracted prompt is the actual secret prompt, rather than a model hallucination. Prompt extraction from real systems such as Claude 3 and ChatGPT further suggest that system prompts can be revealed by an adversary despite existing defenses in place.
翻訳日:2024-08-09 21:19:12 公開日:2024-08-07
# SafeDreamer: 世界モデルによる安全な強化学習

SafeDreamer: Safe Reinforcement Learning with World Models ( http://arxiv.org/abs/2307.07176v3 )

ライセンス: Link先を確認
Weidong Huang, Jiaming Ji, Chunhe Xia, Borong Zhang, Yaodong Yang, (参考訳) 実世界のアプリケーションにおける強化学習(RL)の展開は、安全性基準を満たしていないことによる制約がある。 既存のSafe Reinforcement Learning (SafeRL)メソッドは、安全性を強制するためにコスト関数に依存しており、複雑なシナリオ、特に視覚のみのタスクにおいてゼロコストのパフォーマンスを達成することができないことが多い。 これらの制限は、主にモデルの不正確さとサンプル効率の不十分さに起因する。 世界モデルの統合は、これらの欠点を軽減するのに有効であることが証明されている。 本研究では,より優れたドリーマーフレームワーク内の世界モデル計画プロセスにラグランジュ的手法を取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。 提案手法は,低次元および視覚のみの入力にまたがる各種タスクにおけるほぼゼロコスト性能をセーフティ・ジムナシウム・ベンチマークで達成し,RLタスクの性能と安全性のバランスをとる上での有効性を示す。 詳細は、コードリポジトリにある。 \url{https://github.com/PKU-Alignment/SafeDreamer}。

The deployment of Reinforcement Learning (RL) in real-world applications is constrained by its failure to satisfy safety criteria. Existing Safe Reinforcement Learning (SafeRL) methods, which rely on cost functions to enforce safety, often fail to achieve zero-cost performance in complex scenarios, especially vision-only tasks. These limitations are primarily due to model inaccuracies and inadequate sample efficiency. The integration of the world model has proven effective in mitigating these shortcomings. In this work, we introduce SafeDreamer, a novel algorithm incorporating Lagrangian-based methods into world model planning processes within the superior Dreamer framework. Our method achieves nearly zero-cost performance on various tasks, spanning low-dimensional and vision-only input, within the Safety-Gymnasium benchmark, showcasing its efficacy in balancing performance and safety in RL tasks. Further details can be found in the code repository: \url{https://github.com/PKU-Alignment/SafeDreamer}.
翻訳日:2024-08-09 21:19:12 公開日:2024-08-07
# 2チャンネル近藤モデルの体系的コンパクト化 I. 連続ボゾン化デボゾン化法と正確な比較

Systematic compactification of the two-channel Kondo model. I. Consistent bosonization-debosonization approach and exact comparisons ( http://arxiv.org/abs/2308.03569v2 )

ライセンス: Link先を確認
Aleksandar Ljepoja, C. J. Bolech, Nayana Shah, (参考訳) 近藤型量子不純物モデルの研究におけるボゾン化脱ボゾン化法の一貫した利用を非平衡条件下においても明らかにした最近の研究から、2チャンネルの近藤モデルのコンパクト化手順を再検討し(これによりモデルの単一チャネルバージョンを用いてより「コンパクト」に書き直され、スピンと電荷の分離と双対性を利用する)、その有効範囲を制限するいくつかの隠れ近似を解明する。 これは、2つまたはそれ以上のチャンネルに対して、これらのモデルのトゥールーズ限界に関する以前の研究を補完し拡張し、これらの計算で拡張されたフレームワークの使用の必要性を補強する。 我々は、異なるモデル間の正確な比較を行い、そのモデルのコンパクト化とオリジナルバージョン間の完全一致に繋がる、いわゆる一貫性因子の追跡を行うことを示す。

Capitalizing on recent work, that clarifies the consistent use of bosonization-debosonization methods to study Kondo-type quantum impurity models even in nonequilibrium settings, we revisit the compactification procedure of the two-channel Kondo model (by which it is rewritten more ``compactly'' using the single-channel version of the model and exploiting separation and duality between spin and charge) and uncover some hidden approximations that could limit its range of validity. This complements and extends, for two or any even number of channels, beyond previous work on the Toulouse limit of these models, and reinforces the need for the use of an extended framework in these calculations. We carry out a number of exact comparisons between the different models, and show that keeping track of the, so-called, consistency factors leads to full agreement between the compactified and original versions of the model.
翻訳日:2024-08-09 21:09:27 公開日:2024-08-07
# 2チャンネル近藤モデルの体系的コンパクト化 II. スケーリングと普遍性の比較研究

Systematic compactification of the two-channel Kondo model. II. Comparative study of scaling and universality ( http://arxiv.org/abs/2308.03590v2 )

ライセンス: Link先を確認
Aleksandar Ljepoja, Nayana Shah, C. J. Bolech, (参考訳) 2チャンネルのコンドモデルの体系的コンパクト化(およびマルチチャネル拡張: $\href{https://doi.org/10.48550/arXiv.2308.03569}{\textsf{companion paper I}}$)と過去のコンパクト化の提案に対する妥当性の実証に続いて、アンダーソンの単純な貧乏者の手順を用いて、これらの2つのモデルと元のモデルの比較研究を行う。 このようにして、スケーリング時にどのように流れるかという3つのモデル間の普遍的な合意を明らかにし、そのような一致の一般的な限界を提案する。 このようにして、多くのボゾン化に基づく写像(特に量子不純物モデル)において標準の単純化が暗黙化される条件をさらに解明し、一貫したボゾン化-デボゾン化アプローチが必要な場合には、確実に使用することができる。

Following up on the systematic compactification of the two-channel Kondo model (and its multichannel extensions; see $\href{https://doi.org/10.48550/arXiv.2308.03569}{\textsf{companion paper I}}$) and the demonstration of its validity over the past proposal of compactification, we resort to a study of scaling using Anderson's simple poor man's procedure to carry out a comparative study of these two and the original model. By doing so we unveil a universal agreement among the three models in how they flow upon scaling, and suggest the general limits of such a concordance. In this way we further elucidate the conditions under which the standard simplifications implicit in many bosonization-based mappings (particularly of quantum impurity models) can be used reliably, and when the consistent bosonization-debosonization approach is needed.
翻訳日:2024-08-09 21:09:27 公開日:2024-08-07
# 2チャンネル近藤モデルの体系的コンパクト化 III. 拡張場理論的再正規化群解析

Systematic compactification of the two-channel Kondo model. III. Extended field-theoretic renormalization group analysis ( http://arxiv.org/abs/2308.03606v2 )

ライセンス: Link先を確認
Aleksandar Ljepoja, C. J. Bolech, Nayana Shah, (参考訳) 本研究では,Callan-Symanzik方程式に基づく場理論的再正規化群計算を行い,(複数)2チャネル近藤モデルとそのコンパクト化バージョンについて詳細な流れを計算した。 そうすることで、貧弱な人のスケーリング($\href{https://doi.org/10.48550/arXiv.2308.03590}{\textsf{companion paper II}}$参照)を使って得られるベータ関数の普遍的な用語を超えて、モデルのコンパクト化バージョンがオリジナルのものに対してどのように振舞うかを解析できる。 その結果,大チャネル数制限を探索し,有限温度クロスオーバー領域への検討を拡大した。 さらに,一貫したボゾン化脱ボゾン化形式と従来のボゾン化脱ボゾン化形式との相違について考察し,複数の面での理解を深める。 特に、前述した並列コンド相互作用の一貫性のある参照化をさらに正当化するために、再正規化-フローの引数を利用する($\href{https://doi.org/10.48550/arXiv.2308.03569}{\textsf{companion paper I}}$)。

We carry out a field-theoretical renormalization group procedure based on the Callan-Symanzik equation to calculate the detailed flow for the (multi) two-channel Kondo model and its compactified versions. In doing so, we go beyond the universal terms in the beta function we obtained using poor man's scaling (see $\href{https://doi.org/10.48550/arXiv.2308.03590}{\textsf{companion paper II}}$) and culminate our analysis of how the compactified versions of the model fare against the original one. Among other results, we explore the large-channel-number limit and extend our considerations to the finite temperature crossover region. Moreover, we gain insights into the contradistinction between the consistent vs. conventional bosonization-debosonization formalisms, thereby advancing our understanding on multiple fronts. In particular, we make use of renormalization-flow arguments to further justify the consistent refermionization of the parallel Kondo interaction we presented earlier (see $\href{https://doi.org/10.48550/arXiv.2308.03569}{\textsf{companion paper I}}$)
翻訳日:2024-08-09 21:09:27 公開日:2024-08-07
# 大規模言語モデルからのFact-checking情報は見出し識別を減少させる

Fact-checking information from large language models can decrease headline discernment ( http://arxiv.org/abs/2308.10800v4 )

ライセンス: Link先を確認
Matthew R. DeVerna, Harry Yaojun Yan, Kai-Cheng Yang, Filippo Menczer, (参考訳) ファクトチェックは誤情報に対する効果的な戦略であるが、その大規模実装はオンラインでの圧倒的な情報量によって妨げられる。 近年の人工知能(AI)言語モデルでは,事実確認タスクにおいて顕著な能力を発揮している。 本稿では,大衆大言語モデル(LLM)が生成した事実確認情報が,事前登録されたランダム化制御実験における政治的ニュース見出しの信条および共有意図に及ぼす影響について検討する。 LLMは、ほとんどの偽の見出し(90%)を正確に識別するが、この情報は、見出しの正確さを識別したり、正確なニュースを共有したりする参加者の能力を著しく改善しない。 対照的に、人為的な事実チェックを見ることは、両方のケースにおける識別を高める。 その後の分析では、AIファクトチェッカーは特定のケースでは有害であることが明らかになっている。 ポジティブな面では、AIファクトチェック情報は、正しくラベル付けされた真の見出しの共有意図を高める。 LLMのファクトチェックを閲覧してそれを選択するオプションが与えられると、真偽のニュースと偽のニュースの両方を共有する傾向が著しく高くなるが、偽の見出しを信じる傾向が強い。 我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにし、意図しない結果の防止や緩和のための政策のクリティカルな必要性を浮き彫りにしている。

Fact checking can be an effective strategy against misinformation, but its implementation at scale is impeded by the overwhelming volume of information online. Recent artificial intelligence (AI) language models have shown impressive ability in fact-checking tasks, but how humans interact with fact-checking information provided by these models is unclear. Here, we investigate the impact of fact-checking information generated by a popular large language model (LLM) on belief in, and sharing intent of, political news headlines in a preregistered randomized control experiment. Although the LLM accurately identifies most false headlines (90%), we find that this information does not significantly improve participants' ability to discern headline accuracy or share accurate news. In contrast, viewing human-generated fact checks enhances discernment in both cases. Subsequent analysis reveals that the AI fact-checker is harmful in specific cases: it decreases beliefs in true headlines that it mislabels as false and increases beliefs in false headlines that it is unsure about. On the positive side, AI fact-checking information increases the sharing intent for correctly labeled true headlines. When participants are given the option to view LLM fact checks and choose to do so, they are significantly more likely to share both true and false news but only more likely to believe false headlines. Our findings highlight an important source of potential harm stemming from AI applications and underscore the critical need for policies to prevent or mitigate such unintended consequences.
翻訳日:2024-08-09 21:09:27 公開日:2024-08-07
# 高次元RBMのドリフト制御:ニューラルネットワークに基づく計算法

Drift Control of High-Dimensional RBM: A Computational Method Based on Neural Networks ( http://arxiv.org/abs/2309.11651v4 )

ライセンス: Link先を確認
Baris Ata, J. Michael Harrison, Nian Si, (参考訳) 待ち行列理論の応用により、状態空間が$d$次元正のオーサントである確率的制御問題を考える。 制御過程の$Z$は、共分散行列が等質的に指定されたブラウン運動として進化し、オーサントの境界面からの反射の方向が変化する。 システムマネージャがドリフトベクトル $\theta(t)$ を各時点 $t$ の履歴に基づいて選択し、時間 $t$ のコストレートは $Z(t)$ と $\theta(t)$ の両方に依存する。 最初の問題定式化では、無限の計画地平線上で期待される割引コストを最小化し、その後、対応するエルゴード制御問題を扱う。 Han et al (2018, 8505-8510) による以前の研究を拡張して, ディープニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し, 解説する。 これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。

Motivated by applications in queueing theory, we consider a stochastic control problem whose state space is the $d$-dimensional positive orthant. The controlled process $Z$ evolves as a reflected Brownian motion whose covariance matrix is exogenously specified, as are its directions of reflection from the orthant's boundary surfaces. A system manager chooses a drift vector $\theta(t)$ at each time $t$ based on the history of $Z$, and the cost rate at time $t$ depends on both $Z(t)$ and $\theta(t)$. In our initial problem formulation, the objective is to minimize expected discounted cost over an infinite planning horizon, after which we treat the corresponding ergodic control problem. Extending earlier work by Han et al. (Proceedings of the National Academy of Sciences, 2018, 8505-8510), we develop and illustrate a simulation-based computational method that relies heavily on deep neural network technology. For test problems studied thus far, our method is accurate to within a fraction of one percent, and is computationally feasible in dimensions up to at least $d=30$.
翻訳日:2024-08-09 21:09:27 公開日:2024-08-07
# LLM性能予測器はアーキテクチャ検索に適した初期化器である

LLM Performance Predictors are good initializers for Architecture Search ( http://arxiv.org/abs/2310.16712v2 )

ライセンス: Link先を確認
Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Dujian Ding, (参考訳) 本研究では、下流タスクにおける特定のディープニューラルネットワークアーキテクチャの性能を推定するパフォーマンス予測器(PP)の構築という、新しいユースケースにLarge Language Models(LLM)を利用する。 我々はLPMのためのPPプロンプトを作成し、 (i)役割記述 (ii) LLM の指示 (三)ハイパーパラメータの定義、及び (4) 効率メトリクスと‘スクラッチからトレーニングする’パフォーマンスを備えたサンプルアーキテクチャのデモ。 機械翻訳 (MT) タスクでは, PPプロンプト (LLM-PP) を用いた GPT-4 は SoTA 平均絶対誤差と, ベースライン予測器と比較してランク相関係数がわずかに低下する。 さらに, LLM-PP からの予測をコンパクト回帰モデル (LLM-Distill-PP) に蒸留し, LLM-PP の性能の多くを驚くほど維持できることを示した。 これは、リソース集約的なパフォーマンス推定のコスト効率の代替となる。 具体的には、ニューラルネットワーク探索(NAS)において、LLM-Distill-PPを用いたハイブリッド探索アルゴリズム(HS-NAS)を導入し、後にベースライン予測器に回帰する。 HS-NASはSoTA NASと同様に動作し、検索時間を約50%削減し、場合によってはレイテンシ、GFLOP、モデルサイズを改善している。 コードは https://github.com/UBC-NLP/llmas で参照できる。

In this work, we utilize Large Language Models (LLMs) for a novel use case: constructing Performance Predictors (PP) that estimate the performance of specific deep neural network architectures on downstream tasks. We create PP prompts for LLMs, comprising (i) role descriptions, (ii) instructions for the LLM, (iii) hyperparameter definitions, and (iv) demonstrations presenting sample architectures with efficiency metrics and `training from scratch' performance. In machine translation (MT) tasks, GPT-4 with our PP prompts (LLM-PP) achieves a SoTA mean absolute error and a slight degradation in rank correlation coefficient compared to baseline predictors. Additionally, we demonstrate that predictions from LLM-PP can be distilled to a compact regression model (LLM-Distill-PP), which surprisingly retains much of the performance of LLM-PP. This presents a cost-effective alternative for resource-intensive performance estimation. Specifically, for Neural Architecture Search (NAS), we introduce a Hybrid-Search algorithm (HS-NAS) employing LLM-Distill-PP for the initial search stages and reverting to the baseline predictor later. HS-NAS performs similarly to SoTA NAS, reducing search hours by approximately 50%, and in some cases, improving latency, GFLOPs, and model size. The code can be found at: https://github.com/UBC-NLP/llmas.
翻訳日:2024-08-09 20:59:13 公開日:2024-08-07
# ニューラルコード生成のための関数オーバーラップリグレード

Functional Overlap Reranking for Neural Code Generation ( http://arxiv.org/abs/2311.03366v4 )

ライセンス: Link先を確認
Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui, (参考訳) Code Large Language Models (CodeLLMs) は、コード生成の進歩の新たな時代を支えている。 しかし、可能なすべてのCodeLLM出力から最高のコードソリューションを選択することは、依然として困難である。 それまでの手法では、複雑な機能的類似性やソリューションクラスタ間の相互作用を見落としていた。 SRankは、ソリューションのクラスタ間の関係をモデル化することに焦点を当てた、コード生成から最良のソリューションを選択するための、新しい優先順位付け戦略である。 ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。 実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。 例えば、Human-Evalベンチマークでは、Codex002で69.66%、WizardCoderで75.31%、StarCoderで53.99%、CodeGenで60.55%、同じCodeLLMでCodeTやCoder-Reviewerのような最先端のコード生成メソッドをかなり上回っている(平均で約6.1%改善)。 サンプル化されたソリューションやテストケースが限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たなベンチマークを再評価します。 私たちの実装はhttps://github.com/FSoft-AI4Code/SRank-CodeRankerで確認できます。

Code Large Language Models (CodeLLMs) have ushered in a new era in code generation advancements. However, selecting the best code solutions from all possible CodeLLM outputs remains a challenge. Previous methods often overlooked the intricate functional similarities and interactions between solution clusters. We introduce SRank, a novel reranking strategy for selecting the best solutions from code generation, focusing on modeling the relationships between clusters of solutions. By quantifying the functional overlap between solution clusters, our approach provides a better ranking strategy for code solutions. Empirical results show that our method achieves remarkable results on the pass@1 score. For instance, on the Human-Eval benchmark, we achieve 69.66% in pass@1 with Codex002, 75.31% with WizardCoder, 53.99% with StarCoder, and 60.55% with CodeGen, surpassing state-of-the-art code generation reranking methods such as CodeT and Coder-Reviewer on the same CodeLLM by a significant margin (approximately 6.1% improvement on average). Even in scenarios with a limited number of sampled solutions and test cases, our approach demonstrates robustness and superiority, marking a new benchmark in code generation reranking. Our implementation can be found at https://github.com/FSoft-AI4Code/SRank-CodeRanker.
翻訳日:2024-08-09 20:59:13 公開日:2024-08-07
# ランダム純粋ガウス状態とホーキング放射

Random pure Gaussian states and Hawking radiation ( http://arxiv.org/abs/2311.10562v3 )

ライセンス: Link先を確認
Erik Aurell, Lucas Hackl, Paweł Horodecki, Robert H. Jonsson, Mario Kieburg, (参考訳) ブラックホールはホーキング放射によって蒸発する。 その放射のそれぞれのモードは熱である。 にもかかわらず、全体状態が純粋であるなら、モードは絡み合わなければならない。 この絡み合いの最小サイズを推定することは重要な問題である。 制約付きランダムシンプレクティック変換の新しい理論は、全状態が純粋かつガウス的かつ与えられた限界を持つという理論に基づいて展開する。 ランダムな制約付きシンプレクティックモデルでは、モードモード相関の分布を計算し、モードモードの絡み合いを計算します。 周波数モードは、$\frac{k_B T_{H}(t)}{\hbar}$よりはるかに大きいが、時給$t$で占有されず、解析から外れる。 一方、相対的に人口密度が高いモード(初期低周波モード)は強い相関関係を持つことがあるが、詳細な分析により、それらが絡み合う可能性が極めて低いことが明らかになった。 したがって、ブラックホールの完全な蒸発後に一元性を取り戻すためには、ホーキングモード間の量子的絡み合いは不要である。 我々の分析は、ブラックホール物理学を超えて応用できるような、与えられた限界を持つランダムで純粋なガウス状態におけるモードモード相関の分布について、正確な一般表現を与える。

A black hole evaporates by Hawking radiation. Each mode of that radiation is thermal. If the total state is nevertheless to be pure, modes must be entangled. Estimating the minimum size of this entanglement has been an important outstanding issue. We develop a new theory of constrained random symplectic transformations, based on that the total state is pure and Gaussian with given marginals. In the random constrained symplectic model we then compute the distribution of mode-mode correlations, from which we bound mode-mode entanglement. Modes of frequency much larger than $\frac{k_B T_{H}(t)}{\hbar}$ are not populated at time $t$ and drop out of the analysis.Among the other modes we find that correlations and hence entanglement between relatively thinly populated modes (early-time high-frequency modes and/or late modes of any frequency) to be strongly suppressed. Relatively highly populated modes (early-time low-frequency modes) can on the other hand be strongly correlated, but a detailed analysis reveals that they are nevertheless very unlikely to be entangled. Our analysis hence establishes that restoring unitarity after a complete evaporation of a black hole does not require any significant quantum entanglement between any pair of Hawking modes. Our analysis further gives exact general expressions for the distribution of mode-mode correlations in random, pure, Gaussian states with given marginals, which may have applications beyond black hole physics.
翻訳日:2024-08-09 20:59:13 公開日:2024-08-07
# 創発的医用画像評価のための特徴抽出 : 進化する傾向に対する新たな証拠

Feature Extraction for Generative Medical Imaging Evaluation: New Evidence Against an Evolving Trend ( http://arxiv.org/abs/2311.13717v4 )

ライセンス: Link先を確認
McKell Woodland, Austin Castelo, Mais Al Taie, Jessica Albuquerque Marques Silva, Mohamed Eltaher, Frank Mohn, Alexander Shieh, Suprateek Kundu, Joshua P. Yung, Ankit B. Patel, Kristy K. Brock, (参考訳) Fr'echet Inception Distance (FID)は、合成画像の品質を評価するために広く用いられている指標である。 ImageNetベースの特徴抽出装置に依存しており、医療画像に適用可能であるかどうかは不明だ。 最近のトレンドは、医用画像で訓練された特徴抽出器を通して、医用画像にFIDを適用することである。 本研究では,ImageNetをベースとした抽出器がRadImageNetよりも人間の判断に整合していることを示すことで,この実践に挑戦する。 我々は,Fr'echet distances (FDs) を用いた4つの医用画像モダリティと4つのデータ拡張技術を用いた16のStyleGAN2ネットワークの評価を行った。 視覚的チューリングテストによる人的判断と比較したところ,ImageNetをベースとした抽出機が人的判断と整合性のあるランキングを作成したのに対し,ImageNetをトレーニングしたSwaV抽出機から抽出したFDは専門家による評価と有意な相関を示した。 対照的に、RadImageNetベースのランキングは不安定であり、人間の判断とは矛盾していた。 以上の結果から,医用画像抽出装置はFDを本質的に改善せず,信頼性を損なうことさえできないという新たな証拠が得られた。 私たちのコードはhttps://github.com/mckellwoodland/fid-med-eval.comで利用可能です。

Fr\'echet Inception Distance (FID) is a widely used metric for assessing synthetic image quality. It relies on an ImageNet-based feature extractor, making its applicability to medical imaging unclear. A recent trend is to adapt FID to medical imaging through feature extractors trained on medical images. Our study challenges this practice by demonstrating that ImageNet-based extractors are more consistent and aligned with human judgment than their RadImageNet counterparts. We evaluated sixteen StyleGAN2 networks across four medical imaging modalities and four data augmentation techniques with Fr\'echet distances (FDs) computed using eleven ImageNet or RadImageNet-trained feature extractors. Comparison with human judgment via visual Turing tests revealed that ImageNet-based extractors produced rankings consistent with human judgment, with the FD derived from the ImageNet-trained SwAV extractor significantly correlating with expert evaluations. In contrast, RadImageNet-based rankings were volatile and inconsistent with human judgment. Our findings challenge prevailing assumptions, providing novel evidence that medical image-trained feature extractors do not inherently improve FDs and can even compromise their reliability. Our code is available at https://github.com/mckellwoodland/fid-med-eval.
翻訳日:2024-08-09 20:47:49 公開日:2024-08-07
# SPOC: シミュレーションにおける最短経路の省略により, 実世界における効果的なナビゲーションと操作が可能となる

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World ( http://arxiv.org/abs/2312.02976v2 )

ライセンス: Link先を確認
Kiana Ehsani, Tanmay Gupta, Rose Hendrix, Jordi Salvador, Luca Weihs, Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti, Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi, (参考訳) 強化学習 (Reinforcement Learning, RL) は, 密報酬と擬似学習 (IL) と人為的軌跡を併用し, 近代的なエンボディエージェントの訓練に最も広く用いられている手法である。 RLは大規模な報酬形成と補助的損失を必要としており、長い水平作業では遅すぎるし効果がないことが多い。 人間を監督するILは有効であるが、人間の軌道を大規模に収集することは極めて高価である。 本研究では,シミュレーションにおける最短パスプランナーの模倣により,言語指導を与えられたエージェントが,RGBセンサ(深度マップやGPS座標を含まない)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うことができることを示す。 この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、大規模な画像拡張と組み合わせた強力なビジュアルエンコーダ、およびトレーニングデータの劇的なスケールと多様性によって実現されています。 私たちのモデル、データ、トレーニングコード、新しく提案された10タスクベンチマークスイートCHORESはhttps://spoc-robot.github.io.comで利用可能です。

Reinforcement learning (RL) with dense rewards and imitation learning (IL) with human-generated trajectories are the most widely used approaches for training modern embodied agents. RL requires extensive reward shaping and auxiliary losses and is often too slow and ineffective for long-horizon tasks. While IL with human supervision is effective, collecting human trajectories at scale is extremely expensive. In this work, we show that imitating shortest-path planners in simulation produces agents that, given a language instruction, can proficiently navigate, explore, and manipulate objects in both simulation and in the real world using only RGB sensors (no depth map or GPS coordinates). This surprising result is enabled by our end-to-end, transformer-based, SPOC architecture, powerful visual encoders paired with extensive image augmentation, and the dramatic scale and diversity of our training data: millions of frames of shortest-path-expert trajectories collected inside approximately 200,000 procedurally generated houses containing 40,000 unique 3D assets. Our models, data, training code, and newly proposed 10-task benchmarking suite CHORES are available in https://spoc-robot.github.io.
翻訳日:2024-08-09 20:47:48 公開日:2024-08-07
# 医療における個人データ処理のための検索思考プロセス

Retrieval Augmented Thought Process for Private Data Handling in Healthcare ( http://arxiv.org/abs/2402.07812v2 )

ライセンス: Link先を確認
Thomas Pouplin, Hao Sun, Samuel Holt, Mihaela van der Schaar, (参考訳) 大規模言語モデル (LLMs) は、臨床医と一般大衆の両方が広い医療知識で支援できる強力な可能性を示している。 しかし、医療における彼らの応用は、トレーニングで使用されるデータのプライバシーに関する懸念から制約されているため、セキュリティや倫理的な問題のために個人情報と個人情報の統合が妨げられる。 さらに,情報検索によって情報検索の能力を高めることができれば,現在のLLMと情報検索の統合は不完全な検索に頑健さを欠き,その効果を阻害し,全体的な性能を低下させる。 本稿では,Retrieval-Augmented Thought Process (RATP)を導入することでこの問題に対処する。 外部知識にアクセスすると、RATPは多段階決定プロセスとしてLLMの思考生成を定式化する。 このような思考プロセスを最適化するために、RATPはMonte-Carlo Tree Searchを活用し、コスト効率の良い推論を可能にするプロキシ報酬関数を学習する。 LLMトレーニングセットから意図的に除外された電子カルテのプライベートデータセットにおいて、RATPは質問応答タスクのテキスト内検索拡張生成と比較して35%の精度を達成する。

Large Language Models (LLMs) have demonstrated the strong potential to assist both clinicians and the general public with their extensive medical knowledge. However, their application in healthcare is constrained due to concerns about the privacy of data used in training, which prevents the integration of private and personal information because of security and ethical issues. Moreover, if their capabilities can be enhanced with information retrieval to access up-to-date knowledge, the current integration of LLMs with Information retrieval lacks robustness to imperfect retrieval, which can hinder their effectiveness and even reduce overall performance. In this work, we address this challenge by introducing the Retrieval-Augmented Thought Process (RATP). Given access to external knowledge, RATP formulates the thought generation of LLMs as a multiple-step decision process. To optimise such a thought process, RATP leverages Monte-Carlo Tree Search and learns a proxy reward function that permits cost-efficient inference. On a private dataset of electronic medical records, deliberately excluded from any LLM training set, RATP achieves 35% additional accuracy compared to in-context retrieval-augmented generation for the question-answering task.
翻訳日:2024-08-09 20:38:04 公開日:2024-08-07
# プライバシーに配慮した手話翻訳の大規模化に向けて

Towards Privacy-Aware Sign Language Translation at Scale ( http://arxiv.org/abs/2402.09611v2 )

ライセンス: Link先を確認
Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard, (参考訳) 手話翻訳(SLT)の進歩の大きな障害は、データ不足である。 現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。 さらに、大規模Webスクラッドデータセットを使用したSLTのスケーリングは、生体情報の存在によるプライバシーリスクを伴い、SLT技術の責任を負う開発が考慮されるべきである。 本研究では,プライバシを意識したSLTを大規模に扱うための2段階フレームワークを提案する。 SSVP-SLTは、匿名ビデオと無注釈ビデオに自己教師付きビデオ事前トレーニングを応用し、次いで並列データセット上で教師付きSLTファインタニングを行う。 SSVP-SLTは、How2Signデータセット上で、最先端の微調整とゼロショットのグロスフリーSLT性能を達成し、3 BLEU-4以上の最強のベースラインを上回ります。 制御実験に基づいて,SLTの顔難読化による自己指導型事前訓練と匿名化の利点と限界について考察する。

A major impediment to the advancement of sign language translation (SLT) is data scarcity. Much of the sign language data currently available on the web cannot be used for training supervised models due to the lack of aligned captions. Furthermore, scaling SLT using large-scale web-scraped datasets bears privacy risks due to the presence of biometric information, which the responsible development of SLT technologies should account for. In this work, we propose a two-stage framework for privacy-aware SLT at scale that addresses both of these issues. We introduce SSVP-SLT, which leverages self-supervised video pretraining on anonymized and unannotated videos, followed by supervised SLT finetuning on a curated parallel dataset. SSVP-SLT achieves state-of-the-art finetuned and zero-shot gloss-free SLT performance on the How2Sign dataset, outperforming the strongest respective baselines by over 3 BLEU-4. Based on controlled experiments, we further discuss the advantages and limitations of self-supervised pretraining and anonymization via facial obfuscation for SLT.
翻訳日:2024-08-09 20:38:04 公開日:2024-08-07
# Read and Think: 文書理解と推論のためのステップワイド多モーダル言語モデル

Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning ( http://arxiv.org/abs/2403.00816v2 )

ライセンス: Link先を確認
Jinxu Zhang, (参考訳) マルチモーダル文書の内容を理解することは、関連する証拠を正確に抽出し、推論に利用する上で不可欠である。 既存の文書理解モデルは、1つの単語やフレーズで直接回答を生成する傾向があり、ソース文書の証拠を無視し、解釈性に欠ける。 本研究では、データ拡張と拡張によるステップワイズ機能の欠如に対処する。 具体的には,マルチモーダル大言語モデル(MLLM)を用いて,文書画像の段階的問合せペアを生成するデータジェネレータとして,ノイズを除去するエラー検出器として高性能LLMを用いる。 このステップワイズなデータ生成パイプラインはテンプレートベースと少数ショットメソッドの両方を使って実装されている。 次に、生成した高品質なデータを使用して、人間化された文書理解と推論モデルをトレーニングし、特にDocAssistantと呼ばれる、推論やマルチホップの質問応答を必要とする複雑な質問を解決するように設計されています。 実験の結果、ステップワイズ生成の有効性と応用価値が示され、複雑なレイアウトでInfoVQAが5改善、複雑な推論でChartQAが7改善された。 我々は、合成データの可能性を強調し、マルチモーダルな文書推論機能をさらに探求することを願っている。

Understanding the contents of multimodal documents is essential to accurately extract relevant evidence and use it for reasoning. Existing document understanding models tend to generate answers with a single word or phrase directly, ignoring the source document's evidence and lacking interpretability. In this work, we address the lack of step-wise capabilities through data augmentation and extension. Specifically, We use Multi-modal Large Language Models (MLLMs), which have strong visual understanding and reasoning abilities, as data generators to generate step-wise question-and-answer pairs for document images and use a high-performance LLM as the error detector to filter out noisy data. This step-wise data generation pipeline is implemented using both template-based and few-shot methods. We then use the generated high-quality data to train a humanized document understanding and reasoning model, specifically designed to solve complex questions that require reasoning or multi-hop question answering, dubbed DocAssistant. Experimental results demonstrate the effectiveness and application value of step-wise generation, showing a 5 improvement on InfoVQA with complex layouts and a 7 improvement on ChartQA with complex reasoning, compared to directly generated answers. We hope our work highlights the potential of synthetic data and encourages further exploration of multi-modal document reasoning capabilities.
翻訳日:2024-08-09 20:38:04 公開日:2024-08-07
# MediSwift: 十分に訓練されたバイオメディカル言語モデル

MediSwift: Efficient Sparse Pre-trained Biomedical Language Models ( http://arxiv.org/abs/2403.00952v2 )

ライセンス: Link先を確認
Vithursan Thangarasa, Mahmoud Salem, Shreyas Saxena, Kevin Leong, Joel Hestness, Sean Lie, (参考訳) 大規模言語モデル(LLM)は、通常、様々なドメインの一般的なソースデータに基づいて訓練されるが、近年のドメイン固有のLCMの急増により、ドメイン固有のタスク(例えば、バイオメディシン)において汎用モデルより優れている可能性が示されている。 ドメイン固有の事前学習は効率を高め、より小さなモデルを生み出すが、これらのLSMを訓練する際の計算コストは高いままであり、予算の課題を呈している。 我々は、ドメイン固有のバイオメディカルテキストデータに対するスパース事前トレーニングを利用するバイオメディカルLMのスイートであるMediSwiftを紹介する。 トレーニング前段階で最大75%の重量幅を誘導することにより、トレーニングFLOPの2-2.5倍の削減を実現している。 特に、Cerebras CS-2システムでは、すべてのスパース事前トレーニングが実施され、これは非構造的な重量空間による加速度効果を実現するために特別に設計され、MediSwiftモデルの効率が大幅に向上した。 その後の密集した微調整と戦略的なソフトプロンプトにより、MediSwiftモデルは、バイオメディカルタスクにおいて、既存のLLMの最大7Bパラメータを上回り、PubMedQAのようなタスクにおける効率の正確さに関する新しいベンチマークを設定した。 この結果から,スパース事前学習と高密度微調整およびソフトプロンプトが,特殊領域における高性能で計算効率の良いモデル作成に有効な方法であることがわかった。

Large language models (LLMs) are typically trained on general source data for various domains, but a recent surge in domain-specific LLMs has shown their potential to outperform general-purpose models in domain-specific tasks (e.g., biomedicine). Although domain-specific pre-training enhances efficiency and leads to smaller models, the computational costs of training these LLMs remain high, posing budgeting challenges. We introduce MediSwift, a suite of biomedical LMs that leverage sparse pre-training on domain-specific biomedical text data. By inducing up to 75% weight sparsity during the pre-training phase, MediSwift achieves a 2-2.5x reduction in training FLOPs. Notably, all sparse pre-training was performed on the Cerebras CS-2 system, which is specifically designed to realize the acceleration benefits from unstructured weight sparsity, thereby significantly enhancing the efficiency of the MediSwift models. Through subsequent dense fine-tuning and strategic soft prompting, MediSwift models outperform existing LLMs up to 7B parameters on biomedical tasks, setting new benchmarks w.r.t efficiency-accuracy on tasks such as PubMedQA. Our results show that sparse pre-training, along with dense fine-tuning and soft prompting, offers an effective method for creating high-performing, computationally efficient models in specialized domains.
翻訳日:2024-08-09 20:38:04 公開日:2024-08-07
# 点雲を用いたグラッピング軌道最適化

Grasping Trajectory Optimization with Point Clouds ( http://arxiv.org/abs/2403.05466v2 )

ライセンス: Link先を確認
Yu Xiang, Sai Haneesh Allu, Rohith Peddi, Tyler Summers, Vibhav Gogate, (参考訳) 本稿では,ロボットとタスク空間のポイントクラウド表現に基づく,ロボットグルーピングのための新しい軌道最適化手法を提案する。 本手法では,ロボットはリンク面上の3Dポイントで表現される。 ロボットのタスク空間は、深度センサーから得られる点雲で表される。 ポイントクラウド表現を用いて、シーンポイントの符号付き距離フィールドにおいて、ロボットポイントの符号付き距離値を問合せすることで、衝突回避を効率的に行うとともに、把握時のゴールリーチをポイントマッチングとして定式化することができる。 これにより、制約付き非線形最適化問題を定式化し、関節運動と把握計画問題を解く。 提案手法の利点は,任意の環境において任意のロボットに対して,ポイントクラウド表現が一般的に使用されることである。 本研究では,Fetch移動マニピュレータとFranka Pandaアームを用いて,テーブルトップシーンと棚シーンで実験を行い,本手法の有効性を実証する。 プロジェクトページは \url{https://irvlutd.github.io/GraspTrajOpt} で公開されている。

We introduce a new trajectory optimization method for robotic grasping based on a point-cloud representation of robots and task spaces. In our method, robots are represented by 3D points on their link surfaces. The task space of a robot is represented by a point cloud that can be obtained from depth sensors. Using the point-cloud representation, goal reaching in grasping can be formulated as point matching, while collision avoidance can be efficiently achieved by querying the signed distance values of the robot points in the signed distance field of the scene points. Consequently, a constrained nonlinear optimization problem is formulated to solve the joint motion and grasp planning problem. The advantage of our method is that the point-cloud representation is general to be used with any robot in any environment. We demonstrate the effectiveness of our method by performing experiments on a tabletop scene and a shelf scene for grasping with a Fetch mobile manipulator and a Franka Panda arm. The project page is available at \url{https://irvlutd.github.io/GraspTrajOpt}
翻訳日:2024-08-09 20:26:31 公開日:2024-08-07
# STaR-GATE: 言語モデルによる質問の明確化

STaR-GATE: Teaching Language Models to Ask Clarifying Questions ( http://arxiv.org/abs/2403.19154v3 )

ライセンス: Link先を確認
Chinmaya Andukuri, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman, (参考訳) 言語モデルにタスクを完了するよう促すと、ユーザーはしばしば重要な側面を残します。 質問は曖昧さ(GATE; Li et al , 2023)を解消する可能性があるが、モデルはしばしば良い質問をするのに苦労する。 本稿では,言語モデルの自己改善能力(STaR, Zelikman et al , 2022)について検討する。 本研究では,事前学習した言語モデル-質問者-とロールプレイヤ間の会話をシミュレートするために,25,500のユニークなペルソナタスクの合成データセットを生成する。 質問によって、質問者はロールプレイヤから好みを導き出す。 質問者は、そのタスクに対する高品質なレスポンスの確率を増加させる質問を反復的に微調整します。 2回の自己改善の後、質問者はより良い質問をし、タスクの72%で初期モデルからのレスポンスよりも好まれる回答を生成する。 以上の結果から,より良い質問をするために言語モデルを教えることで,よりパーソナライズされた回答が得られることが示唆された。

When prompting language models to complete a task, users often leave important aspects unsaid. While asking questions could resolve this ambiguity (GATE; Li et al., 2023), models often struggle to ask good questions. We explore a language model's ability to self-improve (STaR; Zelikman et al., 2022) by rewarding the model for generating useful questions-a simple method we dub STaR-GATE. We generate a synthetic dataset of 25,500 unique persona-task prompts to simulate conversations between a pretrained language model-the Questioner-and a Roleplayer whose preferences are unknown to the Questioner. By asking questions, the Questioner elicits preferences from the Roleplayer. The Questioner is iteratively finetuned on questions that increase the probability of high-quality responses to the task, which are generated by an Oracle with access to the Roleplayer's latent preferences. After two iterations of self-improvement, the Questioner asks better questions, allowing it to generate responses that are preferred over responses from the initial model on 72% of tasks. Our results indicate that teaching a language model to ask better questions leads to better personalized responses.
翻訳日:2024-08-09 20:26:30 公開日:2024-08-07
# Laying Anchors: 言語モデリングにおける数値のセマンティックプライミング

Laying Anchors: Semantically Priming Numerals in Language Modeling ( http://arxiv.org/abs/2404.01536v2 )

ライセンス: Link先を確認
Mandar Sharma, Rutuja Murlidhar Taware, Pravesh Koirala, Nikhil Muralidhar, Naren Ramakrishnan, (参考訳) オフザシェルフで事前訓練された言語モデルは、さまざまな下流タスクのために、NLPパイプラインのデファクトスタンダードになっている。 しかし、これらのモデルが数値を適切にエンコードできないため、数値理解を必要とするタスクのパフォーマンスが制限される。 我々は,任意のコーパスにおいて,そのコーパス内の数値分布に支配されるアンカーを生成することによって,意味的素数に対する戦略を導入し,これらの数値トークンの数学的基底表現を可能にする。 提案手法の優位性は,内領域(目)と外領域(目)の両方の数値タスクの評価により確立する。 さらに,実験的な評価を10億から100億の数値にまで拡張し,従来の同じ性質の研究に比べてはるかに広い範囲で実施し,学習した埋め込みの数学的基礎化において大きな改善が示された。

Off-the-shelf pre-trained language models have become the de facto standard in NLP pipelines for a multitude of downstream tasks. However, the inability of these models to properly encode numerals limits their performance on tasks requiring numeric comprehension. We introduce strategies to semantically prime numerals in any corpus by generating anchors governed by the distribution of numerals in said corpus, thereby enabling mathematically grounded representations of these numeral tokens. We establish the superiority of our proposed techniques through evaluation on a range of numeracy tasks for both in-domain (seen) and out-domain (unseen) numerals. Further, we expand our empirical evaluations to numerals ranging from 1 to 10 billion, a significantly broader range compared to previous studies of the same nature, and we demonstrate significant improvements in the mathematical grounding of our learned embeddings.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# fastpropによるDeepQSPRの一般化と高速化

Generalizable, Fast, and Accurate DeepQSPR with fastprop ( http://arxiv.org/abs/2404.02058v2 )

ライセンス: Link先を確認
Jackson Burns, William Green, (参考訳) 定量的構造特性関係研究は、分子構造と任意の量の興味のマッピングを定義することを目的としている。 これは歴史的に、ドメインの専門知識と一般化の難しさを必要とする記述子の開発によって達成された。 このように、場は分子特性予測に変化し、非常に一般化可能な学習された表現に渡された。 本稿では,DeepQSPRフレームワークであるFastpropを紹介した。このフレームワークは,分子レベル記述子のコジェントなセットを用いて,多様なデータセット上での学習表現の性能を劇的に向上させる。 fastpropはgithub.com/JacksonBurns/fastpropで無料で利用できる。

Quantitative Structure Property Relationship studies aim to define a mapping between molecular structure and arbitrary quantities of interest. This was historically accomplished via the development of descriptors which requires significant domain expertise and struggles to generalize. Thus the field has morphed into Molecular Property Prediction and been given over to learned representations which are highly generalizable. The paper introduces fastprop, a DeepQSPR framework which uses a cogent set of molecular level descriptors to meet and exceed the performance of learned representations on diverse datasets in dramatically less time. fastprop is freely available on github at github.com/JacksonBurns/fastprop.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# スーパーAIがどんなものか、Fermiのパラドックスを解説する

Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like ( http://arxiv.org/abs/2404.03685v4 )

ライセンス: Link先を確認
Daniel Vallstrom, (参考訳) 進化的アプローチでは、モラルの基盤は協力の問題への適応として説明できる。 広い意味での「進化」によって、進化の条件を満たす進化するAIは、生物学的実体と同じ協力的な進化の圧力を受けることになる。 ここでは、材料安全と富の増大としての協力の増加の適応性について論じ、人間、他の社会、AIについて論じる。 物質資源へのアクセスの増加による有益なリターンの最小化は、例えば銀河全体を植民地化する動機がない可能性も示唆している。 古い社会は、スーパーAIが実現可能で、より適している可能性が高いため、スーパーAIにエンゲージし、道を譲ることが可能である、とも主張されている。 クローシングは、道徳や目標が生活や社会に影響を与えるための効果的な方法、環境、文化、法律を強調し、食事の方法によって例示されるものである。 適応されたアルゴリズムは、例えば銀河を素早く植民地化するアルゴリズム、減少するリターンの下での協調と公正性の進化のモデル、およびシグナル発生をシミュレートするソフトウェアである。 また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。

With an evolutionary approach, the basis of morality can be explained as adaptations to problems of cooperation. With 'evolution' taken in a broad sense, evolving AIs that satisfy the conditions for evolution to apply will be subject to the same cooperative evolutionary pressure as biological entities. Here the adaptiveness of increased cooperation as material safety and wealth increase is discussed -- for humans, for other societies, and for AIs. Diminishing beneficial returns from increased access to material resources also suggests the possibility that, on the whole, there will be no incentive to for instance colonize entire galaxies, thus providing a possible explanation of the Fermi paradox, wondering where everybody is. It is further argued that old societies could engender, give way to, super-AIs, since it is likely that super-AIs are feasible, and fitter. Closing is an aside on effective ways for morals and goals to affect life and society, emphasizing environments, cultures, and laws, and exemplified by how to eat. Appended are an algorithm for colonizing for example a galaxy quickly, models of the evolution of cooperation and fairness under diminishing returns, and software for simulating signaling development. It is also noted that there can be no exponential colonization or reproduction, for mathematical reasons, as each entity takes up a certain amount of space.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# 批判的思考ツールとしての言語モデル--哲学者を事例として

Language Models as Critical Thinking Tools: A Case Study of Philosophers ( http://arxiv.org/abs/2404.04516v2 )

ライセンス: Link先を確認
Andre Ye, Jared Moore, Rose Novick, Amy X. Zhang, (参考訳) 言語モデル(LM)における現在の作業は、認知作業の高速化と自動化によって、思考のスピードアップや省略にも役立ちます。 しかし、LMは、仮定に挑戦し、アイデアを明確にし、新しい概念を設計する、より深く、より反射的な考え方で、批判的な思考に役立ちますか? 批判的思考における哲学のケーススタディとして扱うとともに,21人の専門家哲学者に,批判的思考への関与とLMの経験についてインタビューする。 哲学者は、自尊心(記憶、信念、一貫性)とイニシアチブ(好奇心、積極性)が欠如していることから、LMが有用でないと感じている。 このギャップを特徴付けるために,批判的思考ツールのための自己行動開始モデルを提案する。 モデルを用いて、LMが重要な思考ツールとして機能する3つの役割を定式化します。 我々の研究は、LM研究者に批判的思考ツールや哲学者、その他の「批判的思考者」としてLMをさらに発展させ、LMの知的実体的利用を想像させることを願っている。

Current work in language models (LMs) helps us speed up or even skip thinking by accelerating and automating cognitive work. But can LMs help us with critical thinking -- thinking in deeper, more reflective ways which challenge assumptions, clarify ideas, and engineer new concepts? We treat philosophy as a case study in critical thinking, and interview 21 professional philosophers about how they engage in critical thinking and on their experiences with LMs. We find that philosophers do not find LMs to be useful because they lack a sense of selfhood (memory, beliefs, consistency) and initiative (curiosity, proactivity). We propose the selfhood-initiative model for critical thinking tools to characterize this gap. Using the model, we formulate three roles LMs could play as critical thinking tools: the Interlocutor, the Monitor, and the Respondent. We hope that our work inspires LM researchers to further develop LMs as critical thinking tools and philosophers and other 'critical thinkers' to imagine intellectually substantive uses of LMs.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# 言語モデルから拡散分布を強制する

Forcing Diffuse Distributions out of Language Models ( http://arxiv.org/abs/2404.10859v2 )

ライセンス: Link先を確認
Yiming Zhang, Avi Schwarzschild, Nicholas Carlini, Zico Kolter, Daphne Ippolito, (参考訳) ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。 例えば、1から10のLlama-2-13B-chatが不均等に5番を選ぶように促された場合、Mistral-7B-Instructは米国人口の40倍の頻度でAveryを選ぶ。 これらの言語モデルが、言語モデル支援データセット構築のような出力の多様性が不可欠である実世界のタスクに使用される場合、有効な選択よりも拡散分布を生成できないことが大きなハードルとなる。 本研究では,言語モデルが有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。 提案手法は,様々なタスクや分布にまたがって一般化され,人間の介入がほとんどない合成データセット生成において,大規模言語モデルを実用的なものにする。

Despite being trained specifically to follow user instructions, today's instructiontuned language models perform poorly when instructed to produce random outputs. For example, when prompted to pick a number uniformly between one and ten Llama-2-13B-chat disproportionately favors the number five, and when tasked with picking a first name at random, Mistral-7B-Instruct chooses Avery 40 times more often than we would expect based on the U.S. population. When these language models are used for real-world tasks where diversity of outputs is crucial, such as language model assisted dataset construction, their inability to produce diffuse distributions over valid choices is a major hurdle. In this work, we propose a fine-tuning method that encourages language models to output distributions that are diffuse over valid outcomes. The methods we introduce generalize across a variety of tasks and distributions and make large language models practical for synthetic dataset generation with little human intervention.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# 何千人もの米国Amazonユーザーのデータをクラウドソーシングする実験からの洞察:透明性、お金、データ利用の重要性

Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use ( http://arxiv.org/abs/2404.13172v3 )

ライセンス: Link先を確認
Alex Berke, Robert Mahari, Sandy Pentland, Kent Larson, Dana Calacci, (参考訳) デジタルプラットフォーム上でユーザが生成するデータは、デジタル不平等を明らかにすること、監査アルゴリズム、人間の行動を理解することに興味を持つ支持者や研究者にとって重要なリソースである。 しかし、データアクセスは制限されることが多い。 研究者はユーザーデータを効果的かつ倫理的に収集できるのか? 本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。 我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。 この設計により、プライバシーの認識とデータの共有行動の複数の側面を研究できる。 実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。 年齢、人種、教育、性別も役割を担い、女性や教育を受けていない参加者はより共有しやすくなった。 われわれの研究デザインは、ユーザーが実際に行うよりもプライバシーを重視できるという「プライバシーパラドックス」のユニークな経験的評価を可能にする。 実際のデータ共有シナリオと仮説的なデータ共有シナリオを設定し、これらのコンテキスト間で測定可能な類似点とシェア率の違いを見つけました。 例えば、金融インセンティブの増加は、実際のシナリオにおける株価に6倍の影響を及ぼした。 さらに、様々な第三者がデータをどのように利用するべきかについての参加者の意見について検討し、また、人口統計学的にも大きな影響があることを見出した。 特に、大多数の参加者は購入データを使って政府機関を承認しなかったが、大多数は研究者によって承認された。 全体としては、透明性、インセンティブデザイン、およびユーザ人口層が倫理データ収集の実践において果たす重要な役割を強調し、将来の研究者がユーザ生成データをクラウドソースする上でのガイダンスを提供する。

Data generated by users on digital platforms are a crucial resource for advocates and researchers interested in uncovering digital inequities, auditing algorithms, and understanding human behavior. Yet data access is often restricted. How can researchers both effectively and ethically collect user data? This paper shares an innovative approach to crowdsourcing user data to collect otherwise inaccessible Amazon purchase histories, spanning 5 years, from more than 5000 US users. We developed a data collection tool that prioritizes participant consent and includes an experimental study design. The design allows us to study multiple aspects of privacy perception and data sharing behavior. Experiment results (N=6325) reveal both monetary incentives and transparency can significantly increase data sharing. Age, race, education, and gender also played a role, where female and less-educated participants were more likely to share. Our study design enables a unique empirical evaluation of the "privacy paradox", where users claim to value their privacy more than they do in practice. We set up both real and hypothetical data sharing scenarios and find measurable similarities and differences in share rates across these contexts. For example, increasing monetary incentives had a 6 times higher impact on share rates in real scenarios. In addition, we study participants' opinions on how data should be used by various third parties, again finding demographics have a significant impact. Notably, the majority of participants disapproved of government agencies using purchase data yet the majority approved of use by researchers. Overall, our findings highlight the critical role that transparency, incentive design, and user demographics play in ethical data collection practices, and provide guidance for future researchers seeking to crowdsource user generated data.
翻訳日:2024-08-09 20:16:46 公開日:2024-08-07
# IndicGenBench: 言語におけるLLMの生成能力を評価するための多言語ベンチマーク

IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages ( http://arxiv.org/abs/2404.16816v2 )

ライセンス: Link先を確認
Harman Singh, Nitish Gupta, Shikhar Bharadwaj, Dinesh Tewari, Partha Talukdar, (参考訳) 大規模言語モデル(LLM)が世界中で普及するにつれて、LLMは世界の言語多様性を表現することが不可欠である。 インドは14億人の言語的に多様である。 IndicGenBenchは、13のスクリプトと4つの言語ファミリーをカバーする多言語言語29の多言語からなるユーザ向け生成タスクにおいて、LLMを評価するための最大のベンチマークである。 IndicGenBenchは、言語間要約、機械翻訳、言語間質問応答など、さまざまな生成タスクで構成されている。 IndicGenBenchは、人間のキュレーションを通じて既存のベンチマークを多くのIndic言語に拡張し、非表現のIndic言語で初めてマルチウェイ並列評価データを提供する。 我々は,IndicGenBench 上で GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM, LLaMA など,プロプライエタリかつオープンソースな LLM を多種多様な設定で評価した。 最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して、より包括的な多言語言語モデルの開発にはさらなる研究が必要であることを示している。 IndicGenBenchはwww.github.com/google-research-datasets/indic-gen-benchでリリースされた。

As large language models (LLMs) see increasing adoption across the globe, it is imperative for LLMs to be representative of the linguistic diversity of the world. India is a linguistically diverse country of 1.4 Billion people. To facilitate research on multilingual LLM evaluation, we release IndicGenBench - the largest benchmark for evaluating LLMs on user-facing generation tasks across a diverse set 29 of Indic languages covering 13 scripts and 4 language families. IndicGenBench is composed of diverse generation tasks like cross-lingual summarization, machine translation, and cross-lingual question answering. IndicGenBench extends existing benchmarks to many Indic languages through human curation providing multi-way parallel evaluation data for many under-represented Indic languages for the first time. We evaluate a wide range of proprietary and open-source LLMs including GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM and LLaMA on IndicGenBench in a variety of settings. The largest PaLM-2 models performs the best on most tasks, however, there is a significant performance gap in all languages compared to English showing that further research is needed for the development of more inclusive multilingual language models. IndicGenBench is released at www.github.com/google-research-datasets/indic-gen-bench
翻訳日:2024-08-09 20:07:02 公開日:2024-08-07
# AWSのゼロ信頼アーキテクチャ実装に透過的なシェーピングを適用する - ケーススタディ

Applying Transparent Shaping for Zero Trust Architecture Implementation in AWS: A Case Study ( http://arxiv.org/abs/2405.01412v2 )

ライセンス: Link先を確認
Wenjia Wang, Seyed Masoud Sadjadi, Naphtali Rishe, Arpan Mahara, (参考訳) この記事では、Zero Trust Architecture(ZTA)原則とTransparent ShapingをAWSがホストするオンラインファイルマネージャ(OFM)アプリケーションに統合する方法論を紹介し、コード修正なしにセキュリティを向上させる。 当社のアプローチをMozilla Observatoryで評価し、重要なセキュリティ改善を強調し、クラウド環境に透過型シェーピングとZTAを適用するための有望な方向性を概説した。

This study introduces a methodology integrating Zero Trust Architecture (ZTA) principles and Transparent Shaping into an AWS-hosted Online File Manager (OFM) application, enhancing security without substantial code modifications. We evaluate our approach with the Mozilla Observatory, highlighting significant security improvements and outlining a promising direction for applying Transparent Shaping and ZTA in cloud environments.
翻訳日:2024-08-09 20:07:02 公開日:2024-08-07
# SAM3D:セグメンションモデルを用いた3次元医用画像におけるゼロショットセミオートマチックセグメンテーション

SAM3D: Zero-Shot Semi-Automatic Segmentation in 3D Medical Images with the Segment Anything Model ( http://arxiv.org/abs/2405.06786v2 )

ライセンス: Link先を確認
Trevor J. Chan, Aarush Sahni, Yijin Fang, Jie Li, Alisha Luthra, Alison Pouch, Chamith S. Rajapakse, (参考訳) SAM3Dは,既存のセグメンテーションモデル上に構築された3次元画像の半自動ゼロショットセグメンテーションのための新しいアプローチである。 ユーザが3Dポリラインでプロンプトし、複数の軸に沿ってボリュームスライスし、事前訓練されたモデルでスライスワイド推論を行い、3Dで再構成と洗練を行う4段階の戦略で、3D画像の高速かつ正確なセグメンテーションを実現する。 腹部骨盤CTおよび脳MRIにおいて, SAM3Dの性能を画像の配列と解剖学的構造に基づいて定性的に評価し, 特定の構造に対する性能を定量的に評価した。 特に,本手法はモデルトレーニングやファインタニングをゼロにすることで優れた性能を実現し,既存のラベル付きデータが少ないタスクに特に有用である。 ユーザが目に見えないデータの3Dセグメンテーションを素早く作成し、手入力を劇的に減らすことで、手術計画や教育、診断画像、科学研究を支援することができる。

We introduce SAM3D, a new approach to semi-automatic zero-shot segmentation of 3D images building on the existing Segment Anything Model. We achieve fast and accurate segmentations in 3D images with a four-step strategy involving: user prompting with 3D polylines, volume slicing along multiple axes, slice-wide inference with a pretrained model, and recomposition and refinement in 3D. We evaluated SAM3D performance qualitatively on an array of imaging modalities and anatomical structures and quantify performance for specific structures in abdominal pelvic CT and brain MRI. Notably, our method achieves good performance with zero model training or finetuning, making it particularly useful for tasks with a scarcity of preexisting labeled data. By enabling users to create 3D segmentations of unseen data quickly and with dramatically reduced manual input, these methods have the potential to aid surgical planning and education, diagnostic imaging, and scientific research.
翻訳日:2024-08-09 20:07:02 公開日:2024-08-07
# 道路のスケジュールが下がった

The Road Less Scheduled ( http://arxiv.org/abs/2405.15682v3 )

ライセンス: Link先を確認
Aaron Defazio, Xingyu Alice Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky, (参考訳) 既存の学習速度スケジュールは、最適化停止ステップTの仕様を必要とせず、Tに依存する学習速度スケジュールにより大幅に性能が向上する。我々は、凸問題から大規模深層学習問題まで幅広い問題にまたがるスケジュールと比較して、最先端の性能を示しながら、スケジュールを全面的に活用することで、この停止時間の必要性を回避するアプローチを提案する。 我々のスケジュールフリーアプローチでは、運動量を持つ標準オプティマイザよりもハイパーパラメータが追加されることはない。 提案手法はスケジューリングと反復平均化を統一する新しい理論の直接的な結果である。 私たちのメソッドのオープンソース実装が利用可能です(https://github.com/facebookresearch/schedule_free)。

Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).
翻訳日:2024-08-09 20:07:02 公開日:2024-08-07
# Perturb-and-Project:差分的にプライベートな類似点とマージナル

Perturb-and-Project: Differentially Private Similarities and Marginals ( http://arxiv.org/abs/2406.04868v3 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Tommaso d'Orsi, Alessandro Epasto, Vahab Mirrokni, Peilin Zhong, (参考訳) A\in \mathcal{S}$にノイズが付加され、その結果が許容可能なデータセットの空間に投影される、差分プライバシーのための入力摂動フレームワークを再検討する。 このフレームワークを通じて、ペアワイズ・コサイン類似性をプライベートにリリースする、新しい効率的なアルゴリズムを最初に設計する。 第二に、$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。 以前の作業で同等の保証は$k$ evenでしか得られなかった。 さらに、我々のアルゴリズムは、$t\le n^{5/6}/\log n\, 最後に、なぜ textit{fast} 入力摂動アルゴリズムが実際にうまく機能するのかに関する理論的見解を提供する。 結果の背後にある重要な技術的要素は、解の集合のガウス的複雑さを上限とする2乗証明の厳密な和である。

We revisit the input perturbations framework for differential privacy where noise is added to the input $A\in \mathcal{S}$ and the result is then projected back to the space of admissible datasets $\mathcal{S}$. Through this framework, we first design novel efficient algorithms to privately release pair-wise cosine similarities. Second, we derive a novel algorithm to compute $k$-way marginal queries over $n$ features. Prior work could achieve comparable guarantees only for $k$ even. Furthermore, we extend our results to $t$-sparse datasets, where our efficient algorithms yields novel, stronger guarantees whenever $t\le n^{5/6}/\log n\,.$ Finally, we provide a theoretical perspective on why \textit{fast} input perturbation algorithms works well in practice. The key technical ingredients behind our results are tight sum-of-squares certificates upper bounding the Gaussian complexity of sets of solutions.
翻訳日:2024-08-09 19:57:18 公開日:2024-08-07
# VISTA3D:3次元CTのためのVersatile Imaging Segmentationとアノテーションモデル

VISTA3D: Versatile Imaging SegmenTation and Annotation model for 3D Computed Tomography ( http://arxiv.org/abs/2406.05285v2 )

ライセンス: Link先を確認
Yufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu, Dong Yang, Can Zhao, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, Wenqi Li, (参考訳) 医用画像のセグメンテーションは精密医療の中核的な要素であり,3次元CTは最も重要な画像診断技術の一つである。 高度に正確で臨床応用可能なセグメンテーション基礎モデルにより、CT画像を用いた臨床医や研究者が大幅に促進される。 既存の基礎モデルは大きな関心を集めているが、大きなコホート分析のための正確な自動セグメンテーションの欠如や、新しいクラスをセグメンテーションする能力が欠如しているため、3次元CTには適していない。 理想的なセグメンテーションソリューションは、主要な臓器クラスをカバーする正確なアウト・オブ・ザ・ボックスのパフォーマンスと、新しい構造への効果的な適応またはゼロショット能力の2つの特徴を持つべきである。 この目的を達成するために,Versatile Imaging SegmenTation and Annotation Model (VISTA3D)を導入する。 VISTA3Dは11454巻で体系的に訓練され、117種類のヒト解剖学的構造と様々な病変に対して正確なアウト・オブ・ボックスのセグメンテーションを提供する。 さらに、VISTA3Dは3Dインタラクティブセグメンテーションをサポートし、自動的な結果の便利な編集と、目に見えないクラスにおける最先端のアノテーション結果の達成を可能にしている。 新規なモデル設計とトレーニングのレシピは、多目的な医用画像基盤モデルを開発するための有望なステップであり、CT画像解析の貴重な基盤として役立ちます。 コードとモデルウェイトはhttps://github.com/Project-MONAI/VISTAで入手できる。

Medical image segmentation is a core component of precision medicine, and 3D computed tomography (CT) is one of the most important imaging techniques. A highly accurate and clinically applicable segmentation foundation model will greatly facilitate clinicians and researchers using CT images. Although existing foundation models have attracted great interest, none are adequate for 3D CT, either because they lack accurate automatic segmentation for large cohort analysis or the ability to segment novel classes. An ideal segmentation solution should possess two features: accurate out-of-the-box performance covering major organ classes, and effective adaptation or zero-shot ability to novel structures. To achieve this goal, we introduce Versatile Imaging SegmenTation and Annotation model (VISTA3D). VISTA3D is trained systematically on 11454 volumes and provides accurate out-of-the-box segmentation for 127 common types of human anatomical structures and various lesions. Additionally, VISTA3D supports 3D interactive segmentation, allowing convenient editing of automatic results and achieving state-of-the-art annotation results on unseen classes. The novel model design and training recipe represent a promising step toward developing a versatile medical image foundation model and will serve as a valuable foundation for CT image analysis. Code and model weights are available at https://github.com/Project-MONAI/VISTA
翻訳日:2024-08-09 19:57:18 公開日:2024-08-07
# Toffee: 主観駆動型テキスト画像生成のための100万単位の効率的なデータセット構築

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2406.09305v2 )

ライセンス: Link先を確認
Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun, (参考訳) 主題駆動のテキスト・ツー・イメージ生成では、多数の画像ペアを含む合成データセット上でモデルをトレーニングすることで、最近の研究は優れたパフォーマンスを実現している。 これらのデータセットに基づいてトレーニングされた生成モデルは、任意のテスト画像から特定の対象に対してゼロショットでテキスト整列画像を生成することができる。 さらに、テストイメージの微調整が必要なメソッドよりも優れています。 しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって禁じられている。 単一のトレーニングペアを生成するために、現行の手法は、被写体画像に予め訓練済みのテキスト・ツー・イメージモデルを微調整し、細粒度の詳細をキャプチャし、次いで、細調整されたモデルを使用して、創造的なテキストプロンプトに基づいて同じ被写体のための画像を生成する。 そのため、数百万の被験者で大規模なデータセットを構築するには、数十万のGPU時間が必要になる。 この問題に対処するために、主観的編集・生成のためのデータセットを効率的に構築するToffeeを提案する。 具体的には、データセットの構築には主観レベルの微調整は必要ない。 2つの生成モデルを事前学習した後、無限個の高品質なサンプルを生成することができる。 我々は,500万枚の画像対,テキストプロンプト,マスクを含む,主観的画像編集・生成のための最初の大規模データセットを構築した。 データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。 また、提案したデータセットをテストするために、主観的画像編集と生成の両方が可能なモデルを提案する。 提案したデータセット上でモデルを簡単にトレーニングすることにより,提案したデータセット構築フレームワークの有効性を示す競争結果が得られる。

In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.
翻訳日:2024-08-09 19:57:18 公開日:2024-08-07
# 共形場理論による近似量子誤り訂正符号

Approximate quantum error correcting codes from conformal field theory ( http://arxiv.org/abs/2406.09555v2 )

ライセンス: Link先を確認
Shengqi Sang, Timothy H. Hsieh, Yijian Zou, (参考訳) 共形場理論(CFT)の低エネルギー部分空間は、ホログラフィーや量子重力に重要な結果をもたらす量子誤り訂正符号として機能することができる。 局所的デファス化チャネル下での一般的な1+1D CFT符号について検討し、熱力学限界における誤差の正当性を解析する。 私たちはそれを示します (i)チャネルのジャンプ作用素によって生成される融合代数における最小零でないスケーリング次元が1/2$以上であるときと、有限復号しきい値が存在すること。 (ii) 保護論理量子ビット数$k \geq \Omega( \log \log n)$, ここで$n$は物理量子ビットの数である。 応用として、一次元量子臨界イジングモデルが特定の種類のデフォーカスノイズに対して有限しきい値を持つことを示す。 我々の一般的な結果は、連続対称性を持つCFT符号が共変符号の回復忠実度に束縛されることを示唆している。

The low-energy subspace of a conformal field theory (CFT) can serve as a quantum error correcting code, with important consequences in holography and quantum gravity. We consider generic 1+1D CFT codes under extensive local dephasing channels and analyze their error correctability in the thermodynamic limit. We show that (i) there is a finite decoding threshold if and only if the minimal nonzero scaling dimension in the fusion algebra generated by the jump operator of the channel is larger than $1/2$ and (ii) the number of protected logical qubits $k \geq \Omega( \log \log n)$, where $n$ is the number of physical qubits. As an application, we show that the one-dimensional quantum critical Ising model has a finite threshold for certain types of dephasing noise. Our general results also imply that a CFT code with continuous symmetry saturates a bound on the recovery fidelity for covariant codes.
翻訳日:2024-08-09 19:57:18 公開日:2024-08-07
# トレースバウンドSDPに対するサブ最適境界は、高速でスケーラブルな低ランクSDPソルバSDPLR+を可能にする

Suboptimality bounds for trace-bounded SDPs enable a faster and scalable low-rank SDP solver SDPLR+ ( http://arxiv.org/abs/2406.10407v2 )

ライセンス: Link先を確認
Yufan Huang, David F. Gleich, (参考訳) 半定プログラム(SDP)とその解法は、機械学習とデータサイエンスに多くの応用がある強力なツールである。 スケーラブルなSDPソルバの設計は、正の半定値決定変数が$n \times n$高密度行列であるのに対して、入力はしばしば$n \times n$スパース行列であるにもかかわらず、困難である。 しかし、この解の情報は、バルビノクとパタキによって示されるようなフルランク密度行列と一致しないかもしれない。 20年前、Burer と Monteiro は完全行列の代わりに低ランクの分解を最適化する SDP ソルバ $\texttt{SDPLR}$ を開発した。 これにより、ストレージコストが大幅に削減され、多くの問題に対してうまく機能する。 元の解法である $\texttt{SDPLR}$ は、解の原始的実現可能性のみをトラックし、適度な精度の解を生成するための技法の柔軟性を制限する。 我々は、トレースバウンドSDP問題に対するサブ最適性を用いて、進捗をよりよく追跡し、早期終了を可能にする。 次に$\texttt{SDPLR+}$を開発し、極端に低ランクな因数分解で最適化を開始し、原始的不実現性と準最適性に基づいてランクを動的に更新する。 これにより計算が高速化され、ストレージコストが削減される。 近年のメモリ効率のよいスケーラブルなSDPソルバでは、最大カット、最小分割、カットノルム、Lov\'{a}sz Theta問題に関する数値実験が行われ、そのスケーラビリティが100万の判定変数の問題に匹敵することを示した。

Semidefinite programs (SDPs) and their solvers are powerful tools with many applications in machine learning and data science. Designing scalable SDP solvers is challenging because by standard the positive semidefinite decision variable is an $n \times n$ dense matrix, even though the input is often $n \times n$ sparse matrices. However, the information in the solution may not correspond to a full-rank dense matrix as shown by Barvinok and Pataki. Two decades ago, Burer and Monteiro developed an SDP solver $\texttt{SDPLR}$ that optimizes over a low-rank factorization instead of the full matrix. This greatly decreases the storage cost and works well for many problems. The original solver $\texttt{SDPLR}$ tracks only the primal infeasibility of the solution, limiting the technique's flexibility to produce moderate accuracy solutions. We use a suboptimality bound for trace-bounded SDP problems that enables us to track the progress better and perform early termination. We then develop $\texttt{SDPLR+}$, which starts the optimization with an extremely low-rank factorization and dynamically updates the rank based on the primal infeasibility and suboptimality. This further speeds up the computation and saves the storage cost. Numerical experiments on Max Cut, Minimum Bisection, Cut Norm, and Lov\'{a}sz Theta problems with many recent memory-efficient scalable SDP solvers demonstrate its scalability up to problems with million-by-million decision variables and it is often the fastest solver to a moderate accuracy of $10^{-2}$.
翻訳日:2024-08-09 19:57:18 公開日:2024-08-07
# 核スコアを用いたカラムと行の部分選択:Nyström近似、CUR分解、グラフラプラシアン還元のアルゴリズムと理論

Column and row subset selection using nuclear scores: algorithms and theory for Nyström approximation, CUR decomposition, and graph Laplacian reduction ( http://arxiv.org/abs/2407.01698v2 )

ライセンス: Link先を確認
Mark Fornace, Michael Lindsey, (参考訳) カラム選択は、データサイエンス、機械学習、理論化学など、様々な分野にまたがる幅広い応用を持つ、低ランク近似の構造保存に不可欠なツールである。 本研究では,高速,効率的,理論的に保証された列選択のための統一手法を開発する。 まず、カーネル近似やCUR分解といったタスクに適用可能な空間分割決定アルゴリズムを導出し、実装する。 次に,CUR分解とグラフラプラシアンの行列関数の近似の両方に適用し,保証された濃度境界を満たすランダム化スキームに依存する行列自由形式を考案する。 重要なことに、ランダム化は、列選択に使用するスコアの計算にのみ関係しており、これらのスコアが与えられたときの選択そのものではない。 決定論的アルゴリズムと行列自由アルゴリズムの両方において、決定点プロセス(DPP)サンプリングの期待性能と、選択シナリオにおいて、真に最適なサブセット選択の性能とを比較検討する。 一般的なケースでは、DPP期待の新しい分析が必要である。 最後に,多種多様な近似タスクに対して,アルゴリズムの実際の性能を示す。

Column selection is an essential tool for structure-preserving low-rank approximation, with wide-ranging applications across many fields, such as data science, machine learning, and theoretical chemistry. In this work, we develop unified methodologies for fast, efficient, and theoretically guaranteed column selection. First we derive and implement a sparsity-exploiting deterministic algorithm applicable to tasks including kernel approximation and CUR decomposition. Next, we develop a matrix-free formalism relying on a randomization scheme satisfying guaranteed concentration bounds, applying this construction both to CUR decomposition and to the approximation of matrix functions of graph Laplacians. Importantly, the randomization is only relevant for the computation of the scores that we use for column selection, not the selection itself given these scores. For both deterministic and matrix-free algorithms, we bound the performance favorably relative to the expected performance of determinantal point process (DPP) sampling and, in select scenarios, that of exactly optimal subset selection. The general case requires new analysis of the DPP expectation. Finally, we demonstrate strong real-world performance of our algorithms on a diverse set of example approximation tasks.
翻訳日:2024-08-09 17:59:35 公開日:2024-08-07
# 正準および非正準統計量に対する量子熱力学的積分性

Quantum Thermodynamic Integrability for Canonical and non-Canonical Statistics ( http://arxiv.org/abs/2407.08344v3 )

ライセンス: Link先を確認
Ruo-Xun Zhai, C. P. Sun, (参考訳) 抽象 第二法則のカラス{e}の臭気原理を、体積や磁場などのマクロ変数に依存するエネルギー準位を持つ量子熱力学に拡張する。 この拡張は量子熱力学積分(QTI)の概念を導入し、統計力学の代替基盤を提供する。 QTIの特徴は、熱力学多様体内の仕事と熱の経路依存性であり、エネルギーレベルと特定の熱力学パラメータによって局所的に記述されている。 この枠組みの中で、温度は自然に積分因子として現れ、QTIに基づくエントロピー積分方程式(EIE)から正準状態と非正準状態の両方を導出することができる。 特に、非正準状態は、熱力学限界の外側で特に重要なものとなり、有限サイズの熱力学系における情報相関の存在を明らかにしている。

Abstract We extend the Carath\'{e}odory principle of the Second Law to quantum thermodynamics with energy levels depending on macroscopic variables, such as volume and magnetic field. This extension introduces the concept of Quantum Thermodynamic Integrability (QTI), offering an alternative foundation for statistical mechanics. QTI is characterized by the path-independence of work and heat within the thermodynamic manifold, which is locally described by energy levels and specific thermodynamic parameters. Within this framework, temperature naturally emerges as an integrating factor, allowing for the derivation of both canonical and non-canonical states from the Entropy Integrable Equations (EIE) based on QTI. Notably, non-canonical states, which become particularly significant outside the thermodynamic limit, reveal the existence of informational correlations in finite-size thermodynamic systems.
翻訳日:2024-08-09 17:59:35 公開日:2024-08-07
# 推薦システムの高速化を目的とした大規模言語モデルを用いたデータインプット

Data Imputation using Large Language Model to Accelerate Recommendation System ( http://arxiv.org/abs/2407.10078v2 )

ライセンス: Link先を確認
Zhicheng Ding, Jiahao Tian, Zhenkai Wang, Jinman Zhao, Siyang Li, (参考訳) 本稿では,ビッグデータ時代の大きなハードルであるレコメンデーションシステムにおけるスパースデータと欠落データの問題に対処することを目的とする。 従来の計算手法は、データ内の複雑な関係を捉えるのに苦労する。 そこで本稿では,LLM(Large-Tune Large Language Model)を提案する。 大量のテキストで訓練されたLLMは、データ間の複雑な関係を理解し、行方不明の情報をインテリジェントに埋めることができる。 このリッチなデータはレコメンデーションシステムによってより正確でパーソナライズされた提案を生成するために使用され、最終的にはユーザエクスペリエンスが向上する。 我々は,従来のデータ計算手法と比較して,単一の分類,複数分類,回帰を含む,レコメンデーションシステム領域内の様々なタスクを対象としたLCMベースの計算手法を評価した。 従来の手法よりもLCM計算の方が優れていることを示すことにより,推薦システムの性能向上の可能性を確立した。

This paper aims to address the challenge of sparse and missing data in recommendation systems, a significant hurdle in the age of big data. Traditional imputation methods struggle to capture complex relationships within the data. We propose a novel approach that fine-tune Large Language Model (LLM) and use it impute missing data for recommendation systems. LLM which is trained on vast amounts of text, is able to understand complex relationship among data and intelligently fill in missing information. This enriched data is then used by the recommendation system to generate more accurate and personalized suggestions, ultimately enhancing the user experience. We evaluate our LLM-based imputation method across various tasks within the recommendation system domain, including single classification, multi-classification, and regression compared to traditional data imputation methods. By demonstrating the superiority of LLM imputation over traditional methods, we establish its potential for improving recommendation system performance.
翻訳日:2024-08-09 17:59:35 公開日:2024-08-07
# 依存関係の観点からのAIシステムの保証

Assurance of AI Systems From a Dependability Perspective ( http://arxiv.org/abs/2407.13948v2 )

ライセンス: Link先を確認
Robin Bloomfield, John Rushby, (参考訳) リスクの高いコンピュータベースのシステムに対する古典的保証の原則を概説する。 次に、人工知能(AI)と機械学習(ML)を採用したシステムにこれらの原則を適用することを検討する。 この"依存性"の観点からの鍵となる要素は、重要なコンポーネントの振る舞いをほぼ完全に理解することであり、これはAIやMLでは実現不可能であると考えられている。 したがって、信頼性の観点からは、AIとML要素の信頼性を最小化するために、より複雑なシステムの階層による"深みの防御"を使用することを目的としている。 これは、AIとML要素自体に保証を適用しようとする"信頼できる"視点とは対照的である。 サイバー物理や他の多くのシステムでは、環境を知覚するためにAIやMLに依存しないガード(例えば、自動運転車と道路を共有している他の車両)を提供するのは難しいため、どちらの視点も必要であり、それらの間に連続性やスペクトルが存在する。 コンティニュムの信頼性の終わりに向けたアーキテクチャに注目し、他の人たちにスペクトルに沿って追加のポイントを検討するように呼びかけます。 AIとMLを用いた認識を必要とするガードには、多様性、深さの防御、説明、マイクロODDを含む、これらの要素に置かれる信頼を最小限にする方法を検討する。 また、世界のモデルを考えると、許容可能な行動を実施する方法についても検討する。 これには、古典的なサイバー物理計算と封筒、そして原則、憲法、倫理、または評判に基づく規範的な規則が含まれる。 我々は、自律システム、特定の機能のためのAIシステム、大規模言語モデルのような汎用AI、人工知能(AGI)に私たちの視点を適用し、現在のベストプラクティスと研究の課題を提案する。

We outline the principles of classical assurance for computer-based systems that pose significant risks. We then consider application of these principles to systems that employ Artificial Intelligence (AI) and Machine Learning (ML). A key element in this "dependability" perspective is a requirement to have near-complete understanding of the behavior of critical components, and this is considered infeasible for AI and ML. Hence the dependability perspective aims to minimize trust in AI and ML elements by using "defense in depth" with a hierarchy of less complex systems, some of which may be highly assured conventionally engineered components, to "guard" them. This may be contrasted with the "trustworthy" perspective that seeks to apply assurance to the AI and ML elements themselves. In cyber-physical and many other systems, it is difficult to provide guards that do not depend on AI and ML to perceive their environment (e.g., other vehicles sharing the road with a self-driving car), so both perspectives are needed and there is a continuum or spectrum between them. We focus on architectures toward the dependability end of the continuum and invite others to consider additional points along the spectrum. For guards that require perception using AI and ML, we examine ways to minimize the trust placed in these elements; they include diversity, defense in depth, explanations, and micro-ODDs. We also examine methods to enforce acceptable behavior, given a model of the world. These include classical cyber-physical calculations and envelopes, and normative rules based on overarching principles, constitutions, ethics, or reputation. We apply our perspective to autonomous systems, AI systems for specific functions, generic AI such as Large Language Models, and to Artificial General Intelligence (AGI), and we propose current best practice and an agenda for research.
翻訳日:2024-08-09 17:49:51 公開日:2024-08-07
# 乳がん予測のための学習ヒューリスティック手法に基づく2つの新しい特徴選択法:包括的分析

Two new feature selection methods based on learn-heuristic techniques for breast cancer prediction: A comprehensive analysis ( http://arxiv.org/abs/2407.14631v2 )

ライセンス: Link先を確認
Kamyab Karimi, Ali Ghodratnama, Reza Tavakkoli-Moghaddam, (参考訳) 乳がんは原因不明のため予防できない。 しかし、早期診断は患者の回復率を高める。 機械学習(ML)は、コストと時間を削減しつつ、医療運用における治療結果を改善するために利用することができる。 本研究では,帝国主義競争アルゴリズム (ICA) とバットアルゴリズム (BA) を併用した2種類の特徴選択手法を提案する。 本研究は, 診断モデルの効率を向上し, 臨床医師がこれまでよりもはるかに正確かつ信頼性の高い意思決定を行えるよう包括的分析を行うことを目的とする。 K-アネレスト隣人、サポートベクターマシン、決定木、ネイブベイズ、AdaBoost、線形判別分析、ランダム森林、ロジスティック回帰、人工ニューラルネットワークなどが採用されている。 本稿では,ICA(WFSIC)とBA(WFSB)を別々に用いたラッパー特徴選択を用いた評価手法とMLアルゴリズムの特異な統合を適用した。 分類器の性能について,提案手法を2つ比較した。 また,文献調査で報告した診断モデルと過去の研究結果を比較検討した。 ウィスコンシン州の乳がん診断データセットを用いて実験を行った。 その結果, BA を 99.12 % の精度で使用するフレームワークは, ICA やそれ以前の研究をはるかに上回っていることがわかった。 さらに、BAに基づくFSのアプローチにおけるRF分類器は、最良のモデルとして現れ、その基準に関して他よりも優れている。 さらに,本研究は,データセット次元を最大90%まで削減し,診断モデルの性能を99パーセント以上向上する上で,我々の技術が果たす役割を明らかにした。 さらに,ほとんどのMLモデルで選択されたFS手法により得られた最適データセットよりも重要な特徴が示された。

Breast cancer is not preventable because of its unknown causes. However, its early diagnosis increases patients' recovery chances. Machine learning (ML) can be utilized to improve treatment outcomes in healthcare operations while diminishing costs and time. In this research, we suggest two novel feature selection (FS) methods based upon an imperialist competitive algorithm (ICA) and a bat algorithm (BA) and their combination with ML algorithms. This study aims to enhance diagnostic models' efficiency and present a comprehensive analysis to help clinical physicians make much more precise and reliable decisions than before. K-nearest neighbors, support vector machine, decision tree, Naive Bayes, AdaBoost, linear discriminant analysis, random forest, logistic regression, and artificial neural network are some of the methods employed. This paper applied a distinctive integration of evaluation measures and ML algorithms using the wrapper feature selection based on ICA (WFSIC) and BA (WFSB) separately. We compared two proposed approaches for the performance of the classifiers. Also, we compared our best diagnostic model with previous works reported in the literature survey. Experimentations were performed on the Wisconsin diagnostic breast cancer dataset. Results reveal that the proposed framework that uses the BA with an accuracy of 99.12\%, surpasses the framework using the ICA and most previous works. Additionally, the RF classifier in the approach of FS based on BA emerges as the best model and outperforms others regarding its criteria. Besides, the results illustrate the role of our techniques in reducing the dataset dimensions up to 90\% and increasing the performance of diagnostic models by over 99\%. Moreover, the result demonstrates that there are more critical features than the optimum dataset obtained by proposed FS approaches that have been selected by most ML models.
翻訳日:2024-08-09 17:49:51 公開日:2024-08-07
# 時間的特徴:拡散モデル量子化のためのフレームワーク

Temporal Feature Matters: A Framework for Diffusion Model Quantization ( http://arxiv.org/abs/2407.19547v2 )

ライセンス: Link先を確認
Yushi Huang, Ruihao Gong, Xianglong Liu, Jing Liu, Yuhang Li, Jiwen Lu, Dacheng Tao, (参考訳) Diffusionモデルは画像生成に広く使われており、長期の推論時間と高いメモリ要求により、その適用性に大きな課題に直面している。 これらの問題に対処するためには、効率的なポストトレーニング量子化(PTQ)が不可欠である。 しかし、従来のモデルとは異なり、拡散モデルはマルチラウンド・デノゲーションの時間ステップに大きく依存している。 通常、各時間ステップは複数のモジュールによって超敏感な時間的特徴に符号化される。 それにもかかわらず、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。 代わりに、それらは不適切な再建目的と複雑な校正手法を採用しており、時間的特徴の著しい乱れと軌道の偏り、圧縮効率の低下につながっている。 これらの課題に対処するため、我々は3つの戦略を含む新しい量子化フレームワークを導入した。 1)TIBに基づく保守:我々の革新的な時間情報ブロック(TIB)の定義に基づき、時間情報認識再構成(TIAR)と有限セット校正(FSC)を開発し、元の時間的特徴を効率的に整合させる。 2) キャッシュベースのメンテナンス: 関連するモジュールの間接的かつ複雑な最適化の代わりに,時間的特徴の量子化処理とキャッシュが開発され,エラーを最小限に抑える。 3) 外乱認識選択: 時間的特徴誤差を用いて, 更なる外乱低減のための2つの保守戦略間のきめ細かい選択を導出する。 このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。 様々なデータセット、拡散モデル、ハードウェアの大規模なテストにより、我々の優れた性能と加速度が確認されます。 と。

The Diffusion models, widely used for image generation, face significant challenges related to their broad applicability due to prolonged inference times and high memory demands. Efficient Post-Training Quantization (PTQ) is crucial to address these issues. However, unlike traditional models, diffusion models critically rely on the time-step for the multi-round denoising. Typically, each time-step is encoded into a hypersensitive temporal feature by several modules. Despite this, existing PTQ methods do not optimize these modules individually. Instead, they employ unsuitable reconstruction objectives and complex calibration methods, leading to significant disturbances in the temporal feature and denoising trajectory, as well as reduced compression efficiency. To address these challenges, we introduce a novel quantization framework that includes three strategies: 1) TIB-based Maintenance: Based on our innovative Temporal Information Block (TIB) definition, Temporal Information-aware Reconstruction (TIAR) and Finite Set Calibration (FSC) are developed to efficiently align original temporal features. 2) Cache-based Maintenance: Instead of indirect and complex optimization for the related modules, pre-computing and caching quantized counterparts of temporal features are developed to minimize errors. 3) Disturbance-aware Selection: Employ temporal feature errors to guide a fine-grained selection between the two maintenance strategies for further disturbance reduction. This framework preserves most of the temporal information and ensures high-quality end-to-end generation. Extensive testing on various datasets, diffusion models and hardware confirms our superior performance and acceleration..
翻訳日:2024-08-09 17:49:51 公開日:2024-08-07
# ゼロサムマトリックスゲームにおけるベストレスポンス学習ダイナミクスのための有限サンプル保証

Finite-Sample Guarantees for Best-Response Learning Dynamics in Zero-Sum Matrix Games ( http://arxiv.org/abs/2407.20128v2 )

ライセンス: Link先を確認
Fathima Zarin Faizal, Asuman Ozdaglar, Martin J. Wainwright, (参考訳) 2人のプレイヤーゼロサム行列ゲームに対する最適応答型学習ダイナミクスについて検討する。 我々は,各プレイヤーがゲームとその相手の戦略について持っている情報の種類によって区別される2つの設定について検討する。 最初の設定は、各プレイヤーが自分自身と相手のペイオフ行列を知り、相手の混合戦略を観察する完全な情報ケースである。 2つ目の設定は最小限の情報ケースであり、プレイヤーは相手の戦略を観察せず、どちらかのペイオフ行列を意識していない(代わりに、プレイヤーは実際のペイオフのみを観察する)。 ゲーム文学における学習における急激なアンカップリング(英語版)としても知られるこの設定のために、戦略推定のためのスムーズな最適応答型更新と、局所的な支払関数を推定するTD学習更新を組み合わせた2段階の学習力学を考察する。 これらのダイナミクスに対しては、追加の探索なしに、$\epsilon$-Nash平衡への収束に対する多項式時間有限サンプル保証を提供する。

We study best-response type learning dynamics for two player zero-sum matrix games. We consider two settings that are distinguished by the type of information that each player has about the game and their opponent's strategy. The first setting is the full information case, in which each player knows their own and the opponent's payoff matrices and observes the opponent's mixed strategy. The second setting is the minimal information case, where players do not observe the opponent's strategy and are not aware of either of the payoff matrices (instead they only observe their realized payoffs). For this setting, also known as the radically uncoupled case in the learning in games literature, we study a two-timescale learning dynamics that combine smoothed best-response type updates for strategy estimates with a TD-learning update to estimate a local payoff function. For these dynamics, without additional exploration, we provide polynomial-time finite-sample guarantees for convergence to an $\epsilon$-Nash equilibrium.
翻訳日:2024-08-09 17:49:51 公開日:2024-08-07
# ポスト量子暗号(PQC)ネットワーク機器:PQC導入率の測定とマイグレーションパスの同定

Post-Quantum Cryptography (PQC) Network Instrument: Measuring PQC Adoption Rates and Identifying Migration Pathways ( http://arxiv.org/abs/2408.00054v3 )

ライセンス: Link先を確認
Jakub Sowa, Bach Hoang, Advaith Yeluru, Steven Qie, Anita Nikolich, Ravishankar Iyer, Phuong Cao, (参考訳) 量子耐性暗号ネットワークプロトコルやポスト量子暗号(PQC)を採用する問題は、量子コンピューティングの民主化において極めて重要である。 現実的な量子コンピュータは今後数十年で古典的な暗号化を破ることになるため、この問題は緊急である。 過去の暗号化されたデータは、既に収集されており、近い将来に復号化できる。 量子後暗号を採用する主な課題は、アルゴリズムの複雑さとハードウェア/ソフトウェア/ネットワークの実装である。 既存のサイバーインフラ構造がポスト量子暗号をサポートするのかという大きな疑問は、まだ答えられていない。 本論文は以下のとおりである。 一 イリノイ大学アーバナ・シャンペーン校の国立計算応用センター(NCSA)に置かれる新規な量子暗号(PQC)ネットワーク機器及びFABRICテストベッドの一部の設計 二 幅広いネットワークプロトコル(セキュアシェル、SSH、トランスポート層セキュリティ、TLS等)におけるPQC採用率に関する最新の結果。 三 重要な科学的応用(例えば、OpenSSH又はSciTokens)におけるPQCの実施の現状 四 量子抵抗の課題、及び 五 新規攻撃の可能性についての議論 これは、全国規模のスーパーコンピュータセンターとFABRICテストベッドにおけるPQC導入の大規模測定としては初めてである。 OARNET, GTT, Google Fiber Webpass (U.S.) や Uppsala Lans Landsting (Sweden) といった主要なインターネットサービスプロバイダや自律システム(ASes)から来るNCSAにおけるOpenSSHコネクションの初回採用率は0.029%(20,556,816のうち6,044件)に達し,2023~2024年には総じて採用率が増加した。 解析により、電流アプリケーションを量子抵抗に移行する経路を同定する。

The problem of adopting quantum-resistant cryptographic network protocols or post-quantum cryptography (PQC) is critically important to democratizing quantum computing. The problem is urgent because practical quantum computers will break classical encryption in the next few decades. Past encrypted data has already been collected and can be decrypted in the near future. The main challenges of adopting post-quantum cryptography lie in algorithmic complexity and hardware/software/network implementation. The grand question of how existing cyberinfrastructure will support post-quantum cryptography remains unanswered. This paper describes: i) the design of a novel Post-Quantum Cryptography (PQC) network instrument placed at the National Center for Supercomputing Applications (NCSA) at the University of Illinois at Urbana-Champaign and a part of the FABRIC testbed; ii) the latest results on PQC adoption rate across a wide spectrum of network protocols (Secure Shell -- SSH, Transport Layer Security -- TLS, etc.); iii) the current state of PQC implementation in key scientific applications (e.g., OpenSSH or SciTokens); iv) the challenges of being quantum-resistant; and v) discussion of potential novel attacks. This is the first large-scale measurement of PQC adoption at national-scale supercomputing centers and FABRIC testbeds. Our results show that only OpenSSH and Google Chrome have successfully implemented PQC and achieved an initial adoption rate of 0.029% (6,044 out of 20,556,816) for OpenSSH connections at NCSA coming from major Internet Service Providers or Autonomous Systems (ASes) such as OARNET, GTT, Google Fiber Webpass (U.S.) and Uppsala Lans Landsting (Sweden), with an overall increasing adoption rate year-over-year for 2023-2024. Our analyses identify pathways to migrate current applications to be quantum-resistant.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 長距離量子多体状態に対するペッツ写像の復元

Petz map recovery for long-range entangled quantum many-body states ( http://arxiv.org/abs/2408.00857v2 )

ライセンス: Link先を確認
Yangrui Hu, Yijian Zou, (参考訳) A,B,C$上の三部分量子状態と$C$上の消去チャネルが与えられたとき、回転されたペッツマップは、消去された量子情報を回復するために$B$に作用する回復チャネルである。 最良の回復の不完全性は条件付き相互情報(CMI)によって上界される。 本研究では、いくつかの物理的に関連のある長距離量子状態におけるペッツ写像の不完全性について研究する。 具体的には、量子相の3つのクラスについて研究する。 一 測定誘起相転移の定常状態 (二)局地的測定による臨界地盤状態、及び 三 局地的な測定によるキラル状態 平均ペッツ写像の不完全性は、3つのクラスを著しく区別する。 (i)および (ii)CMIとの不整合のスケーリングと区別される 三) 回転パラメータの不忠実性の非対称性を特徴とする。 また, トポロジ的順序に対するペッツ写像の復元について検討し, トポロジ的絡み合いエントロピーの操作的解釈を求める。 この結果は、ペッツ写像の忠実度が物質の量子位相の有用な診断であることを示している。

Given a tripartite quantum state on $A,B,C$ and the erasure channel on $C$, the rotated Petz map is a recovery channel that acts on $B$ to recover the erased quantum information. The infidelity of the best recovery is upper-bounded by the conditional mutual information (CMI). In this work, we study the infidelity of the rotated Petz map on several physically-relevant long-range entangled quantum states. Specifically, we study three classes of quantum phases: (i) steady states of measurement-induced phase transitions, (ii) critical ground state under local measurements, and (iii) chiral states under local measurements. We find that the average Petz map infidelity sharply distinguishes the three classes: (i) and (ii) are distinguished by the scaling of the infidelity with CMI and (iii) is characterized by an asymmetry of the infidelity with the rotation parameter. We also study Petz map recovery for topological order and find an operational interpretation of the topological entanglement entropy. Our result indicates that the Petz map fidelity is a useful diagnostic of quantum phases of matter.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# FT K-means: フォールトトレランスを備えたGPU上の高性能K-means

FT K-means: A High-Performance K-means on GPU with Fault Tolerance ( http://arxiv.org/abs/2408.01391v2 )

ライセンス: Link先を確認
Shixun Wu, Yitong Ding, Yujia Zhai, Jinyang Liu, Jiajun Huang, Zizhe Jian, Huangliang Dai, Sheng Di, Bryan M. Wong, Zizhong Chen, Franck Cappello, (参考訳) K平均はクラスタリングにおいて広く使われているアルゴリズムであるが、その効率は主に距離計算の計算コストに制約されている。 既存の実装は、計算単位の最適以下利用とソフトエラーに対するレジリエンスの欠如に悩まされている。 これらの課題に対処するため、FT K-meansを導入し、K-meansの高速GPU高速化とオンラインフォールトトレランスを実現する。 まず、NVIDIAのcuMLライブラリと比較して、競争性能を達成するためのステップワイズ最適化戦略を提案する。 我々は、異なるデータ型をサポートし、異なる入力形式に適応するテンプレートベースのコード生成フレームワークにより、FT K平均をさらに改善する。 コピー操作中のメモリ同期による既存のフォールトトレランス手法の故障に対処するために,ワープレベルのテンソルコア誤り訂正方式を提案する。 NVIDIA T4 GPU と A100 GPU の実験的評価では,障害耐性のない FT K-means が cuML の K-means 実装より優れており,不規則なデータ形状を含むシナリオでは 10\%-300\% の性能向上が示されている。 さらに、FT K-meansのフォールトトレランス機能は、オーバーヘッドが111\%しか導入せず、毎秒数十エラーを注入してもロバストな性能を維持している。

K-means is a widely used algorithm in clustering, however, its efficiency is primarily constrained by the computational cost of distance computing. Existing implementations suffer from suboptimal utilization of computational units and lack resilience against soft errors. To address these challenges, we introduce FT K-means, a high-performance GPU-accelerated implementation of K-means with online fault tolerance. We first present a stepwise optimization strategy that achieves competitive performance compared to NVIDIA's cuML library. We further improve FT K-means with a template-based code generation framework that supports different data types and adapts to different input shapes. A novel warp-level tensor-core error correction scheme is proposed to address the failure of existing fault tolerance methods due to memory asynchronization during copy operations. Our experimental evaluations on NVIDIA T4 GPU and A100 GPU demonstrate that FT K-means without fault tolerance outperforms cuML's K-means implementation, showing a performance increase of 10\%-300\% in scenarios involving irregular data shapes. Moreover, the fault tolerance feature of FT K-means introduces only an overhead of 11\%, maintaining robust performance even with tens of errors injected per second.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 物理インフォームドニューラルネットワークによる非線形力学の部分微分代数方程式:(I)演算子分割とフレームワーク評価

Partial-differential-algebraic equations of nonlinear dynamics by Physics-Informed Neural-Network: (I) Operator splitting and framework assessment ( http://arxiv.org/abs/2408.01914v2 )

ライセンス: Link先を確認
Loc Vu-Quoc, Alexander Humer, (参考訳) 微分作用素分割に基づく偏微分代数方程式の解法として, 非線形キルヒホフロッドを実証の原型として, 新規な物理インフォームドニューラルネット(PINN)を構築するためのいくつかの形式が提案されている。 オープンソースであるDeepXDEは、おそらく多くの例で最もよくドキュメント化されたフレームワークである。 しかし,病理学的な問題に遭遇し,その解決のための新しい方法を提案した。 これらの新しい手法には PDE 形式があるが、これは未知の従属変数が少ない低レベル形式からより従属変数を持つ高レベル形式へと進化し、さらに下位レベルの形式からも進化している。 伝統的に、最上位の形式であるモメンタ形式は、連続する置換の退屈な(そしてエラーを起こしやすい)過程を通じて最下位の形式を導出する(手)出発点である。 有限要素法における次のステップは、弱い形式を形成し、適切な補間関数で線形化し、次にコードとテストで実装することで、最低レベルの形式を識別することである。 これらのステップの全てで時間を消費するテジウムは、提案された新しいPINNを最も高いレベルに直接適用することでバイパスすることができる。 私たちはJAXをベースにしたスクリプトを開発しました。 我々のJAXスクリプトはDDE-T(TensorFlowバックエンドのDDE)の病理的な問題を示さなかったが、DDE-Tよりも遅い。 DDE-T自体が低レベルの形式よりも高レベルの形式の方が効率的であることは、上述の利点に加えて、より高レベルの形式で直接動作することをより魅力的にしている。 そこで我々は,ネットワーク学習プロセスの正規化/標準化を通じて最適化を行った経験を詳細に体系化して,読者が結果を再現できるようにした。

Several forms for constructing novel physics-informed neural-networks (PINN) for the solution of partial-differential-algebraic equations based on derivative operator splitting are proposed, using the nonlinear Kirchhoff rod as a prototype for demonstration. The open-source DeepXDE is likely the most well documented framework with many examples. Yet, we encountered some pathological problems and proposed novel methods to resolve them. Among these novel methods are the PDE forms, which evolve from the lower-level form with fewer unknown dependent variables to higher-level form with more dependent variables, in addition to those from lower-level forms. Traditionally, the highest-level form, the balance-of-momenta form, is the starting point for (hand) deriving the lowest-level form through a tedious (and error prone) process of successive substitutions. The next step in a finite element method is to discretize the lowest-level form upon forming a weak form and linearization with appropriate interpolation functions, followed by their implementation in a code and testing. The time-consuming tedium in all of these steps could be bypassed by applying the proposed novel PINN directly to the highest-level form. We developed a script based on JAX. While our JAX script did not show the pathological problems of DDE-T (DDE with TensorFlow backend), it is slower than DDE-T. That DDE-T itself being more efficient in higher-level form than in lower-level form makes working directly with higher-level form even more attractive in addition to the advantages mentioned further above. Since coming up with an appropriate learning-rate schedule for a good solution is more art than science, we systematically codified in detail our experience running optimization through a normalization/standardization of the network-training process so readers can reproduce our results.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 冷原子量子シミュレータにおける全位相変動の測定

Measurement of total phase fluctuation in cold-atomic quantum simulator ( http://arxiv.org/abs/2408.03736v1 )

ライセンス: Link先を確認
Taufiq Murtadho, Federica Cataldini, Sebastian Erne, Marek Gluza, Jörg Schmiedmayer, Nelly H. Y. Ng, (参考訳) 量子多体系の力学を研究することは、特に連続系において、関連する可観測性を求める際の制限によってしばしば制限される。 顕著な例は、2つの平行1次元ボース気体であり、干渉によって探される位相差を通して1次元量子場理論をシミュレートする。 本稿では、連続性方程式を用いた密度力学から位相勾配を再構築する一般的な原理に基づいて、結合系の全位相を抽出する手法を提案する。 このアプローチは、2つの1Dボース気体の合計モードの以前に隠されていたセクターを明らかにする。 提案手法を数値的に検証し,選択した実験からのデータを分析し,冷原子量子シミュレータの範囲と性能をいかに拡張するかを示す。

Studying the dynamics of quantum many-body systems is often constrained by the limitations in probing relevant observables, especially in continuous systems. A prominent example is two parallel 1D Bose gases, which simulate 1D quantum field theories through the phase difference probed by interference. Here we introduce a method to extract the total phase of the combined system based on a general principle of reconstructing phase gradient from density dynamics using continuity equation. This approach reveals the previously hidden sector of the sum mode of the two 1D Bose gases. We validate our technique numerically and demonstrate its effectiveness by analysing data from selected experiments, showcasing how our method expands the scope and capabilities of cold-atomic quantum simulators.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 出力の多様性を高めることで、共役的なグラディエントベースの敵攻撃が改善

Enhancing Output Diversity Improves Conjugate Gradient-based Adversarial Attacks ( http://arxiv.org/abs/2408.03972v1 )

ライセンス: Link先を確認
Keiichiro Yamamura, Issa Oe, Hiroki Ishikura, Katsuki Fujisawa, (参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、敵の例を生成する敵攻撃はこの文脈で研究されている。 既存の研究は、モデル出力の多様性の増大が攻撃性能の向上に寄与していることを示唆している。 本研究は,共役勾配法にインスパイアされた自動共役勾配(ACG)攻撃に焦点をあてる。 2つの連続探索点間の距離を増大させると出力の多様性が増すという仮説を立てた。 提案するRescaling-ACG(Rescaling-ACG)は,探索方向とステップサイズを含む2つの連続探索点間の距離に大きく影響する2つのコンポーネントを自動的に修正する。 ReACGはACGよりも高い攻撃性能を示し、特にいくつかの分類クラスを持つImageNetモデルに有効である。 実験結果から、2つの連続した探索点間の距離が出力の多様性を高め、新たな攻撃を発生させる可能性が示唆された。 コードは \url{https://github.com/yamamura-k/ReACG} で公開されている。

Deep neural networks are vulnerable to adversarial examples, and adversarial attacks that generate adversarial examples have been studied in this context. Existing studies imply that increasing the diversity of model outputs contributes to improving the attack performance. This study focuses on the Auto Conjugate Gradient (ACG) attack, which is inspired by the conjugate gradient method and has a high diversification performance. We hypothesized that increasing the distance between two consecutive search points would enhance the output diversity. To test our hypothesis, we propose Rescaling-ACG (ReACG), which automatically modifies the two components that significantly affect the distance between two consecutive search points, including the search direction and step size. ReACG showed higher attack performance than that of ACG, and is particularly effective for ImageNet models with several classification classes. Experimental results show that the distance between two consecutive search points enhances the output diversity and may help develop new potent attacks. The code is available at \url{https://github.com/yamamura-k/ReACG}
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 最適輸送による長期データのための雑音ラベルからの学習

Learning from Noisy Labels for Long-tailed Data via Optimal Transport ( http://arxiv.org/abs/2408.03977v1 )

ライセンス: Link先を確認
Mengting Li, Chuang Zhu, (参考訳) 実世界のデータセットで一般的なノイズラベルは、ディープラーニングモデルのトレーニングを著しく損なう可能性がある。 しかし,近年の敵対的雑音合成手法は,実データの長期分布を無視し,デノナイジング戦略の効果を著しく損なう可能性がある。 一方、ノイズラベルの管理ミスにより、長い尾を持つデータを扱うモデルの能力はさらに損なわれる。 この問題に対処するために、長い尾の分布とノイズラベルの両方を特徴とするデータ管理手法を提案する。 まず、クラス予測と特徴分布を統合し、クリーンサンプルをフィルタし、ノイズラベルや長い尾の分布から生じる不確実性に効果的に対処する。 続いて, 半教師付きトレーニング方式で擬似ラベルを生成するために最適な輸送戦略を採用し, 長期分布によるサンプルの不足の影響を軽減しつつ, 擬似ラベルの品質を向上させる。 合成と実世界の両方のデータセットで実験を行い,本手法が最先端の手法を超越していることを示す。 私たちのコードは将来利用可能になります。

Noisy labels, which are common in real-world datasets, can significantly impair the training of deep learning models. However, recent adversarial noise-combating methods overlook the long-tailed distribution of real data, which can significantly harm the effect of denoising strategies. Meanwhile, the mismanagement of noisy labels further compromises the model's ability to handle long-tailed data. To tackle this issue, we propose a novel approach to manage data characterized by both long-tailed distributions and noisy labels. First, we introduce a loss-distance cross-selection module, which integrates class predictions and feature distributions to filter clean samples, effectively addressing uncertainties introduced by noisy labels and long-tailed distributions. Subsequently, we employ optimal transport strategies to generate pseudo-labels for the noise set in a semi-supervised training manner, enhancing pseudo-label quality while mitigating the effects of sample scarcity caused by the long-tailed distribution. We conduct experiments on both synthetic and real-world datasets, and the comprehensive experimental results demonstrate that our method surpasses current state-of-the-art methods. Our code will be available in the future.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 電子絶縁体における電荷秩序の代替としてのフラクショナル化

Fractionalization as an alternate to charge ordering in electronic insulators ( http://arxiv.org/abs/2408.03984v1 )

ライセンス: Link先を確認
Seth Musser, Meng Cheng, T. Senthil, (参考訳) 格子の部分充填時の電子系の非圧縮絶縁相は、格子対称性を破る電荷秩序としばしば関連付けられる。 結果として生じる位相は、有効な整数フィリングを備えた拡張単位セルを有する。 ここでは「量子電荷液体 (Quantum Charge Liquids, QCL)」と呼ばれる絶縁状態が格子変換対称性を保持する部分的な格子充填で観測される可能性を探る。 このようなQCL相は、必ずしも分数的に帯電した励起と関連するトポロジカル次数を持つか、空隙のない中立励起を持つ必要がある。 ギャップ付きフェルミオンQCL位相の一般制約を定め、その位相順序の性質を制限した。 格子充填と整合する最小位相次数について、多くの結果が証明される。 特に、有理フィリング$\nu = p/q$と偶数$q$のとき、フェルミオンQCLのトーラス上の最小基底状態縮退は、同じフィリングにおけるボソニックQCLの4倍の4q^2$であることを示す。 フェミオン性QCL相をホストするモデルや物理系についてコメントし、これらの相の現象論について議論する。

Incompressible insulating phases of electronic systems at partial filling of a lattice are often associated with charge ordering that breaks lattice symmetry. The resulting phases have an enlarged unit cell with an effective integer filling. Here we explore the possibility of insulating states - which we dub "Quantum Charge Liquids" (QCL) - at partial lattice filling that preserve lattice translation symmetry. Such QCL phases must necessarily either have gapped fractionally charged excitations and associated topological order or have gapless neutral excitations. We establish some general constraints on gapped fermionic QCL phases that restrict the nature of their topological order. We prove a number of results on the minimal topological order that is consistent with the lattice filling. In particular we show that at rational fillings $\nu = p/q$ with $q$ an even integer the minimal ground state degeneracy on a torus of the fermionic QCL is $4q^2$, 4 times larger than that of the bosonic QCL at the same filling. We comment on models and physical systems which may host fermionic QCL phases and discuss the phenomenology of these phases.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 探索-決定還元による量子部分代入の探索

Finding quantum partial assignments by search-to-decision reductions ( http://arxiv.org/abs/2408.03986v1 )

ライセンス: Link先を確認
Jordi Weggemans, (参考訳) 計算機科学において、多くの探索問題は決定問題に対して再現可能であるため、解を見つけることは解が存在するかどうかを決定するのと同じくらい難しい。 探索対決定還元の量子アナログは、$\mathsf{QMA}$ oracleが量子状態として$\mathsf{QMA}$証人を構成することができるかどうかを問うことである。 イラン語、ナタラジャン語、ニクヘ語、ラオ語、ユエン語(CCC '22)の結果、これは$\mathsf{NP}$, $\mathsf{MA}$, $\mathsf{QCMA}$と異なり、量子オラクルと相対性を持たないことが知られている。 量子ビクターを量子状態として興味がなければ、その部分的な割り当て(すなわち密度行列の減少)によって、任意の所望の局所性および逆多項式誤差に対して、準最適量子ビクターの密度行列の近似を出力する$\mathsf{QMA}$ oracleにアクセスできる古典多項式時間アルゴリズムが存在することを証明している。 我々の構成は、ほぼ最適に近い$\mathsf{QMA}$証人および新しい$\mathsf{QMA}$完全問題である低エネルギー密度行列検証(英語版)に基づいており、これは、低エネルギー状態のほぼ一貫した密度行列を適応的に構築するために$\mathsf{QMA}$オラクルと呼ばれる。

In computer science, many search problems are reducible to decision problems, which implies that finding a solution is as hard as deciding whether a solution exists. A quantum analogue of search-to-decision reductions would be to ask whether a quantum algorithm with access to a $\mathsf{QMA}$ oracle can construct $\mathsf{QMA}$ witnesses as quantum states. By a result from Irani, Natarajan, Nirkhe, Rao, and Yuen (CCC '22), it is known that this does not hold relative to a quantum oracle, unlike the cases of $\mathsf{NP}$, $\mathsf{MA}$, and $\mathsf{QCMA}$ where search-to-decision relativizes. We prove that if one is not interested in the quantum witness as a quantum state but only in terms of its partial assignments, i.e. the reduced density matrices, then there exists a classical polynomial-time algorithm with access to a $\mathsf{QMA}$ oracle that outputs approximations of the density matrices of a near-optimal quantum witness, for any desired constant locality and inverse polynomial error. Our construction is based on a circuit-to-Hamiltonian mapping that approximately preserves near-optimal $\mathsf{QMA}$ witnesses and a new $\mathsf{QMA}$-complete problem, Low-energy Density Matrix Verification, which is called by the $\mathsf{QMA}$ oracle to adaptively construct approximately consistent density matrices of a low-energy state.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# 高忠実基底状態生成のためのダブルブラケット量子アルゴリズム

Double-bracket quantum algorithms for high-fidelity ground state preparation ( http://arxiv.org/abs/2408.03987v1 )

ライセンス: Link先を確認
Matteo Robbiati, Edoardo Pedicillo, Andrea Pasquale, Xiaoyue Li, Andrew Wright, Renato M. S. Farias, Khanh Uyen Giang, Jeongrak Son, Johannes Knörzer, Siong Thye Goh, Jun Yong Khoo, Nelly H. Y. Ng, Zoë Holmes, Stefano Carrazza, Marek Gluza, (参考訳) 基底状態の準備は、量子コンピュータが有利であることが期待される重要な領域である。 ダブルブラケット量子アルゴリズム(DBQA)は、最近ハミルトンを対角化するために提案され、この研究で基底状態の生成にどのように使うかを示す。 我々はDBQAのいくつかのステップを追加して、初期状態の準備を改善することを提案する。 インターフェース方式は, 計算コストを大幅に削減しつつ, より優れた忠実度を体系的に達成する。 ハイゼンベルクモデルでは、CZとシングルキュービットゲートを用いて、短期量子デバイスの能力にマッチする回路にアルゴリズムをコンパイルする。 さらに,DBQAは回路深度を増大させる実験により有効であることを示す。 利用可能な回路深さを無駄にすることなく、近似基底状態を作成することができれば、DBQAを登録してアルゴリズムによりより高い忠実度の準備を求めることができる。

Ground state preparation is a key area where quantum computers are expected to prove advantageous. Double-bracket quantum algorithms (DBQAs) have been recently proposed to diagonalize Hamiltonians and in this work we show how to use them to prepare ground states. We propose to improve an initial state preparation by adding a few steps of DBQAs. The interfaced method systematically achieves a better fidelity while significantly reducing the computational cost of the procedure. For a Heisenberg model, we compile our algorithm using CZ and single-qubit gates into circuits that match capabilities of near-term quantum devices. Moreover, we show that DBQAs can benefit from the experimental availability of increasing circuit depths. Whenever an approximate ground state can be prepared without exhausting the available circuit depth, then DBQAs can be enlisted to algorithmically seek a higher fidelity preparation.
翻訳日:2024-08-09 17:39:48 公開日:2024-08-07
# パウリ計算における深さと測定重量の低減

Reducing Depth and Measurement Weights in Pauli-based Computation ( http://arxiv.org/abs/2408.04007v1 )

ライセンス: Link先を確認
Filipa C. R. Peres, Ernesto F. Galvão, (参考訳) パウリベースの計算(英: Pauli-based calculation, PBC)は、分離可能なマジック状態量子ビット上の独立かつ互換のパウリ測度の適応シーケンスによって導かれる、普遍的な測度に基づく量子計算モデルである。 本稿では,パウリ測定の重み付けとそれに関連する \textsc{cnot} 複雑性を減少させる新しい方法を提案する。 既知の状態移動法にインスパイアされたIncPBCは、量子計算の普遍的なモデルであり、最大2.5%の重量のより多くの(現在互換性のない)パウリ測度を必要とする。 通常のPBCでは, 必要な重みと計算深度に対して, プレコンパイルステップを用いて新たな上限を求める。 また、最大22ドルのゲートを持つクリフォード支配のランダム量子回路をシミュレーションし、コンパイルする際に、パウリ測度(およびそれに関連する \textsc{cnot} count)の平均重量に30 %以上の減少を寄与できるヒューリスティックアルゴリズムを提案する。

Pauli-based computation (PBC) is a universal measurement-based quantum computation model steered by an adaptive sequence of independent and compatible Pauli measurements on separable magic-state qubits. Here, we propose several new ways of decreasing the weight of the Pauli measurements and their associated \textsc{cnot} complexity; we also demonstrate how to reduce this model's computational depth. Inspired by known state-transfer methods, we introduce incPBC, a universal model for quantum computation requiring a larger number of (now incompatible) Pauli measurements of weight at most 2. For usual PBC, we prove new upper bounds on the required weights and computational depth, obtained via a pre-compilation step. We also propose a heuristic algorithm that can contribute reductions of over 30\% to the average weight of Pauli measurements (and associated \textsc{cnot} count) when simulating and compiling Clifford-dominated random quantum circuits with up to 22 $T$ gates and over 20\% for instances with larger $T$ counts.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 量子磁石における任意の周期性を持つ一般化ジョセフソン効果

Generalized Josephson effect with arbitrary periodicity in quantum magnets ( http://arxiv.org/abs/2408.04008v1 )

ライセンス: Link先を確認
Anshuman Tripathi, Felix Gerken, Peter Schmitteckert, Michael Thorwart, Mircea Trif, Thore Posske, (参考訳) 簡単な平面量子磁石は超伝導体と著しく似ており、スピン超電流と有効超伝導相が$U(1)$の回転対称性から生じる。 一次元スピン=1/2$の鎖と位相固定境界場の系サイズで線形に増加する周期性を持つ一般化された分数的ジョセフソン効果を明らかにする。 この効果は1つの系における任意の整数周期性を結合し、マヨアナゼロモードやその他の異方性準粒子の超伝導ジョセフソン効果の4\pi $と8\pi $の周期性を超える。 我々は、普遍的なエネルギー相関係を明らかにし、最近発見されたファントムヘリスと効果を結びつける。

Easy-plane quantum magnets are strikingly similar to superconductors, allowing for spin supercurrent and an effective superconducting phase stemming from their $U(1)$ rotation symmetry around the $z$-axis. We uncover a generalized fractional Josephson effect with a periodicity that increases linearly with system size in one-dimensional spin-$1/2$ chains at selected anisotropies and phase-fixing boundary fields. The effect combines arbitrary integer periodicities in a single system, exceeding the $4\pi $ and $8\pi $ periodicity of superconducting Josephson effects of Majorana zero modes and other exotic quasiparticles. We reveal a universal energy-phase relation and connect the effect to the recently discovered phantom helices.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 高調波ボソニックバスを用いたオープン量子系の誤差境界

Error Bounds for Open Quantum Systems with Harmonic Bosonic Bath ( http://arxiv.org/abs/2408.04009v1 )

ライセンス: Link先を確認
Kaizhao Liu, Jianfeng Lu, (参考訳) ボーソニック浴を用いた開量子系の物理観測可能性のバス相関関数依存性について検討した。 図式的および組合せ的議論に基づいて,浴槽相関関数の変動によって引き起こされる物理観測値の差を誤差推定する。 これは[Mascherpa et al, Phys Rev Lett 2017] における結果の数学的に厳密な正当化を与える。

We investigate the dependence of physical observable of open quantum systems with Bosonic bath on the bath correlation function. We provide an error estimate of the difference of physical observable induced by the variation of bath correlation function, based on diagrammatic and combinatorial arguments. This gives a mathematically rigorous justification of the result in [Mascherpa et al, Phys Rev Lett 2017].
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 数式とテキストのためのイメージ・トゥ・ラテX変換器

Image-to-LaTeX Converter for Mathematical Formulas and Text ( http://arxiv.org/abs/2408.04015v1 )

ライセンス: Link先を確認
Daniil Gurgurov, Aleksey Morshnev, (参考訳) 本稿では,数式とテキストの画像からLaTeXコードを生成するために,視覚エンコーダデコーダモデルを訓練する。 スウィントランスフォーマーエンコーダとGPT-2デコーダを備えたベースモデルと,手書き公式でトレーニングしたローランド適応(LoRA)による微調整バージョンという,多種多様なイメージ・トゥ・ラテXデータを利用する2つのモデルを構築した。 次に、特殊モデルのBLEU性能を、Pix2Text、TexTeller、Sumenといった他の類似モデルと手書きテストセットで比較する。 このプロジェクトを通じて、イメージをLaTeXに変換するためのオープンソースモデルをコントリビュートし、これらのモデルを分散トレーニングとGPU最適化で構築するためのオフスクラッチコードを提供する。

In this project, we train a vision encoder-decoder model to generate LaTeX code from images of mathematical formulas and text. Utilizing a diverse collection of image-to-LaTeX data, we build two models: a base model with a Swin Transformer encoder and a GPT-2 decoder, trained on machine-generated images, and a fine-tuned version enhanced with Low-Rank Adaptation (LoRA) trained on handwritten formulas. We then compare the BLEU performance of our specialized model on a handwritten test set with other similar models, such as Pix2Text, TexTeller, and Sumen. Through this project, we contribute open-source models for converting images to LaTeX and provide from-scratch code for building these models with distributed training and GPU optimizations.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 位相偏光テクスチャからのシフト光電流渦

Shift photocurrent vortices from topological polarization textures ( http://arxiv.org/abs/2408.04017v1 )

ライセンス: Link先を確認
Aneesh Agarwal, Wojciech J. Jankowski, Daniel Bennett, Robert-Jan Slager, (参考訳) ファンデルワールス(vdW)強誘電体への近年の関心を受けて、トポロジカルに非自明な極構造がツイストされた二層構造で形成されると予測されている。 vdW強誘電性の不規則な性質のため、これらのトポロジカル極構造は実験的に観察することが困難であることが証明されている。 本稿では,これらのテクスチャを光学的に探究し,トポロジカル偏光テクスチャがエキゾチックな非線形光学応答をもたらすことを示す。 我々は、この関係を非アベリア・ベリー接続と量子幾何学的枠組みを用いて解析的に導き出し、強結合計算と第一原理計算によって支持する。 極性メロンとアンタロンのネットワークを形成する中心対称性のないモワール材料の場合、シフト光伝導性は実空間において渦状構造を形成する。 ブリルアンゾーンの端で遷移が起こる周波数の範囲では、シフト光電流は平面内の電子偏光場に対して反平行である。 本研究は,vdW材料における複雑な偏光テクスチャと非線形光学応答の相互作用に注目し,位相偏光構造を実験的に検出するための探索戦略を提供する。

Following the recent interest in van der Waals (vdW) ferroelectrics, topologically nontrivial polar structures have been predicted to form in twisted bilayers. Due to the unconventional nature of vdW ferroelectricity, these topological polar structures have proven difficult to observe experimentally. Here we propose that these textures may be probed optically by showing that topological polarization textures result in exotic nonlinear optical responses. We derive this relationship analytically using non-Abelian Berry connections and a quantum-geometric framework, supported by tight-binding and first-principles calculations. For the case of moir\'e materials without centrosymmetry, which form networks of polar merons and antimerons, the shift photoconductivity forms a vortex-like structure in real space. For a range of frequencies where transitions occur at the Brillouin zone edge, the shift photocurrents are anti-parallel to the in-plane electronic polarization field. Our findings highlight the interplay between complex polarization textures and nonlinear optical responses in vdW materials and provide a sought-after strategy for the experimental detection of topological polarization structures.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 宇宙ニュートリノ背景・軸・ダークマター・原子炉ニュートリノの超ラジカル相互作用

Superradiant Interactions of the Cosmic Neutrino Background, Axions, Dark Matter, and Reactor Neutrinos ( http://arxiv.org/abs/2408.04021v1 )

ライセンス: Link先を確認
Asimina Arvanitaki, Savas Dimopoulos, Marios Galanis, (参考訳) この論文では3つのことをします。 まず、N$ターゲット系の内部状態を変化させる非弾性過程の相互作用速度が$N^2$となる条件を概説する。 これはコヒーレント弾性散乱とは異なる効果であるが、同じスケーリングを持つ。 第二に、様々な弱い相互作用粒子に対するそのような過程の例率を計算する。 最後に、従来のエネルギー交換を超越したこれらのプロセスの量子観測可能性を示す。 非弾性過程における最大コヒーレンス(英語版)は、標的が基底と励起状態の等しい重ね合わせに置かれるときに達成される。 これらのコヒーレント非弾性過程はディック超放射能と類似しており、我々はこれらを超放射能相互作用と呼ぶ。 我々は,C$\nu$B,ダークマター散乱と吸収,原子炉ニュートリノのような後期一様粒子の2レベル系が磁場中の原子スピンや電子スピンによって実現される場合の超放射能相互作用速度を計算する。 我々の発見する速度は、マクロ的だが小さな目標に対して非常に大きなものとなる。 例えば、C$\nu$Bは、10~cmの液体や固体密度スピン偏光球から散乱するときに$$\mathcal{O}(\text{Hz})$と相互作用する。 QCDアキシオンダークマターの場合、同様の値はより小さなサンプルである$N \sim \mathcal{O}(10^{15})\left(\frac{m}{2\times 10^{-8}~\text{eV}}\right)^{-1/2}$で実現できる。 開量子系に対するリンドブラッド形式を用いることで、これらの超ラジカル相互作用が系上のノイズの源として現れることを示す。 このことは、励起と非励起の総和に敏感な新しい観測可能点を指し、系に拡散とデコヒーレンスを導入すると見なすことができる。 この論文で示された効果は、新しいタイプの超低しきい値検出器を指す可能性がある。

In this paper we do three things. First, we outline the conditions under which the interaction rate of inelastic processes that change the internal state of a system of $N$ targets scales as $N^2$. This is an effect distinct from coherent elastic scattering, but with the same scaling. Second, we compute example rates for such processes for various weakly interacting particles. Finally, we point to potential quantum observables for these processes that go beyond traditional energy exchange. Maximal coherence in inelastic processes is achieved when the targets are placed in an equal superposition of the ground and excited states. These coherent inelastic processes are analogous to Dicke superradiance, and we thus refer to them as superradiant interactions. We compute the superradiant interaction rates for the C$\nu$B, dark matter scattering and absorption, and late-universe particles, such as reactor neutrinos, when the two-level system is realized by nuclear or electron spins in a magnetic field. The rates we find can be quite sizable on macroscopic yet small targets. For example, the C$\nu$B interacts with a rate of $\mathcal{O}(\text{Hz})$ when scattering off a 10~cm liquid or solid-state density spin-polarized sphere. For QCD axion dark matter, similar rates can be achieved with much smaller samples, $N \sim \mathcal{O}(10^{15})\left(\frac{m}{2\times 10^{-8}~\text{eV}}\right)^{-1/2}$, where $m$ is the axion mass. Using the Lindblad formalism for open quantum systems, we show that these superradiant interactions can manifest as a source of noise on the system. This points to new observables, sensitive to the sum of the excitation and de-excitation rates, and can be viewed as introducing diffusion and decoherence to the system. The effects presented in this paper may point to a new class of ultra-low threshold detectors.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 文脈認識基盤化による大規模言語モデル(LLM)の忠実度向上:信頼性と妥当性に対する体系的アプローチ

Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach to reliability and veracity ( http://arxiv.org/abs/2408.04023v1 )

ライセンス: Link先を確認
Wrick Talukdar, Anjanava Biswas, (参考訳) 大きな言語モデル(LLM)が自然言語処理(NLP)アプリケーションでますます洗練され、ユビキタスになり、その堅牢性、信頼性、人的価値との整合性を保証することが、重要な課題となっている。 本稿では,テクストモデルにおける文脈的接地のための新しい枠組みについて述べる。 我々のアプローチは、包括的でコンテキスト対応の方法論を通じて、これらのモデルの信頼性と倫理的整合性を高めることを目的としている。 マシン可読なフォーマットで、関連する状況、文化的、倫理的コンテキストを明示的に把握し、表現することで、これらのコンテキスト内にモデルの振る舞いを固定する基盤を築きます。 提案手法は,オントロジーやセマンティックWeb技術,論理に基づく形式主義など,知識表現や推論の手法を活用する。 実世界のテキストデータセットの枠組みを評価し、精度を維持しつつ、モデル性能、公正性、および人間の期待と整合性を改善する上での有効性を実証した。 さらに、コンテキスト認識符号化、コンテキスト認識学習、解釈可能性と説明可能性、継続的な監視と適応など、フレームワークの他の重要なコンポーネントについても論じる。 この研究は、より信頼性が高く、信頼性が高く、倫理的に整合した言語モデルを開発するための実践的なアプローチを提供する。 本研究は, 文脈理解が最重要である医療, 法制度, 社会サービスなど, センシティブな分野におけるLCMの展開に重要な意味を持つ。

As Large Language Models (LLMs) become increasingly sophisticated and ubiquitous in natural language processing (NLP) applications, ensuring their robustness, trustworthiness, and alignment with human values has become a critical challenge. This paper presents a novel framework for contextual grounding in textual models, with a particular emphasis on the Context Representation stage. Our approach aims to enhance the reliability and ethical alignment of these models through a comprehensive, context-aware methodology. By explicitly capturing and representing relevant situational, cultural, and ethical contexts in a machine-readable format, we lay the foundation for anchoring a model's behavior within these contexts. Our approach leverages techniques from knowledge representation and reasoning, such as ontologies, semantic web technologies, and logic-based formalisms. We evaluate our framework on real-world textual datasets, demonstrating its effectiveness in improving model performance, fairness, and alignment with human expectations, while maintaining high accuracy. Furthermore, we discuss the other key components of the framework, including context-aware encoding, context-aware learning, interpretability and explainability, and continuous monitoring and adaptation. This research contributes to the growing body of work on responsible AI, offering a practical approach to developing more reliable, trustworthy, and ethically-aligned language models. Our findings have significant implications for the deployment of LLMs in sensitive domains such as healthcare, legal systems, and social services, where contextual understanding is paramount.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# うつ病予測におけるマルチモーダルジェンダーフェアネス:米国と中国のデータを中心に

Multimodal Gender Fairness in Depression Prediction: Insights on Data from the USA & China ( http://arxiv.org/abs/2408.04026v1 )

ライセンス: Link先を確認
Joseph Cameron, Jiaee Cheong, Micol Spitale, Hatice Gunes, (参考訳) 社会エージェントやロボットは、幸福な環境にますます利用されている。 しかし、重要な課題は、これらのエージェントとロボットが通常、個人の精神的健康を検知し分析するために機械学習(ML)アルゴリズムに依存していることである。 MLアルゴリズムにおけるバイアスと公平性の問題は、ますます懸念の源となっている。 既存の文献では、精神的な健康状態が性別や文化によって異なることが示されている。 特徴(音響的,テキスト的,視覚的)の表現とモーダル間の関係は,異なる文化や性別の被験者によって異なるため,様々なMLモデルの性能と公平性に影響を与えると仮定する。 本研究は、米国と中国の2つの異なるデータセットを用いて、抑うつ症状におけるマルチモーダル性フェアネスを初めて評価するものである。 統計的および機械学習の実験を徹底的に行い、いくつかの異なるアルゴリズムの実験を繰り返して、結果がアルゴリズムに依存していないことを保証する。 以上の結果から,両データセットの差はあるものの,仮説によるうつ症状の相違や,データ収集手法の相違など外部要因の相違が原因かは明らかでない。 さらに, 抑うつ検出におけるMLバイアスの問題に対処し, ウェルビーイングのための公平なエージェントやロボットの開発を促進するため, より一貫性のある, 文化的に意識されたデータ収集プロセスの必要性が示唆された。

Social agents and robots are increasingly being used in wellbeing settings. However, a key challenge is that these agents and robots typically rely on machine learning (ML) algorithms to detect and analyse an individual's mental wellbeing. The problem of bias and fairness in ML algorithms is becoming an increasingly greater source of concern. In concurrence, existing literature has also indicated that mental health conditions can manifest differently across genders and cultures. We hypothesise that the representation of features (acoustic, textual, and visual) and their inter-modal relations would vary among subjects from different cultures and genders, thus impacting the performance and fairness of various ML models. We present the very first evaluation of multimodal gender fairness in depression manifestation by undertaking a study on two different datasets from the USA and China. We undertake thorough statistical and ML experimentation and repeat the experiments for several different algorithms to ensure that the results are not algorithm-dependent. Our findings indicate that though there are differences between both datasets, it is not conclusive whether this is due to the difference in depression manifestation as hypothesised or other external factors such as differences in data collection methodology. Our findings further motivate a call for a more consistent and culturally aware data collection process in order to address the problem of ML bias in depression detection and to promote the development of fairer agents and robots for wellbeing.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 騒音における人間の音声知覚:大言語モデルではそれを改善するために言い換えられるか?

Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? ( http://arxiv.org/abs/2408.04029v1 )

ライセンス: Link先を確認
Anupama Chingacham, Miaoran Zhang, Vera Demberg, Dietrich Klakow, (参考訳) LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。 しかし、LLMに音声のテキストを生成するように指示することは、音響的に困難な環境では、より理解しにくい。 本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。 我々の英語における実験では、LLMは、標準的なプロンプトによって、意味的等価性のような所望のテキスト属性を効率的に取得しながら、非テキスト属性、すなわち音響的不明瞭性を制御するのに苦労することを示した。 そこで本研究では,テキスト生成パイプラインにおいて,所望のテキスト属性と非テキスト属性を分離してパラフレーズを生成する,簡易なプロンプト・アンド・セレクション手法であるプロンプト・アンド・セレクションを提案する。 提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。 本研究は,非テクスチャ属性の捕捉におけるLLMの限界を明らかにするとともに,LLMを雑音の人間の音声知覚に活用する可能性を示す。

Large Language Models (LLMs) can generate text by transferring style attributes like formality resulting in formal or informal text. However, instructing LLMs to generate text that when spoken, is more intelligible in an acoustically difficult environment, is an under-explored topic. We conduct the first study to evaluate LLMs on a novel task of generating acoustically intelligible paraphrases for better human speech perception in noise. Our experiments in English demonstrated that with standard prompting, LLMs struggle to control the non-textual attribute, i.e., acoustic intelligibility, while efficiently capturing the desired textual attributes like semantic equivalence. To remedy this issue, we propose a simple prompting approach, prompt-and-select, which generates paraphrases by decoupling the desired textual and non-textual attributes in the text generation pipeline. Our approach resulted in a 40% relative improvement in human speech perception, by paraphrasing utterances that are highly distorted in a listening condition with babble noise at a signal-to-noise ratio (SNR) -5 dB. This study reveals the limitation of LLMs in capturing non-textual attributes, and our proposed method showcases the potential of using LLMs for better human speech perception in noise.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# AIアシスタントを用いた情報検索

Information Seeking Using AI Assistants ( http://arxiv.org/abs/2408.04032v1 )

ライセンス: Link先を確認
Ebtesam Al Haque, Chris Brown, Thomas D. LaToza, Brittany Johnson, (参考訳) ソフトウェア実践者の日々のかなりの部分は、タスク完了をサポートするために情報を探し、利用することです。 ソフトウェア実践者の情報ニーズは広く研究されているが、そのニーズと情報探索行動に対するAI支援ツールの影響は、まだ明らかになっていない。 このギャップに対処するため,実践者の行動を求めるAI支援情報とその認識する生産性とスキル開発への影響を理解するために,混合手法による研究を行った。 開発者の情報検索にAIツールの利用が増えていることが,効率の向上を重要なメリットとして挙げている。 我々の発見はまた、AIツールが提供した情報をガイドし、通知できる基礎的な開発者知識の重要性など、情報検索、特に学習とスキル開発にAIツールを効果的に活用する際の注意点を増幅する。 私たちの取り組みは、情報検索や学習支援として、AIツールを開発者のワークフローに効果的に統合する上で意味があります。

A good portion of a software practitioners' day involves seeking and using information to support task completion. Although the information needs of software practitioners have been studied extensively, the impact of AI-assisted tools on their needs and information-seeking behaviors remains largely unexplored. To addresses this gap, we conducted a mixed-method study to understand AI-assisted information seeking behavior of practitioners and its impact on their perceived productivity and skill development. We found that developers are increasingly using AI tools to support their information seeking, citing increased efficiency as a key benefit. Our findings also amplify caveats that come with effectively using AI tools for information seeking, especially for learning and skill development, such as the importance of foundational developer knowledge that can guide and inform the information provided by AI tools. Our efforts have implications for the effective integration of AI tools into developer workflows as information retrieval and learning aids.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 3次元シーンにおけるタスク指向シーケンスグラウンド

Task-oriented Sequential Grounding in 3D Scenes ( http://arxiv.org/abs/2408.04034v1 )

ライセンス: Link先を確認
Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li, (参考訳) 物理的3次元環境における自然言語の接地は、具体的人工知能の発展に不可欠である。 現在の3Dビジュアルグラウンドのためのデータセットとモデルは、主に静的なオブジェクト中心の記述からオブジェクトを特定し、ローカライズすることに焦点を当てている。 これらのアプローチは、実用的な応用に必要なタスク指向グラウンドディングの動的かつシーケンシャルな性質を適切に解決するものではない。 本研究では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding in 3D scene)を提案する。 SG3Dは22,346のタスクと112,236のステップを4,895の現実世界の3Dシーンに収めた大規模データセットである。 データセットは、さまざまな3DシーンデータセットからRGB-Dスキャンと自動タスク生成パイプラインを組み合わせて構築され、続いて品質保証のための人間による検証が行われる。 我々は3つの最先端3次元視覚接地モデルを逐次接地課題に適用し,SG3Dの性能評価を行った。 その結果、これらのモデルは従来のベンチマークでよく機能するが、タスク指向のシーケンシャルグラウンドリングにおいて重大な課題に直面しており、この分野におけるさらなる研究の必要性が強調されている。

Grounding natural language in physical 3D environments is essential for the advancement of embodied artificial intelligence. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented grounding necessary for practical applications. In this work, we propose a new task: Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow detailed step-by-step instructions to complete daily activities by locating a sequence of target objects in indoor scenes. To facilitate this task, we introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed using a combination of RGB-D scans from various 3D scene datasets and an automated task generation pipeline, followed by human verification for quality assurance. We adapted three state-of-the-art 3D visual grounding models to the sequential grounding task and evaluated their performance on SG3D. Our results reveal that while these models perform well on traditional benchmarks, they face significant challenges with task-oriented sequential grounding, underscoring the need for further research in this area.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 量子状態の不確かさ

Uncertainty of Quantum States ( http://arxiv.org/abs/2408.04037v1 )

ライセンス: Link先を確認
Stan Gudder, (参考訳) 量子状態の不確実性は、2つの成分の合成によって与えられる。 1つ目は量子成分と呼ばれ、状態に対する可観測物の確率分布によって与えられる。 2つ目は、第一成分に適用される不確実関数である古典成分である。 4つの公理の観点で不確かさ関数を特徴づける。 次に、分散、エントロピー、幾何および正弦の不確かさ関数と呼ばれる4つの例について研究する。 最終節では、状態不確実性に関する一般的な理論を提示している。

The uncertainty of a quantum state is given by the composition of two components. The first is called the quantum component and is given by the probability distribution of an observable relative to the state. The second is the classical component which is an uncertainty function that is applied to the first component. We characterize uncertainty functions in terms of four axioms. We then study four examples called variance, entropy, geometric and sine uncertainty functions. The final section presents the general theory of state uncertainty.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 実世界予測のための計算教材データベースの拡張におけるSim2Real Transfer Learningのスケーリング法則

Scaling Law of Sim2Real Transfer Learning in Expanding Computational Materials Databases for Real-World Predictions ( http://arxiv.org/abs/2408.04042v1 )

ライセンス: Link先を確認
Shunya Minami, Yoshihiro Hayashi, Stephen Wu, Kenji Fukumizu, Hiroki Sugisawa, Masashi Ishii, Isao Kuwajima, Kazuya Shiratori, Ryo Yoshida, (参考訳) 限られた実験材料データの課題に対処するため、分子動力学シミュレーションのような高スループットの計算実験に基づいて、広範な物理特性データベースが開発されている。 従来の研究では、計算データベースで事前訓練された予測器を実システムに微調整することで、スクラッチから学習するよりも優れた一般化能力を持つモデルが得られることが示されている。 本研究では,物質科学における複数の機械学習タスクに対するシミュレーション・トゥ・リアル(Sim2Real)変換学習のスケーリング則を実証する。 高分子および無機材料の3つの予測タスクのケーススタディでは、計算データのサイズが大きくなるにつれて、実システムの予測誤差がパワーローに従って減少することが明らかになった。 スケーリング動作の観察は、所望のパフォーマンスを達成するために必要なサンプルサイズを決定すること、物理および計算実験に相当するサンプルサイズを特定すること、下流の現実世界のタスクのためのデータ生産プロトコルの設計を導くことなど、データベース開発に様々な洞察を与える。

To address the challenge of limited experimental materials data, extensive physical property databases are being developed based on high-throughput computational experiments, such as molecular dynamics simulations. Previous studies have shown that fine-tuning a predictor pretrained on a computational database to a real system can result in models with outstanding generalization capabilities compared to learning from scratch. This study demonstrates the scaling law of simulation-to-real (Sim2Real) transfer learning for several machine learning tasks in materials science. Case studies of three prediction tasks for polymers and inorganic materials reveal that the prediction error on real systems decreases according to a power-law as the size of the computational data increases. Observing the scaling behavior offers various insights for database development, such as determining the sample size necessary to achieve a desired performance, identifying equivalent sample sizes for physical and computational experiments, and guiding the design of data production protocols for downstream real-world tasks.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 低レベル中間表現におけるオーナシップ

Ownership in low-level intermediate representation ( http://arxiv.org/abs/2408.04043v1 )

ライセンス: Link先を確認
Siddharth Priya, Arie Gurfinkel, (参考訳) 高レベルの言語におけるオーナシップの概念は、プログラマとコンパイラの両方がメモリ操作の有効性を判断するのに役立ちます。 これまで、オーナシップセマンティクスは、アドレスマップを維持する代わりに、データの1次論理(FOL)表現によってデータへの参照をモデル化するために、ハイレベルな自動プログラム検証でうまく使われてきた。 しかし、オーナシップのセマンティクスは低レベルのプログラム検証には使われない。 我々は2つの課題を特定した。 まず、プログラムが低レベル中間表現(例えばLLVM IR)にコンパイルされると、所有権情報が失われる。 第二に、低レベルのプログラムのポインタはアドレスマップ(例えば、安全でないRust)を使用してバイトを指しているため、検証条件(VC)は、常にFOL抽象化によってポインタを置き換えることはできない。 状況を改善するため,低レベル中間表現のようなLLVMのオーナシップセマンティクスを開発する。 これらのセマンティクスを使用することで、VCはデータのバイト表現を格納するポインタキャッシュの直接アクセスによって、いくつかのメモリアクセスを同時にモデル化することができる。 このスキームは、特にオーナシップのセマンティクスに従う安全なプログラムに対して、アドレスマップをメンテナンスしなければならないインスタンスを減らす。 安全でない機能のために、メモリアクセスはアドレスマップの操作によってモデル化され、アドレスマップとポインタキャッシュを同期に保つメカニズムを提供する。 LLVMのモデルチェッカーであるSEABMCでこれらのセマンティクスを実装している。 Cにはオーナシップが組み込まれていないため、検証のためにIRのようなLLVMへの変換中にオーナシップを導入して保存する適切なマクロが追加される。 このアプローチは成熟したオープンソースCコードで評価される。 手作りのベンチマークと実用的なプログラムの両方に対して、SMT解決時に13x-5x$のスピードアップを観察する。

The concept of ownership in high level languages can aid both the programmer and the compiler to reason about the validity of memory operations. Previously, ownership semantics has been used successfully in high level automatic program verification to model a reference to data by a first order logic (FOL) representation of data instead of maintaining an address map. However, ownership semantics is not used in low level program verification. We have identified two challenges. First, ownership information is lost when a program is compiled to a low level intermediate representation (e.g., in LLVM IR). Second, pointers in low level programs point to bytes using an address map (e.g., in unsafe Rust) and thus the verification condition (VC) cannot always replace a pointer by its FOL abstraction. To remedy the situation, we develop ownership semantics for an LLVM like low level intermediate representation. Using these semantics, the VC can opportunistically model some memory accesses by a direct access of a pointer cache that stores byte representation of data. This scheme reduces instances where an address map must be maintained, especially for mostly safe programs that follow ownership semantics. For unsafe functionality, memory accesses are modelled by operations on an address map and we provide mechanisms to keep the address map and pointer cache in sync. We implement these semantics in SEABMC, a bit precise bounded model checker for LLVM. For evaluation, the source programs are assumed to be written in C. Since C does not have ownership built in, suitable macros are added that introduce and preserve ownership during translation to LLVM like IR for verification. This approach is evaluated on mature open source C code. For both handcrafted benchmarks and practical programs, we observe a speedup of $1.3x--5x$ during SMT solving.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 学習速度自由強化学習--非定常対象を用いたモデル選択の場合

Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives ( http://arxiv.org/abs/2408.04046v1 )

ライセンス: Link先を確認
Aida Afshar, Aldo Pacchiano, (参考訳) 強化学習(RL)アルゴリズムの性能は、ハイパーパラメータの選択に敏感であり、学習速度は特に影響を及ぼす。 RLアルゴリズムは、学習率が最適に設定されていない場合、収束に至らないか、広範囲のサンプルを要求する。 本研究では,モデル選択が学習速度の最適下選択に起因するRLの障害モードの改善に役立つことを示す。 本研究では,モデル選択法を用いて学習速度を最適に選択する学習速度自由強化学習のためのモデル選択フレームワークを提案する。 適応学習率チューニングのアプローチは、基礎となるRLアルゴリズムにもオプティマイザにも依存せず、学習率を選択するためにのみ報酬フィードバックを使用するため、フレームワークは任意のRLアルゴリズムを入力し、学習率のないバージョンを生成することができる。 政策最適化手法の実験を行い、フレームワーク内の様々なモデル選択戦略を評価する。 この結果から,ハイパーパラメータの最適選択が時間依存であり,非定常である場合,データ駆動モデル選択アルゴリズムが標準バンディットアルゴリズムの代替となることが示唆された。

The performance of reinforcement learning (RL) algorithms is sensitive to the choice of hyperparameters, with the learning rate being particularly influential. RL algorithms fail to reach convergence or demand an extensive number of samples when the learning rate is not optimally set. In this work, we show that model selection can help to improve the failure modes of RL that are due to suboptimal choices of learning rate. We present a model selection framework for Learning Rate-Free Reinforcement Learning that employs model selection methods to select the optimal learning rate on the fly. This approach of adaptive learning rate tuning neither depends on the underlying RL algorithm nor the optimizer and solely uses the reward feedback to select the learning rate; hence, the framework can input any RL algorithm and produce a learning rate-free version of it. We conduct experiments for policy optimization methods and evaluate various model selection strategies within our framework. Our results indicate that data-driven model selection algorithms are better alternatives to standard bandit algorithms when the optimal choice of hyperparameter is time-dependent and non-stationary.
翻訳日:2024-08-09 17:29:51 公開日:2024-08-07
# 量子ビリヤードにおける時間外相関器とカオス

Out-of-time-order Correlators and Chaos in Quantum Billiards ( http://arxiv.org/abs/2408.04052v1 )

ライセンス: Link先を確認
Tasnim Anzum Ador, Nayeem Farid, Tibra Ali, (参考訳) 我々は、カルディノイド、ダイヤモンド(スーパーマン)、シナイビリヤードの3つのビリヤードシステムについて検討する。 古典的なリアプノフ指数を計算し、半古典的状態の時間外相関器(OTOC)を用いて量子的なリアプノフ指数を導出する。 古典的および量子的リアプノフ指数は一致しており、ビリヤード系における量子カオスの診断におけるOTOCの役割を強化する。 非常に低温では、シナイビリヤードのOTOCは急激な成長を示し、他の2つのビリヤードにはない現象である。 シナイビリヤードの基底状態波動関数の幾何学において、この異常な振る舞いの源を同定し、他のビリヤードと比較してビリヤードの曲率に敏感である。 また、OTOCの深夜挙動と、スクランブル/エレンフェスト時間が量子ビリヤードの温度とどのように関係しているかについても述べる。

We examine three billiard systems -- the cardioid, diamond (Superman), and Sinai billiards -- all of which are known to be classically chaotic. We compute their classical Lyapunov exponents, and using out-of-time-order correlators (OTOCs) in the semi-classical regime, we also derive their quantum Lyapunov exponents. We observe that the classical and quantum Lyapunov exponents are in agreement, strengthening the role of OTOCs as a diagnostic for quantum chaos in billiard systems. At very low temperatures, the OTOC of the Sinai billiard shows sharp growth, a phenomenon absent in the other two billiards. We identify the source of this anomalous behaviour in the geometry of the ground state wave function of the Sinai billiard, which is more sensitive to the curvature of the billiard compared to the other billiards. We also remark on the late-time behaviour of the OTOCs and how the scrambling/Ehrenfest time is related to the temperature of quantum billiards.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 部分グラフ予測のための深部生成モデル

Deep Generative Models for Subgraph Prediction ( http://arxiv.org/abs/2408.04053v1 )

ライセンス: Link先を確認
Erfaneh Mahmoudzadeh, Parmis Naddaf, Kiarash Zahirnia, Oliver Schulte, (参考訳) グラフニューラルネットワーク(GNN)は、複雑なリレーショナルデータをモデル化する能力のため、ソーシャルネットワーク分析やレコメンデーションシステムなど、さまざまな領域において重要である。 本稿では,深層グラフ学習のための新しい課題として,サブグラフクエリを提案する。 リンク予測やノード分類のような個々のコンポーネントに焦点を当てた従来のグラフ予測タスクとは異なり、サブグラフクエリは観察されたサブグラフで表されるエビデンスに基づいて、ターゲットサブグラフのコンポーネントを共同で予測する。 例えば、サブグラフクエリは、ターゲットリンクと/またはノードラベルのセットを予測することができる。 サブグラフクエリに応答するために,確率論的深部グラフ生成モデルを用いる。 具体的には,リンク,ノード特徴,ラベル上の共同分布を表現するために,変分グラフオートエンコーダ(VGAE)モデルを誘導的に訓練する。 ベイズ最適化は、特定の領域におけるリンク、ノードの特徴、ラベルの相対的重要性の重み付けを調整するために用いられる。 本稿では,VGAE生成グラフ分布からサブグラフの確率をゼロショットで推定する決定論的およびサンプリングベース推論手法について述べる。 評価のために,6つのベンチマークデータセットに対して,一連のサブグラフクエリに推論手法を適用した。 モデルからの推測は、データセットによってAUCスコアが0.06から0.2ポイント改善され、独立した予測基準を越え、優れた予測性能が得られる。

Graph Neural Networks (GNNs) are important across different domains, such as social network analysis and recommendation systems, due to their ability to model complex relational data. This paper introduces subgraph queries as a new task for deep graph learning. Unlike traditional graph prediction tasks that focus on individual components like link prediction or node classification, subgraph queries jointly predict the components of a target subgraph based on evidence that is represented by an observed subgraph. For instance, a subgraph query can predict a set of target links and/or node labels. To answer subgraph queries, we utilize a probabilistic deep Graph Generative Model. Specifically, we inductively train a Variational Graph Auto-Encoder (VGAE) model, augmented to represent a joint distribution over links, node features and labels. Bayesian optimization is used to tune a weighting for the relative importance of links, node features and labels in a specific domain. We describe a deterministic and a sampling-based inference method for estimating subgraph probabilities from the VGAE generative graph distribution, without retraining, in zero-shot fashion. For evaluation, we apply the inference methods on a range of subgraph queries on six benchmark datasets. We find that inference from a model achieves superior predictive performance, surpassing independent prediction baselines with improvements in AUC scores ranging from 0.06 to 0.2 points, depending on the dataset.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# NAVINACT:ブートストラップ強化学習のためのナビゲーションと模倣学習の組み合わせ

NAVINACT: Combining Navigation and Imitation Learning for Bootstrapping Reinforcement Learning ( http://arxiv.org/abs/2408.04054v1 )

ライセンス: Link先を確認
Amisha Bhaskar, Zahiruddin Mahammad, Sachin R Jadhav, Pratap Tokekar, (参考訳) 強化学習(Reinforcement Learning, RL)は, シミュレーション環境において顕著な進歩を見せている。 これらの問題に対処するために,ロボットが古典的な動作計画に基づくナビゲーションをいつ使うべきか,方針を学習すべきかを選択するフレームワークであるNAVINACTを導入する。 探索の効率をさらに向上するため,我々は模擬データを用いて探索をブートストラップする。 NAVINACTは2つの操作モードを動的に切り替える: オブジェクトから離れるときの古典的なテクニックを使った経路ポイントへのナビゲートと、オブジェクトと対話しようとするときのきめ細かい操作制御のための強化学習である。 NAVINACTはモード分類のためのModeNet、ウェイポイント予測のためのNavNet、正確な操作のためのInteractNetで構成されている。 RLとImitation Learning(IL)の強みを組み合わせることで、NAVINACTはサンプル効率を改善し、分散シフトを緩和し、堅牢なタスク実行を保証する。 我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。 シミュレーションと実世界の両方の設定で、NAVINACTは堅牢なパフォーマンスを示している。 シミュレーションでは、NAVINACTは、評価フェーズにおいて、30kサンプルでのトレーニング成功率を10~15倍、30~40倍、ベースライン手法を10~40倍に超える。 現実のシナリオでは、ベースラインよりも単純なタスクで30~40倍の成功率を示し、複雑な2段階の操作タスクでユニークに成功します。 データセットと補足資料は、私たちのWebサイトにある。

Reinforcement Learning (RL) has shown remarkable progress in simulation environments, yet its application to real-world robotic tasks remains limited due to challenges in exploration and generalisation. To address these issues, we introduce NAVINACT, a framework that chooses when the robot should use classical motion planning-based navigation and when it should learn a policy. To further improve the efficiency in exploration, we use imitation data to bootstrap the exploration. NAVINACT dynamically switches between two modes of operation: navigating to a waypoint using classical techniques when away from the objects and reinforcement learning for fine-grained manipulation control when about to interact with objects. NAVINACT consists of a multi-head architecture composed of ModeNet for mode classification, NavNet for waypoint prediction, and InteractNet for precise manipulation. By combining the strengths of RL and Imitation Learning (IL), NAVINACT improves sample efficiency and mitigates distribution shift, ensuring robust task execution. We evaluate our approach across multiple challenging simulation environments and real-world tasks, demonstrating superior performance in terms of adaptability, efficiency, and generalization compared to existing methods. In both simulated and real-world settings, NAVINACT demonstrates robust performance. In simulations, NAVINACT surpasses baseline methods by 10-15\% in training success rates at 30k samples and by 30-40\% during evaluation phases. In real-world scenarios, it demonstrates a 30-40\% higher success rate on simpler tasks compared to baselines and uniquely succeeds in complex, two-stage manipulation tasks. Datasets and supplementary materials can be found on our website: {https://raaslab.org/projects/NAVINACT/}.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 機械学習による走査型プローブ顕微鏡の逆方向チューニング:全自動顕微鏡に向けて

Machine Learning-Based Reward-Driven Tuning of Scanning Probe Microscopy: Towards Fully Automated Microscopy ( http://arxiv.org/abs/2408.04055v1 )

ライセンス: Link先を確認
Yu Liu, Roger Proksch, Jason Bemis, Utkarsh Pratiush, Astita Dubey, Mahshid Ahmadi, Reece Emery, Philip D. Rack, Yu-Chen Liu, Jan-Chi Yang, Sergei V. Kalinin, (参考訳) 走査型プローブ顕微鏡(SPM)の登場以来、タッピングまたは断続的な接触モードは最も広く使われているイメージングモードの1つである。 タッピングモードのマニュアル最適化は、多くの楽器とオペレーター時間を必要とするだけでなく、しばしば調査やサンプルの損傷、画像の品質の低下、新しいタイプのサンプルや経験の浅いユーザに対する再現性の問題を引き起こす。 広く使われているにもかかわらず、タップモードイメージングの最適化は非常に難しい問題であり、古典的な制御方法や機械学習には適していない。 ここでは、タッピングモードにおけるSPMの最適化を自動化するための報酬駆動ワークフローを紹介する。 報酬関数は、良質なスキャンの物理的および経験的な知識を符号化した複数のチャネルに基づいて定義され、画像品質のサンプルに依存しない尺度を示し、人間のオペレーターが採用する意思決定ロジックを模倣する。 この自動ワークフローは、異なるプローブやサンプルに対して最適な走査パラメータを提供し、高品質のSPM画像を常に魅力的なモードで提供する。 本研究は、SPMの適用範囲とアクセシビリティを拡大し、完全に自動化されたSPMの扉を開く。

Since the dawn of scanning probe microscopy (SPM), tapping or intermittent contact mode has been one of the most widely used imaging modes. Manual optimization of tapping mode not only takes a lot of instrument and operator time, but also often leads to frequent probe and sample damage, poor image quality and reproducibility issues for new types of samples or inexperienced users. Despite wide use, optimization of tapping mode imaging is an extremely hard problem, ill-suited to either classical control methods or machine learning. Here we introduce a reward-driven workflow to automate the optimization of SPM in the tapping mode. The reward function is defined based on multiple channels with physical and empirical knowledge of good scans encoded, representing a sample-agnostic measure of image quality and imitating the decision-making logic employed by human operators. This automated workflow gives optimal scanning parameters for different probes and samples and gives high-quality SPM images consistently in the attractive mode. This study broadens the application and accessibility of SPM and opens the door for fully automated SPM.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# PowerPM:パワーシステムの基礎モデル

PowerPM: Foundation Model for Power Systems ( http://arxiv.org/abs/2408.04057v1 )

ライセンス: Link先を確認
Shihao Tu, Yupeng Zhang, Jing Zhang, Yang Yang, (参考訳) 豊富な電気時系列データ(ETS)の出現は、需要側管理、グリッド安定性、消費者行動分析など、電力システムにおける様々な応用に十分な機会を提供する。 深層学習モデルは、シーケンス依存を効果的に捉えて高度なETSモデリングを行う。 しかし、ETSデータの本質的に複雑な階層構造のため、様々なアプリケーションに対するETSデータの一般的な表現を学習することは依然として困難である。 さらに、ETSデータは複雑な時間的依存関係を示し、外因性変数の影響を受けやすい。 さらに、異なるインスタンスは多様な電力消費挙動を示す。 本稿では,ETSデータをモデル化する基盤モデルPowerPMを提案し,電力系統の大規模オフザシェルフモデルを提供する。 PowerPMは時間エンコーダと階層エンコーダで構成される。 時間エンコーダは、外因性変数を考慮して、ETSデータ内の両方の時間的依存関係をキャプチャする。 階層エンコーダは階層間の相関をモデル化する。 さらに、PowerPMは、マスク付きETSモデリングとデュアルビューコントラスト学習を組み合わせた、新しい自己教師型事前学習フレームワークを活用して、ETSウィンドウ内の時間依存性を捕捉し、ETSウィンドウ間の不一致を認識し、汎用表現を学ぶための2つの異なる視点を提供する。 実験では、プライベートデータとパブリックデータからなる5つの実世界のシナリオデータセットについて検討した。 大規模なETSデータの事前トレーニングを通じて、PowerPMはプライベートデータセット内のさまざまな下流タスクでSOTAパフォーマンスを達成する。 印象的なことに、パブリックデータセットに転送されると、PowerPMはその優位性を維持し、さまざまなタスクやドメインにわたる顕著な一般化能力を示している。 さらに, アブレーション実験, 少数ショット実験により, モデルの有効性が示唆された。

The emergence of abundant electricity time series (ETS) data provides ample opportunities for various applications in the power systems, including demand-side management, grid stability, and consumer behavior analysis. Deep learning models have advanced ETS modeling by effectively capturing sequence dependence. Nevertheless, learning a generic representation of ETS data for various applications remains challenging due to the inherently complex hierarchical structure of ETS data. Moreover, ETS data exhibits intricate temporal dependencies and is suscepti ble to the influence of exogenous variables. Furthermore, different instances exhibit diverse electricity consumption behavior. In this paper, we propose a foundation model PowerPM to model ETS data, providing a large-scale, off-the-shelf model for power systems. PowerPM consists of a temporal encoder and a hierarchical encoder. The temporal encoder captures both temporal dependencies in ETS data, considering exogenous variables. The hierarchical encoder models the correlation between hierarchy. Furthermore, PowerPM leverages a novel self-supervised pretraining framework consisting of masked ETS modeling and dual-view contrastive learning, which enable PowerPM to capture temporal dependency within ETS windows and aware the discrepancy across ETS windows, providing two different perspectives to learn generic representation. Our experiments involve five real world scenario datasets, comprising private and public data. Through pre-training on massive ETS data, PowerPM achieves SOTA performance on diverse downstream tasks within the private dataset. Impressively, when transferred to the public datasets, PowerPM maintains its superiority, showcasing its remarkable generalization ability across various tasks and domains. Moreover, ablation studies, few-shot experiments provide additional evidence of the effectiveness of our model.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 重み付きステイナツリーを用いた線形回路合成

Linear Circuit Synthesis using Weighted Steiner Trees ( http://arxiv.org/abs/2408.04060v1 )

ライセンス: Link先を確認
Nir Gavrielov, Alexander Ivrii, Shelly Garion, (参考訳) CNOT回路は一般的な量子回路の共通構成ブロックである。 このような回路の合成と最適化の問題は、量子コンピューティングの文献で注目されている。 この問題は、隣接する量子ビット間にのみ2量子ビットゲートを配置できるような、接続が制限された量子デバイスにとって特に困難である。 CNOTゲートの数を最適化する最先端のアルゴリズムはガウス除去に基づくヒューリスティックアルゴリズムであり、異なるキュービットのサブセット間の接続にSteiner木を用いる。 本稿では,重み付きSteiner木について検討し,重みを計算するための簡易な低コストヒューリスティックを提案する。 シミュレーションにより,提案したヒューリスティックがほぼ常に有用であることが示され,CNOTゲートの数が最大10%削減された。

CNOT circuits are a common building block of general quantum circuits. The problem of synthesizing and optimizing such circuits has received a lot of attention in the quantum computing literature. This problem is especially challenging for quantum devices with restricted connectivity, where two-qubit gates can only be placed between adjacent qubits. The state-of-the-art algorithms for optimizing the number of CNOT gates are heuristic algorithms that are based on Gaussian elimination and that use Steiner trees to connect between different subsets of qubits. In this article, we suggest considering weighted Steiner trees, and we present a simple low-cost heuristic to compute weights. The simulated evaluation shows that the suggested heuristic is almost always beneficial and reduces the number of CNOT gates by up to 10%.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# シャープネスに基づく最適化は医用画像解析の一般化を改善するか?

Do Sharpness-based Optimizers Improve Generalization in Medical Image Analysis? ( http://arxiv.org/abs/2408.04065v1 )

ライセンス: Link先を確認
Mohamed Hassan, Aleksander Vakanski, Min Xian, (参考訳) 医療におけるディープラーニングモデルの効果的な臨床展開は、正確な診断と治療計画を確保するために、高い一般化性能を必要とする。 近年,ロスランドスケープのシャープネスを規則化し,ディープラーニングモデルの一般化に重点を置いている。 シャープネス・アウェアの最小化(SAM)は、シャープネスを明示的に最小化する最適化手法の中で、一般領域画像データセットの一般化性能を高める可能性を示している。 この成功により、Adaptive SAM、Surrogate-Gap SAM、Weighted SAM、Curvature Regularized SAMといったSAMの限界に対処する先進的なシャープネスベースのアルゴリズムが開発された。 これらのシャープネスに基づくオプティマイザは、従来の確率勾配降下オプティマイザや一般領域画像データセットの変種と比較して、モデル一般化の改善を示すが、医療画像では十分に評価されていない。 本研究は, 深層学習ネットワークの一般化に関する最近のシャープネスに基づく手法を概観し, 医療用胸部超音波画像上での性能評価を行う。 提案手法は,様々な深層学習モデルの一般化に有効であることが示唆された。 Adaptive SAMは畳み込みニューラルネットワークの一般化を改善するが、ビジョントランスフォーマーでは実現できない。 しかし、他のシャープネスベースのオプティマイザは一貫性のある結果を示さない。 結果は,非医療領域における発見とは対照的に,SAMは医用画像解析における一般化を一貫して改善する唯一の推奨シャープネスベース最適化器であり,SAMの変種を改良して,この分野における一般化性能を高めるためには,さらなる研究が必要であることを明らかにした。

Effective clinical deployment of deep learning models in healthcare demands high generalization performance to ensure accurate diagnosis and treatment planning. In recent years, significant research has focused on improving the generalization of deep learning models by regularizing the sharpness of the loss landscape. Among the optimization approaches that explicitly minimize sharpness, Sharpness-Aware Minimization (SAM) has shown potential in enhancing generalization performance on general domain image datasets. This success has led to the development of several advanced sharpness-based algorithms aimed at addressing the limitations of SAM, such as Adaptive SAM, surrogate-Gap SAM, Weighted SAM, and Curvature Regularized SAM. These sharpness-based optimizers have shown improvements in model generalization compared to conventional stochastic gradient descent optimizers and their variants on general domain image datasets, but they have not been thoroughly evaluated on medical images. This work provides a review of recent sharpness-based methods for improving the generalization of deep learning networks and evaluates the methods performance on medical breast ultrasound images. Our findings indicate that the initial SAM method successfully enhances the generalization of various deep learning models. While Adaptive SAM improves generalization of convolutional neural networks, it fails to do so for vision transformers. Other sharpness-based optimizers, however, do not demonstrate consistent results. The results reveal that, contrary to findings in the non-medical domain, SAM is the only recommended sharpness-based optimizer that consistently improves generalization in medical image analysis, and further research is necessary to refine the variants of SAM to enhance generalization performance in this field
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# デジタルアバター:フレームワークの開発と評価

Digital Avatars: Framework Development and Their Evaluation ( http://arxiv.org/abs/2408.04068v1 )

ライセンス: Link先を確認
Timothy Rupprecht, Sung-En Chang, Yushu Wu, Lei Lu, Enfu Nan, Chih-hsiang Li, Caiyue Lai, Zhimin Li, Zhijun Hu, Yumei He, David Kaeli, Yanzhi Wang, (参考訳) 本稿では,人工知能駆動型デジタルアバターの新しいプロンプト戦略を提案する。 私たちのプロンプト戦略がユーモアや真正性,好ましさといった人為的特徴にどのように影響するかを,より正確に定量化するために,Crowd Vote – 審査員が同じあるいは同様のプロンプトに答える競合相手に対して,大きな言語モデル(LLM)候補を選択することのできるCrowd Scoreの適応 – を紹介します。 LLMの応答を可視化するために,我々は,高忠実度人工知能(AI)駆動のデジタルアバターを作成するためのエンドツーエンドのフレームワークを提案する。 このパイプラインは、個人の本質を効果的に捉え、ストリーミングアルゴリズムは、サーバからモバイルデバイスへのリアルタイムオーディオビデオストリーミングを備えた高品質なデジタルアバターを提供する。 私たちの視覚化ツールと、私たちのCrowd Voteメトリクスは、私たちのAI駆動のデジタルアバターが、最先端のユーモア、認証、そしてすべてのライバルやベースラインよりも好ましいことを実証しています。 われわれのドナルド・トランプとジョー・バイデンのアバターの場合、その本物さと好意性は実世界の同等品よりも高く評価されている。

We present a novel prompting strategy for artificial intelligence driven digital avatars. To better quantify how our prompting strategy affects anthropomorphic features like humor, authenticity, and favorability we present Crowd Vote - an adaptation of Crowd Score that allows for judges to elect a large language model (LLM) candidate over competitors answering the same or similar prompts. To visualize the responses of our LLM, and the effectiveness of our prompting strategy we propose an end-to-end framework for creating high-fidelity artificial intelligence (AI) driven digital avatars. This pipeline effectively captures an individual's essence for interaction and our streaming algorithm delivers a high-quality digital avatar with real-time audio-video streaming from server to mobile device. Both our visualization tool, and our Crowd Vote metrics demonstrate our AI driven digital avatars have state-of-the-art humor, authenticity, and favorability outperforming all competitors and baselines. In the case of our Donald Trump and Joe Biden avatars, their authenticity and favorability are rated higher than even their real-world equivalents.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# AEye:画像データセットの可視化ツール

AEye: A Visualization Tool for Image Datasets ( http://arxiv.org/abs/2408.04072v1 )

ライセンス: Link先を確認
Florian Grötschla, Luca A. Lanzendörfer, Marco Calzavara, Roger Wattenhofer, (参考訳) イメージデータセットは、コンピュータビジョンにおける機械学習モデルの基盤として機能し、アーキテクチャ上の考慮とともに、モデル能力、パフォーマンス、バイアスに大きな影響を与える。 したがって、これらのデータセットの構成と分布を理解することがますます重要になっている。 これらのデータセットの直感的な探索の必要性に対処するため、画像データセットに適した拡張可能でスケーラブルな可視化ツールであるAEyeを提案する。 AEyeは、対照的に訓練されたモデルを使用して、イメージを意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。 高次元の表現を可視化するため、2次元平面上に投影し、画像を層状に配置し、ユーザーがシームレスにナビゲートし、対話的に探索できるようにする。 AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。 AEyeのコードベースをオープンソースとして公開し、データセットを追加するための簡単な設定を提供しています。

Image datasets serve as the foundation for machine learning models in computer vision, significantly influencing model capabilities, performance, and biases alongside architectural considerations. Therefore, understanding the composition and distribution of these datasets has become increasingly crucial. To address the need for intuitive exploration of these datasets, we propose AEye, an extensible and scalable visualization tool tailored to image datasets. AEye utilizes a contrastively trained model to embed images into semantically meaningful high-dimensional representations, facilitating data clustering and organization. To visualize the high-dimensional representations, we project them onto a two-dimensional plane and arrange images in layers so users can seamlessly navigate and explore them interactively. AEye facilitates semantic search functionalities for both text and image queries, enabling users to search for content. We open-source the codebase for AEye, and provide a simple configuration to add datasets.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# バグ記述からのBuggy Mobile UIの自動ローカライズに向けて

Toward the Automated Localization of Buggy Mobile App UIs from Bug Descriptions ( http://arxiv.org/abs/2408.04075v1 )

ライセンス: Link先を確認
Antu Saha, Yang Song, Junayed Mahmud, Ying Zhou, Kevin Moran, Oscar Chaparro, (参考訳) バグレポート管理は、いくつかの困難なタスクで構成された、コストのかかるソフトウェアメンテナンスプロセスである。 モバイルアプリのUI駆動性を考えると、バグは一般的にUIを通じて現れるので、バグの多いUI画面とUIコンポーネント(バギーUIのローカライゼーション)の識別は、バグの多い振る舞いをローカライズし、最終的に修正する上で重要である。 しかし、開発者がバグ記述(しばしば低品質)とUI画面の視覚的あるいはコードベースの表現について考える必要があるため、このタスクは難しい。 本稿では,1つのテキストと2つのマルチモーダル深層学習(DL)技術と1つのテキスト非教師技術の有効性を評価する総合的な研究を通じて,Buggy UIローカライゼーションタスクの自動化の実現可能性について検討した。 Buggy UI Screen と UI Component Localization の2つのレベルの粒度でこれらの技術を評価する。 視覚情報を組み込んだモデルはUI画面のローカライゼーションに優れ、テキスト画面情報を操作するモデルはUIコンポーネントのローカライゼーションに優れます -- 両方のテクニックの利点をブレンドしたローカライゼーションアプローチの必要性を強調します。 さらに、Buggy UIのローカライゼーションが従来のバグギーコードのローカライゼーションを改善することができるかどうかを調査し、ローカライズされたバグギーUIを組み込むことで、hits@10.1では9%-12%の改善が達成されることを確認した。

Bug report management is a costly software maintenance process comprised of several challenging tasks. Given the UI-driven nature of mobile apps, bugs typically manifest through the UI, hence the identification of buggy UI screens and UI components (Buggy UI Localization) is important to localizing the buggy behavior and eventually fixing it. However, this task is challenging as developers must reason about bug descriptions (which are often low-quality), and the visual or code-based representations of UI screens. This paper is the first to investigate the feasibility of automating the task of Buggy UI Localization through a comprehensive study that evaluates the capabilities of one textual and two multi-modal deep learning (DL) techniques and one textual unsupervised technique. We evaluate such techniques at two levels of granularity, Buggy UI Screen and UI Component localization. Our results illustrate the individual strengths of models that make use of different representations, wherein models that incorporate visual information perform better for UI screen localization, and models that operate on textual screen information perform better for UI component localization -- highlighting the need for a localization approach that blends the benefits of both types of techniques. Furthermore, we study whether Buggy UI Localization can improve traditional buggy code localization, and find that incorporating localized buggy UIs leads to improvements of 9%-12% in Hits@10.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 視覚的複雑性の定量的尺度としてのマルチスケール構造複雑性

Multi-scale structural complexity as a quantitative measure of visual complexity ( http://arxiv.org/abs/2408.04076v1 )

ライセンス: Link先を確認
Anna Kravchenko, Andrey A. Bagrov, Mikhail I. Katsnelson, Veronica Dudarev, (参考訳) 人間には直感的であるが、視覚的複雑性の概念は定義や定量化が難しい。 マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。 そこで本研究では,ヒトのSAVOIASから得られた主観的複雑性スコアを持つ画像のオープンデータセットを用いて,MSSCを視覚刺激の場合に適用する。 我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。 複雑度に対する人間の知覚に固有の目的的および主観的要素と、両者が分岐しやすい領域について論じる。 我々は,MSSCのマルチスケールな性質が,人間によって知覚される複雑さのさらなる研究を可能にしていることを示す。

While intuitive for humans, the concept of visual complexity is hard to define and quantify formally. We suggest adopting the multi-scale structural complexity (MSSC) measure, an approach that defines structural complexity of an object as the amount of dissimilarities between distinct scales in its hierarchical organization. In this work, we apply MSSC to the case of visual stimuli, using an open dataset of images with subjective complexity scores obtained from human participants (SAVOIAS). We demonstrate that MSSC correlates with subjective complexity on par with other computational complexity measures, while being more intuitive by definition, consistent across categories of images, and easier to compute. We discuss objective and subjective elements inherently present in human perception of complexity and the domains where the two are more likely to diverge. We show how the multi-scale nature of MSSC allows further investigation of complexity as it is perceived by humans.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# PushPull-Net: インスティクション駆動のResNetは画像の破損に対して堅牢

PushPull-Net: Inhibition-driven ResNet robust to image corruptions ( http://arxiv.org/abs/2408.04077v1 )

ライセンス: Link先を確認
Guru Swaroop Bennabhaktula, Enrique Alegre, Nicola Strisciuglio, George Azzopardi, (参考訳) 本稿では,ResNetアーキテクチャの第1層にPushPull-Convと呼ばれる新しい計算ユニットを導入する。 このユニットは、トレーニング可能なプッシュカーネルとそれに対応するプルカーネルという2つの補完的なフィルタを実装することで、従来の畳み込み層を再定義する。 プッシュカーネル(従来の畳み込みと類似)は特定の刺激に反応することを学び、プルカーネルは同じ刺激に反応するが、反対のコントラストに反応する。 この構成は刺激選択性を高め、好ましくない領域での応答を効果的に抑制する。 この効果はプッシュとプルのカーネルによるもので、これらの領域で同等の大きさの応答を生成し、それによって互いに中和する。 PushPull-ConvをResNetsに組み込むことで、イメージの破損に対するロバスト性が大幅に向上した。 我々は,PushPull-Convを他のデータ拡張手法と組み合わせることで,モデルロバスト性をさらに向上できることを示す。 我々は、PRIME拡張とPushPull阻害を組み合わせる際に、ImageNet-Cで$mCE$ 49.95$\%$を達成したResNet50に新しい堅牢性ベンチマークを設定した。

We introduce a novel computational unit, termed PushPull-Conv, in the first layer of a ResNet architecture, inspired by the anti-phase inhibition phenomenon observed in the primary visual cortex. This unit redefines the traditional convolutional layer by implementing a pair of complementary filters: a trainable push kernel and its counterpart, the pull kernel. The push kernel (analogous to traditional convolution) learns to respond to specific stimuli, while the pull kernel reacts to the same stimuli but of opposite contrast. This configuration enhances stimulus selectivity and effectively inhibits response in regions lacking preferred stimuli. This effect is attributed to the push and pull kernels, which produce responses of comparable magnitude in such regions, thereby neutralizing each other. The incorporation of the PushPull-Conv into ResNets significantly increases their robustness to image corruption. Our experiments with benchmark corruption datasets show that the PushPull-Conv can be combined with other data augmentation techniques to further improve model robustness. We set a new robustness benchmark on ResNet50 achieving an $mCE$ of 49.95$\%$ on ImageNet-C when combining PRIME augmentation with PushPull inhibition.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# トランジショントリップ時の極低温における累積露光評価フレームワーク

A Framework for Assessing Cumulative Exposure to Extreme Temperatures During Transit Trip ( http://arxiv.org/abs/2408.04081v1 )

ライセンス: Link先を確認
Huiying Fan, Hongyu Lu, Geyu Lyu, Angshuman Guin, Randall Guensler, (参考訳) 都市熱島、気候変動、極端な気温の出来事の複合的な影響は、旅行者、特に高齢者、障害者、慢性疾患などの脆弱な人口に影響を与えている。 従来の研究では、マイクロレベルかマクロレベルのいずれかでこの問題に対処しようと試みてきたが、それぞれのアプローチは、トリップトリップへの影響をモデル化する上で異なる制限を課している。 他の研究では、これらのギャップのいくつかに対処するメソレベルのアプローチを提案するが、加法的露光計算と空間的最短経路ルーティングを用いることで、メソモデリングの精度が向上する。 本研究では、トランジットシム4.0を用いて、旅行者活動プロファイル、旅行中の熱的快適度を計測し、旅行客の極端温度への露出を評価するためのフレームワークであるHeatPath Analyzerを紹介した。 このアプローチでは、NWSとCDCが提案した基準と、高齢者や障害者に合った特定のパラメータを用いて、交通機関の乗客の累積曝露を推定する。 この枠組みは、極端な暑さと冬の寒さの影響を評価する。 アトランタのケーススタディによると、2019年の平日の平均的な夏は10.2%が極端な暑さのリスクにさらされている。 その結果、旅行モードの異なるセグメント、緩和ベースの戦略と適応ベースの戦略にまたがる露出格差が明らかになった。 緩和ベースの戦略では、長押しや長押しなどの高露光セグメントが強調されるが、旅行者が移動待ちやルート間の移動待ちの場合には、旅行の途中または後半に適応を優先すべきである。 従来の加法アプローチと動的アプローチの比較も、見過ごされた場合、政策決定を誤解させる可能性がある、大きな相違を示している。

The combined influence of urban heat islands, climate change, and extreme temperature events are increasingly impacting transit travelers, especially vulnerable populations such as older adults, people with disabilities, and those with chronic diseases. Previous studies have generally attempted to address this issue at either the micro- or macro-level, but each approach presents different limitations in modeling the impacts on transit trips. Other research proposes a meso-level approach to address some of these gaps, but the use of additive exposure calculation and spatial shortest path routing poses constraints meso-modeling accuracy. This study introduces HeatPath Analyzer, a framework to assess the exposure of transit riders to extreme temperatures, using TransitSim 4.0 to generate second-by-second spatio-temporal trip trajectories, the traveler activity profiles, and thermal comfort levels along the entire journey. The approach uses heat stress combines the standards proposed by the NWS and CDC to estimate cumulative exposure for transit riders, with specific parameters tailored to the elderly and people with disabilities. The framework assesses the influence of extreme heat and winter chill. A case study in Atlanta, GA, reveals that 10.2% of trips on an average summer weekday in 2019 were at risk of extreme heat. The results uncover exposure disparities across different transit trip mode segments, and across mitigation-based and adaptation-based strategies. While the mitigation-based strategy highlights high-exposure segments such as long ingress and egress, adaptation should be prioritized toward the middle or second half of the trip when a traveler is waiting for transit or transferring between routes. A comparison between the traditional additive approach and the dynamic approach presented also shows significant disparities, which, if overlooked, can mislead policy decisions.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 逆伝搬レーザーパルスにおけるシュウィンガー対生成:体積因子の同定

Schwinger pair production in counterpropagating laser pulses: Identifying volume factors ( http://arxiv.org/abs/2408.04084v1 )

ライセンス: Link先を確認
A. G. Tkachev, I. A. Aleksandrov, V. M. Shabaev, (参考訳) 本研究では, 真空対生成の非摂動過程について, 2つの逆伝搬線形偏光レーザーパルスを有限空間範囲で組み合わせて検討する。 局所定数場近似 (LCFA) を用いて, 対応する4次元設定の総粒子収率を計算し, 簡易な低次元シナリオで得られた推定値と比較する。 LCFAを適切に正当化する領域内では、2つの平面波パルス、定常電磁波、空間的に均一な振動場の組み合わせを検証し、これらの3段階の近似のそれぞれにおいて、フィールドパラメータに応じて適切に選択された体積因子を乗算して実粒子数を正確に予測できることを実証する。 粒子収率を評価するために, 普遍的な処方料を提供する因子について, クローズドフォーム表現を提案する。 空間的に均一な設定と4次元シナリオを結びつける最後の公式は,5\%の相対的不確実性を持つ。 この研究で導出された明示的な対応は、近似予測の関連性を証明するだけでなく、複雑な数値計算を行うことなく、様々な現実的なシナリオに対するペアの数を素早く見積もることができる。

We investigate the nonperturbative process of vacuum pair production in a combination of two counterpropagating linearly polarized laser pulses of a finite spatial extent. By means of the locally-constant field approximation (LCFA), we calculate the total particle yield for the corresponding four-dimensional setup and compare it with the estimates obtained for simplified low-dimensional scenarios. Within the domain where the LCFA is well justified, we examine a combination of two plane-wave pulses, a standing electromagnetic wave, and a spatially uniform oscillating field and demonstrate that at each of these three levels of approximation, one can accurately predict the actual particle number by multiplying the results by properly chosen volume factors depending on the field parameters. We present closed-form expressions for these factors providing universal prescriptions for evaluating the particle yield. Our final formula connecting the spatially uniform setup with the four-dimensional scenario has a relative uncertainty of the level of $5\%$. The explicit correspondences deduced in this study not only prove the relevance of the approximate predictions, but also allow one to quickly estimate the number of pairs for various realistic scenarios without performing complicated numerical calculations.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# 網膜疾患早期診断の探求:3D CycleGANを用いた光コヒーレンストモグラフィーの共焦点顕微鏡への変換

The Quest for Early Detection of Retinal Disease: 3D CycleGAN-based Translation of Optical Coherence Tomography into Confocal Microscopy ( http://arxiv.org/abs/2408.04091v1 )

ライセンス: Link先を確認
Xin Tian, Nantheera Anantrasirichai, Lindsay Nicholson, Alin Achim, (参考訳) 光コヒーレンス断層撮影(OCT)と共焦点顕微鏡は網膜イメージングにおいて重要な役割を担っている。 生体内OCTは、迅速で非侵襲的な画像を提供するが、明快な問題や運動アーティファクトに悩まされる可能性がある。 両モダリティの利点を橋渡しするために, 未経験のOCTを生体共焦点顕微鏡画像に変換するために, 教師なしの3D CycleGANに基づく新しいフレームワークを提案する。 これは、OCTの固有の3D情報を利用して、共焦点顕微鏡のリッチで詳細な色領域に変換する最初の試みである。 また、マウスOCTと共焦点網膜画像からなる独自のデータセットOCT2Confocalを導入し、クロスモーダル画像翻訳研究のためのベンチマークの開発と確立を容易にする。 また,Fr'echet Inception Distance(FID)スコアが0.766,Kernel Inception Distance(KID)スコアが0.153,主観的平均オピニオンスコア(MOS)スコアが1。 本モデルでは,既存の手法よりも少ないデータで画像の忠実度と品質を実証した。 提案手法は, 3次元共焦点画像から色情報を効果的に合成し, 目標値の密接な近似を行い, 眼科領域における診断・モニタリングの可能性が示唆された。

Optical coherence tomography (OCT) and confocal microscopy are pivotal in retinal imaging, offering distinct advantages and limitations. In vivo OCT offers rapid, non-invasive imaging but can suffer from clarity issues and motion artifacts, while ex vivo confocal microscopy, providing high-resolution, cellular-detailed color images, is invasive and raises ethical concerns. To bridge the benefits of both modalities, we propose a novel framework based on unsupervised 3D CycleGAN for translating unpaired in vivo OCT to ex vivo confocal microscopy images. This marks the first attempt to exploit the inherent 3D information of OCT and translate it into the rich, detailed color domain of confocal microscopy. We also introduce a unique dataset, OCT2Confocal, comprising mouse OCT and confocal retinal images, facilitating the development of and establishing a benchmark for cross-modal image translation research. Our model has been evaluated both quantitatively and qualitatively, achieving Fr\'echet Inception Distance (FID) scores of 0.766 and Kernel Inception Distance (KID) scores as low as 0.153, and leading subjective Mean Opinion Scores (MOS). Our model demonstrated superior image fidelity and quality with limited data over existing methods. Our approach effectively synthesizes color information from 3D confocal images, closely approximating target outcomes and suggesting enhanced potential for diagnostic and monitoring applications in ophthalmology.
翻訳日:2024-08-09 17:20:07 公開日:2024-08-07
# トリーアテンション:GPUクラスタ上での長期アテンションのためのトポロジ対応デコーディング

Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters ( http://arxiv.org/abs/2408.04093v1 )

ライセンス: Link先を確認
Vasudev Shyam, Jonathan Pilault, Emily Shepperd, Quentin Anthony, Beren Millidge, (参考訳) 自己注意(Self-attention)は、現代のトランスフォーマーアーキテクチャの中核的な数学的操作であり、シーケンス長の2次複雑さのため、重要な計算ボトルネックでもある。 本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出し、したがって自己アテンションの理論的基盤を解明し、その操作のベイズ的解釈を提供し、ホップフィールドネットワークのようなエネルギーベースモデルと密接に関連付ける。 さらに、この定式化により、効率よく最適化された自動微分技術を用いて、高効率なツリーアテンションアルゴリズムを用いてエネルギーの勾配を計算し、したがって自己アテンションを計算できることが判明した。 我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。 本アルゴリズムでは,複数のGPU間でのアテンション計算を並列化することにより,Ring Attentionなどの代替手法よりもデバイス間デコーディングを漸近的に(最大8倍)高速化すると同時に,通信量を大幅に削減し,ピークメモリを2倍削減する。 私たちのコードはここで公開されている。 \url{https://github.com/Zyphra/tree_attention}

Self-attention is the core mathematical operation of modern transformer architectures and is also a significant computational bottleneck due to its quadratic complexity in the sequence length. In this work, we derive the scalar energy function whose gradient computes the self-attention block, thus elucidating the theoretical underpinnings of self-attention, providing a Bayesian interpretation of the operation and linking it closely with energy-based models such as Hopfield Networks. Moreover, due to this formulation, we discover that we can use efficient and optimized automatic-differentiation techniques to derive a highly efficient Tree Attention algorithm to compute the gradient of the energy and hence self-attention. Our formulation reveals that the reduction across the sequence axis can be efficiently computed in parallel through a tree reduction. Our algorithm, for parallelizing attention computation across multiple GPUs, enables cross-device decoding to be performed asymptotically faster (up to 8x faster) than alternative approaches such as Ring Attention, while also requiring significantly less communication volume and incurring 2x less peak memory. Our code is publicly available here: \url{https://github.com/Zyphra/tree_attention}
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# ArtVLM:ビジョンベースプレフィックス言語モデリングによる属性認識

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling ( http://arxiv.org/abs/2408.04102v1 )

ライセンス: Link先を確認
William Y. Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang, (参考訳) オブジェクトから視覚的属性を認識したり遠ざけたりすることは、多くのコンピュータビジョンアプリケーションの基礎となっている。 CLIPのような大きな視覚言語表現は、ゼロショットのオブジェクト認識というタスクをほとんど解決していなかったが、対照的に学習した視覚言語表現は、オブジェクト属性の依存関係を効果的にキャプチャできないため、ゼロショットの視覚属性認識は依然として課題である。 本稿では,この弱点を対象とし,新しい属性認識のための文生成に基づく検索定式化を提案する。 1) 対象-属性関係を条件付き確率グラフとして明示的にモデル化し、認識問題を依存性に敏感な言語-モデリング問題に変換する。 2) 画像・物体・属性関係の知識を自然に抽出し, 属性認識に利用することを目的として, 大規模な事前学習型視覚・言語モデル(VLM)を適用した。 具体的には、画像上で認識される各属性に対して、画像上のオブジェクトに対する属性の関係をコードする短い文を生成する視覚条件付き確率を測定する。 文の要素を画像にグローバルにアライメントすることで、コントラッシブ検索と異なり、生成検索は文中のオブジェクトや属性の順序や依存性に敏感である。 我々は、生成的検索が2つの視覚的推論データセット、VAW(Visual Attribute in the Wild)と、新たに提案したVisual Genome Attribute Ranking(VGARank)において、コントラスト的検索を一貫して上回ることを示した。

Recognizing and disentangling visual attributes from objects is a foundation to many computer vision applications. While large vision language representations like CLIP had largely resolved the task of zero-shot object recognition, zero-shot visual attribute recognition remains a challenge because CLIP's contrastively-learned vision-language representation cannot effectively capture object-attribute dependencies. In this paper, we target this weakness and propose a sentence generation-based retrieval formulation for attribute recognition that is novel in 1) explicitly modeling a to-be-measured and retrieved object-attribute relation as a conditional probability graph, which converts the recognition problem into a dependency-sensitive language-modeling problem, and 2) applying a large pretrained Vision-Language Model (VLM) on this reformulation and naturally distilling its knowledge of image-object-attribute relations to use towards attribute recognition. Specifically, for each attribute to be recognized on an image, we measure the visual-conditioned probability of generating a short sentence encoding the attribute's relation to objects on the image. Unlike contrastive retrieval, which measures likelihood by globally aligning elements of the sentence to the image, generative retrieval is sensitive to the order and dependency of objects and attributes in the sentence. We demonstrate through experiments that generative retrieval consistently outperforms contrastive retrieval on two visual reasoning datasets, Visual Attribute in the Wild (VAW), and our newly-proposed Visual Genome Attribute Ranking (VGARank).
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# 政治画像の視覚知覚の復号化

Decoding Visual Sentiment of Political Imagery ( http://arxiv.org/abs/2408.04103v1 )

ライセンス: Link先を確認
Olga Gasparyan, Elena Sirotkina, (参考訳) 視聴者の視点に体系的に異を唱える場合、どのように視覚的感情を定義するか。 本研究では,視覚的感情分類に時間差を組み込むことにより,視覚的感情分析に新たなアプローチを導入する。 感情ラベル付けに大きく影響を及ぼすパルチザンの違いなど,社会的な分断が認識され,これらの分断を反映したデータセットを開発した。 そして、異なるイデオロギーの観点から視覚的感情を予測するために、深層学習型マルチタスク・マルチクラスモデルを訓練した。 移民関連の画像に応用して、われわれのアプローチは民主党と共和党の両方の視点を捉えている。 ラベル付けとモデルトレーニングプロセスに多様な視点を取り入れることで、ラベルの曖昧さの限界に対処し、視覚的感情予測における精度の向上を実証する。 全体として、人間の感情をより正確に反映した分類器の作成に向けて、視覚的感情をデコードするパラダイムシフトを提唱する。

How can we define visual sentiment when viewers systematically disagree on their perspectives? This study introduces a novel approach to visual sentiment analysis by integrating attitudinal differences into visual sentiment classification. Recognizing that societal divides, such as partisan differences, heavily influence sentiment labeling, we developed a dataset that reflects these divides. We then trained a deep learning multi-task multi-class model to predict visual sentiment from different ideological viewpoints. Applied to immigration-related images, our approach captures perspectives from both Democrats and Republicans. By incorporating diverse perspectives into the labeling and model training process, our strategy addresses the limitation of label ambiguity and demonstrates improved accuracy in visual sentiment predictions. Overall, our study advocates for a paradigm shift in decoding visual sentiment toward creating classifiers that more accurately reflect the sentiments generated by humans.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# クラウドプラットフォーム向けニューラルネットワークユニットのハードウェア支援仮想化

Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms ( http://arxiv.org/abs/2408.04104v1 )

ライセンス: Link先を確認
Yuqi Xue, Yiqi Liu, Lifeng Nai, Jian Huang, (参考訳) 今日、クラウドプラットフォームは、機械学習(ML)推論サービスを支えるニューラルネットワークユニット(NPU)のようなハードウェアアクセラレータをデプロイしている。 サービスの適切な品質を確保しつつ、リソース利用を最大化するために、マルチテナントMLサービスの効率的なリソース共有のためにNPUを仮想化するのが自然なアプローチである。 しかし、現代のクラウドプラットフォーム向けのNPUの仮想化は容易ではない。 これは、NPUハードウェアのシステム抽象化サポートの欠如に加えて、仮想化NPUのきめ細かい動的演算子スケジューリングを可能にするアーキテクチャとISAサポートの欠如によるものである。 我々は、総合的なNPU仮想化フレームワークであるTCloudを紹介する。 ソフトウェアおよびハードウェアスタック全体にわたるNPUの仮想化技術について検討する。 TCloudは、(1)物理NPU(pNPU)における異種計算ユニットの微細仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのテンソル演算子スケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。 実運用レベルのNPUシミュレータに基づいてTCloudを実装した。 我々の実験によると、TCloudはML推論サービスのスループットを1.4$\times$に改善し、テールレイテンシを4.6$\times$に削減し、NPUの利用率を1.2$\times$に改善している。

Cloud platforms today have been deploying hardware accelerators like neural processing units (NPUs) for powering machine learning (ML) inference services. To maximize the resource utilization while ensuring reasonable quality of service, a natural approach is to virtualize NPUs for efficient resource sharing for multi-tenant ML services. However, virtualizing NPUs for modern cloud platforms is not easy. This is not only due to the lack of system abstraction support for NPU hardware, but also due to the lack of architectural and ISA support for enabling fine-grained dynamic operator scheduling for virtualized NPUs. We present TCloud, a holistic NPU virtualization framework. We investigate virtualization techniques for NPUs across the entire software and hardware stack. TCloud consists of (1) a flexible NPU abstraction called vNPU, which enables fine-grained virtualization of the heterogeneous compute units in a physical NPU (pNPU); (2) a vNPU resource allocator that enables pay-as-you-go computing model and flexible vNPU-to-pNPU mappings for improved resource utilization and cost-effectiveness; (3) an ISA extension of modern NPU architecture for facilitating fine-grained tensor operator scheduling for multiple vNPUs. We implement TCloud based on a production-level NPU simulator. Our experiments show that TCloud improves the throughput of ML inference services by up to 1.4$\times$ and reduces the tail latency by up to 4.6$\times$, while improving the NPU utilization by 1.2$\times$ on average, compared to state-of-the-art NPU sharing approaches.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# LLM推論におけるKVキャッシュとネットワークブートネックのゼロ遅延QKV圧縮

Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference ( http://arxiv.org/abs/2408.04107v1 )

ライセンス: Link先を確認
Zeyu Zhang, Haiying Shen, (参考訳) 大規模言語モデルでは、キー値キャッシュ(KVC)におけるメモリ制約は、特に長いプロンプトで推論中に問題となる。 本研究では,KV値の圧縮が,精度とジョブ完了時間(JCT)に関するモデルを圧縮するよりも効果的であることを示した。 しかし、KV値の定量化と、重要でないトークンの削減は、JCTを遅延させる重要な実行時の計算時間オーバーヘッドを発生させる。 これらの手法は、長いプロンプトのためのシーケンス並列性(SP)フレームワークにおいて、計算時間や高いネットワーク通信時間を削減できない。 実験分析から得られた洞察に富んだ観測に基づいて,ゼロ遅延QKV圧縮システムであるZeroCを提案する。 ZeroCは、モデル演算に圧縮と圧縮の操作を革新的に組み込んで、ハイブリッド層-トークンレベルで圧縮比を適応的に決定する。 さらに、通信効率のよいSP推論フレームワークを実現する。 トレース駆動実験により、ZeroCは平均JCTの80%以下、平均パープレキシティが35%低く、2.8倍高いスループットを達成した。 ZeroCはまた、現在のLLMサービスシステムの平均JCTを最大91%削減する。 コードをオープンソースにしました。

In large-language models, memory constraints in the key-value cache (KVC) pose a challenge during inference, especially with long prompts. In this work, we observed that compressing KV values is more effective than compressing the model regarding accuracy and job completion time (JCT). However, quantizing KV values and dropping less-important tokens incur significant runtime computational time overhead, delaying JCT. These methods also cannot reduce computation time or high network communication time overhead in sequence-parallelism (SP) frameworks for long prompts. To tackle these issues, based on our insightful observations from experimental analysis, we propose ZeroC, a Zero-delay QKV Compression system that eliminates time overhead and even reduces computation and communication time of the model operations. ZeroC innovatively embeds compression and decompression operations within model operations and adaptively determines compression ratios at a hybrid layer-token level. Further, it enables a communication-efficient SP inference framework. Trace-driven experiments demonstrate that ZeroC achieves up to 80% lower average JCT, 35% lower average perplexity, and 2.8x higher throughput with the same latency compared to state-of-the-art compression methods. ZeroC also reduces the average JCT of current LLM serving systems by up to 91% with the constraint of 0.1 perplexity increase. We open-sourced the code.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# PaveCap:Dense CaptioningとPCI推定による総合舗装条件評価のための最初のマルチモーダルフレームワーク

PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation ( http://arxiv.org/abs/2408.04110v1 )

ライセンス: Link先を確認
Blessing Agyei Kyem, Eugene Kofi Okrah Denteh, Joshua Kofi Asamoah, Armstrong Aboah, (参考訳) 本研究は, 定量的舗装条件指標(PCI)予測と質的記述の両方を提供する, 舗装条件評価のための最初のマルチモーダルアプローチを提案する。 自動舗装条件評価のための新しいフレームワークPaveCapを紹介する。 このフレームワークは、Single-Shot PCI Estimation NetworkとDense Captioning Networkの2つの主要な部分で構成されている。 PCI推定ネットワークは、オブジェクト検出にYOLOv8、ゼロショットセグメンテーションにSAM(Segment Anything Model)、PCIを予測するために4層畳み込みニューラルネットワークを使用する。 Dense Captioning Networkは、YOLOv8バックボーン、Transformerエンコーダデコーダアーキテクチャ、および畳み込みフィードフォワードモジュールを使用して、舗装条件の詳細な記述を生成する。 これらのネットワークをトレーニングし評価するために,バウンディングボックスアノテーション,テキストアノテーション,PCI値を用いた舗装データセットを開発した。 その結果,PCI推定ネットワークは予測値と実際のPCIとの間に強い正の相関(0.70)を示し,条件自動評価の有効性を示した。 また、Dense Captioning Networkは、高いBLEU (0.7445)、GLEU (0.5893)、METEOR (0.7252)のスコアで証明された正確な舗装条件の記述を作成した。 さらに、密度の高いキャプションモデルは複雑なシナリオをうまく処理し、地上の真実データに誤りを訂正する。 ここで開発されたフレームワークは、舗装維持におけるインフラ管理と意思決定を大幅に改善することができる。

This research introduces the first multimodal approach for pavement condition assessment, providing both quantitative Pavement Condition Index (PCI) predictions and qualitative descriptions. We introduce PaveCap, a novel framework for automated pavement condition assessment. The framework consists of two main parts: a Single-Shot PCI Estimation Network and a Dense Captioning Network. The PCI Estimation Network uses YOLOv8 for object detection, the Segment Anything Model (SAM) for zero-shot segmentation, and a four-layer convolutional neural network to predict PCI. The Dense Captioning Network uses a YOLOv8 backbone, a Transformer encoder-decoder architecture, and a convolutional feed-forward module to generate detailed descriptions of pavement conditions. To train and evaluate these networks, we developed a pavement dataset with bounding box annotations, textual annotations, and PCI values. The results of our PCI Estimation Network showed a strong positive correlation (0.70) between predicted and actual PCIs, demonstrating its effectiveness in automating condition assessment. Also, the Dense Captioning Network produced accurate pavement condition descriptions, evidenced by high BLEU (0.7445), GLEU (0.5893), and METEOR (0.7252) scores. Additionally, the dense captioning model handled complex scenarios well, even correcting some errors in the ground truth data. The framework developed here can greatly improve infrastructure management and decision18 making in pavement maintenance.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# 普遍量子熱力学フレームワークの要件としてのエネルギー添加性

Energy additivity as a requirement for universal quantum thermodynamical frameworks ( http://arxiv.org/abs/2408.04111v1 )

ライセンス: Link先を確認
Luis Rodrigo Neves, Frederico Brito, (参考訳) 自己量子の「ユニバース」のサブシステム間の強いカップリングと相関の体制における熱力学の一般的な枠組みの開発には、内部エネルギーを含む基本量の定義の多様化が必要であった。 ほとんどのアプローチは関心のシステムにのみ焦点をあてるが、宇宙の閉系エネルギーとの整合性を維持するために、内部エネルギーの普遍的な概念も環境を考慮すべきである。 図示として、我々は特定の2量子宇宙モデルについて研究し、両者の正確なマスター方程式を取得し、最近考案された最小散逸法によって与えられる実効的なハミルトニアンおよび内部エネルギーを計算する。 この場合、内部エネルギーは添加物ではないことが示され、非物理的特徴が導かれる。 最後に、ハミルトニアンに基づく全ての効果的なアプローチを記述するための抽象的な枠組みを導入し、この文脈におけるエネルギー加法則の厳密な定義に弱い形と強い形の両方で対処し、基礎となる微妙性について議論する。

The quest to develop a general framework for thermodynamics in the regime of strong coupling and correlations between subsystems of an autonomous quantum "universe" has entailed diverging definitions for basic quantities, including internal energy. While most approaches focus solely on the system of interest, we propose that a universal notion of internal energy should also account for the environment in order to keep consistency with the closed-system energy of the universe. As an illustration, we study a particular two-qubit universe model, obtaining the exact master equations for both parties and calculating their effective Hamiltonians and internal energies as given by the recently devised minimal dissipation approach. In this case, we show that internal energies are not additive, which leads to unphysical features. Finally, we introduce an abstract framework to describe all effective Hamiltonian-based approaches and address a rigorous definition of energy additivity in this context, in both a weak and a strong forms, discussing the underlying subtleties.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# Patchview:ジェネレーションダストと磁石を可視化したLLMによるワールドビルディング

Patchview: LLM-Powered Worldbuilding with Generative Dust and Magnet Visualization ( http://arxiv.org/abs/2408.04112v1 )

ライセンス: Link先を確認
John Joon Young Chung, Max Kreminski, (参考訳) 大きな言語モデル(LLM)は、著者が派閥、文字、場所などの世界要素を生成することで物語の世界を構築するのに役立つ。 しかし、多くの生成元を理解することは圧倒的である。 さらに、ユーザが言語的に指定が難しい生成要素のアスペクトを正確に制御したい場合、プロンプトだけでは不十分である可能性がある。 我々は,マグネットとダストの物理的比喩を通じて,ユーザが物語の概念や要素と対話できるようにすることで,世界構築を支援するカスタマイズ可能なLLMシステムであるPatchviewを紹介する。 Patchviewの要素は、高い関連性を持つ概念に視覚的に引きずられ、センスメイキングを促進する。 また、利用者は、概念間の要素の所望の位置を示すことにより、言葉で解脱的な概念で生成を操ることもできる。 ユーザがLCMの可視化と生成に異を唱えると、要素を再配置して修正することができる。 これらの補正は、LCMの将来の振る舞いをユーザの知覚に合わせるために使用できる。 ユーザスタディでは、Patchviewが世界要素のセンスメイキングと要素生成のステアリングをサポートし、世界構築過程における探索を容易にすることが示されている。 Patchviewは、カスタマイズ可能な視覚表現が、生成的AIモデルの振る舞いをユーザの意図と一致させるのにどのように役立つか、洞察を提供する。

Large language models (LLMs) can help writers build story worlds by generating world elements, such as factions, characters, and locations. However, making sense of many generated elements can be overwhelming. Moreover, if the user wants to precisely control aspects of generated elements that are difficult to specify verbally, prompting alone may be insufficient. We introduce Patchview, a customizable LLM-powered system that visually aids worldbuilding by allowing users to interact with story concepts and elements through the physical metaphor of magnets and dust. Elements in Patchview are visually dragged closer to concepts with high relevance, facilitating sensemaking. The user can also steer the generation with verbally elusive concepts by indicating the desired position of the element between concepts. When the user disagrees with the LLM's visualization and generation, they can correct those by repositioning the element. These corrections can be used to align the LLM's future behaviors to the user's perception. With a user study, we show that Patchview supports the sensemaking of world elements and steering of element generation, facilitating exploration during the worldbuilding process. Patchview provides insights on how customizable visual representation can help sensemake, steer, and align generative AI model behaviors with the user's intentions.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# UpLIF: アップグレード可能なセルフチューニング学習インデックスフレームワーク

UpLIF: An Updatable Self-Tuning Learned Index Framework ( http://arxiv.org/abs/2408.04113v1 )

ライセンス: Link先を確認
Alireza Heidari, Amirhossein Ahmadi, Wei Zhang, (参考訳) 学習インデックスの出現は、データセット内のキーの位置を推定する予測モデルとしてインデックスを考慮し、インデックスの認識のパラダイムシフトを引き起こし、キー検索効率とインデックスサイズ削減の顕著な改善をもたらしたが、学習インデックスモデリングに固有の重要な課題は、レコードの固定分布の要求によって必要となる更新操作に対する制限付きサポートである。 従来の研究では、複数のモデル再訓練による高いオーバーヘッドの欠点に対処する様々な手法が提案されている。 本稿では,適応型自己学習学習インデックスであるUpLIFを提案する。これは,入ってくる更新に対応するようにモデルを調整し,性能改善のための更新の分布を予測し,強化学習を用いてインデックス構造を最適化する。 また、モデル固有の特性(バイアスや分散など)を決定するバランスモデル調整の概念を導入し、新しいデータで再トレーニングすることなく、これらの因子を既存のインデックスモデルに統合することを可能にする。 我々の総合的な実験によると、システムは最先端のインデックスソリューション(従来のMLベースとMLベースの両方)を超越し、1000倍のメモリ使用量で最大3.12倍のスループットを実現している。

The emergence of learned indexes has caused a paradigm shift in our perception of indexing by considering indexes as predictive models that estimate keys' positions within a data set, resulting in notable improvements in key search efficiency and index size reduction; however, a significant challenge inherent in learned index modeling is its constrained support for update operations, necessitated by the requirement for a fixed distribution of records. Previous studies have proposed various approaches to address this issue with the drawback of high overhead due to multiple model retraining. In this paper, we present UpLIF, an adaptive self-tuning learned index that adjusts the model to accommodate incoming updates, predicts the distribution of updates for performance improvement, and optimizes its index structure using reinforcement learning. We also introduce the concept of balanced model adjustment, which determines the model's inherent properties (i.e. bias and variance), enabling the integration of these factors into the existing index model without the need for retraining with new data. Our comprehensive experiments show that the system surpasses state-of-the-art indexing solutions (both traditional and ML-based), achieving an increase in throughput of up to 3.12 times with 1000 times less memory usage.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# ドメイン間のゼロショットFactual Consistency評価

Zero-shot Factual Consistency Evaluation Across Domains ( http://arxiv.org/abs/2408.04114v1 )

ライセンス: Link先を確認
Raunak Agarwal, (参考訳) 本研究は,テキスト生成システムにおける事実整合性の課題に対処する。 本研究では,様々な領域にまたがるソース・ターゲット・ペアの現実的整合性を評価することができる訓練モデルに対して,自然言語推論,要約評価,ファクチュアリティ検証,Factual Consistency Evaluationのタスクを統一する。 さまざまなタスク,ドメイン,ドキュメントの長さにまたがる22のデータセットからなる総合ベンチマークスイート上で,これらを8つのベースラインに対して厳格に評価する。 その結果,本手法は効率上の問題に対処し,ドメイン間の一般化を実現しつつ,異種ベンチマークの最先端性能を実現することができた。

This work addresses the challenge of factual consistency in text generation systems. We unify the tasks of Natural Language Inference, Summarization Evaluation, Factuality Verification and Factual Consistency Evaluation to train models capable of evaluating the factual consistency of source-target pairs across diverse domains. We rigorously evaluate these against eight baselines on a comprehensive benchmark suite comprising 22 datasets that span various tasks, domains, and document lengths. Results demonstrate that our method achieves state-of-the-art performance on this heterogeneous benchmark while addressing efficiency concerns and attaining cross-domain generalization.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# ニューラルネットワーク検索と自動コード最適化を組み合わせた調査

Combining Neural Architecture Search and Automatic Code Optimization: A Survey ( http://arxiv.org/abs/2408.04116v1 )

ライセンス: Link先を確認
Inas Bachiri, Hadjer Benmeziane, Smail Niar, Riyadh Baghdadi, Hamza Ouarnoughi, Abdelkrime Aries, (参考訳) 近年、ディープラーニングモデルは、複雑さとリソース要求の指数関数的な増加を経験している。 リソース制約のあるデバイス上での効率的な実行のためにこれらのモデルを加速することは、これまで以上に重要になっている。 この目標を達成するために使用される2つの注目すべきテクニックは、ハードウェア対応のニューラルアーキテクチャサーチ(HW-NAS)と自動コード最適化(ACO)である。 HW-NASは正確だがハードウェアフレンドリなニューラルネットワークを自動設計し、ACOはターゲットハードウェアの効率的なマッピングと推論のためにニューラルネットワークに適用する最適なコンパイラ最適化を探す。 この調査では、これらの2つのテクニックをひとつのフレームワークで組み合わせた最近の研究について調べる。 両ドメインの基本原理を提示し、独立して実行した場合にその準最適性を実証する。 次に、ハードウェア・アウェア・ニューラル・アーキテクチャーとコンパイラ・オプティマイズ・コサーチ(NACOS)と呼ばれる共同最適化プロセスへの統合について検討する。

Deep Learning models have experienced exponential growth in complexity and resource demands in recent years. Accelerating these models for efficient execution on resource-constrained devices has become more crucial than ever. Two notable techniques employed to achieve this goal are Hardware-aware Neural Architecture Search (HW-NAS) and Automatic Code Optimization (ACO). HW-NAS automatically designs accurate yet hardware-friendly neural networks, while ACO involves searching for the best compiler optimizations to apply on neural networks for efficient mapping and inference on the target hardware. This survey explores recent works that combine these two techniques within a single framework. We present the fundamental principles of both domains and demonstrate their sub-optimality when performed independently. We then investigate their integration into a joint optimization process that we call Hardware Aware-Neural Architecture and Compiler Optimizations co-Search (NACOS).
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# 放射線学レポート分類のためのルールベース洞察型LCMは可能か?RadPrompt法の導入

Can Rule-Based Insights Enhance LLMs for Radiology Report Classification? Introducing the RadPrompt Methodology ( http://arxiv.org/abs/2408.04121v1 )

ライセンス: Link先を確認
Panagiotis Fytas, Anna Breger, Ian Selby, Simon Baker, Shahab Shahipasand, Anna Korhonen, (参考訳) 胸部X線から病理を検出できるイメージングモデルを開発することは、最先端のパフォーマンスを達成するために監督を必要とするため、大きなデータセットに対してコストと時間的制約が生じる可能性がある。 代わりに、放射線学報告から抽出されたラベルは、臨床実践の一部として定期的に生成されるため、遠方の監督として機能する可能性がある。 広く使われているにもかかわらず、現在のラベル抽出法は、構文的変動性に対する堅牢性に制限された広範囲なルールセットに依存している。 これらの制限を緩和するために,不確実性を認識した情報スキーマとルールの合理化,性能向上を行うルールベースのシステムであるRadPertを導入する。 さらに,大規模言語モデルのゼロショット予測能力を高めるためにRadPertを利用するマルチターンプロンプト戦略であるRadPromptを開発し,GPT-4 Turboよりも平均F1スコアの統計的に有意な改善を実現した。 とりわけRadPromptは、LLMとルールベースのモデルとの相乗的ポテンシャルを示している。 MIMIC-CXRゴールドスタンダードテストセットとケンブリッジ大学病院から収集したゴールドスタンダードデータセットの2つのイングリッシュコーパスについて,本手法の評価を行った。

Developing imaging models capable of detecting pathologies from chest X-rays can be cost and time-prohibitive for large datasets as it requires supervision to attain state-of-the-art performance. Instead, labels extracted from radiology reports may serve as distant supervision since these are routinely generated as part of clinical practice. Despite their widespread use, current rule-based methods for label extraction rely on extensive rule sets that are limited in their robustness to syntactic variability. To alleviate these limitations, we introduce RadPert, a rule-based system that integrates an uncertainty-aware information schema with a streamlined set of rules, enhancing performance. Additionally, we have developed RadPrompt, a multi-turn prompting strategy that leverages RadPert to bolster the zero-shot predictive capabilities of large language models, achieving a statistically significant improvement in weighted average F1 score over GPT-4 Turbo. Most notably, RadPrompt surpasses both its underlying models, showcasing the synergistic potential of LLMs with rule-based models. We have evaluated our methods on two English Corpora: the MIMIC-CXR gold-standard test set and a gold-standard dataset collected from the Cambridge University Hospitals.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# Pareto-Optimal Learning-Augmented Algorithm における脆さの克服

Overcoming Brittleness in Pareto-Optimal Learning-Augmented Algorithms ( http://arxiv.org/abs/2408.04122v1 )

ライセンス: Link先を確認
Spyros Angelopoulos, Christoph Dürr, Alex Elenter, Yanni Lefki, (参考訳) 近年,機械学習予測を用いたオンラインアルゴリズムの研究が盛んに行われている。 このようなアルゴリズムの設計と分析における一般的な目的の1つは、アルゴリズムの整合性、すなわち完全な予測を仮定する性能と、敵の予測の下でのアルゴリズムのパフォーマンスとの(パレート)最適トレードオフを達成することである。 本研究では,この最適化基準が極めて脆弱であることを示し,パレート最適化アルゴリズムの性能が,知覚的予測誤差の存在下においても劇的に低下することを示した。 この欠点を解消するために,ユーザ特定プロファイルを用いてアルゴリズムの性能のスムーズさを強制する新しいフレームワークを提案する。 これにより、プロファイル設定に適合した一貫性/ロバスト性トレードオフの解析的概念を同時に維持しつつ、予測誤差の関数としてのアルゴリズムの性能を制御できる。 我々は、この新しいアプローチを、よく研究されたオンライン問題、すなわち片道取引問題に適用する。 この問題に対して、最先端のPareto-Optimalアルゴリズムの別の制限、すなわち、最悪のケースに適合しているという事実、そして非常に悲観的な入力に対処する。 我々は、最悪の入力からその利点への偏差を生かした新しいパレート最適化アルゴリズムを提案し、支配関係を通じて2つのパレート最適化アルゴリズムを比較するための新しい指標を提案する。

The study of online algorithms with machine-learned predictions has gained considerable prominence in recent years. One of the common objectives in the design and analysis of such algorithms is to attain (Pareto) optimal tradeoffs between the consistency of the algorithm, i.e., its performance assuming perfect predictions, and its robustness, i.e., the performance of the algorithm under adversarial predictions. In this work, we demonstrate that this optimization criterion can be extremely brittle, in that the performance of Pareto-optimal algorithms may degrade dramatically even in the presence of imperceptive prediction error. To remedy this drawback, we propose a new framework in which the smoothness in the performance of the algorithm is enforced by means of a user-specified profile. This allows us to regulate the performance of the algorithm as a function of the prediction error, while simultaneously maintaining the analytical notion of consistency/robustness tradeoffs, adapted to the profile setting. We apply this new approach to a well-studied online problem, namely the one-way trading problem. For this problem, we further address another limitation of the state-of-the-art Pareto-optimal algorithms, namely the fact that they are tailored to worst-case, and extremely pessimistic inputs. We propose a new Pareto-optimal algorithm that leverages any deviation from the worst-case input to its benefit, and introduce a new metric that allows us to compare any two Pareto-optimal algorithms via a dominance relation.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# 機械学習によるソフトウェア分析における敵攻撃の調査

Investigating Adversarial Attacks in Software Analytics via Machine Learning Explainability ( http://arxiv.org/abs/2408.04124v1 )

ライセンス: Link先を確認
MD Abdul Awal, Mrigank Rochan, Chanchal K. Roy, (参考訳) 機械学習(ML)の最近の進歩により、多くのMLベースのアプローチが、ソフトウェア開発とメンテナンスプロセスの合理化のために、ソフトウェア分析タスクに広く適用されている。 それでも研究により、MLモデルは潜在的な有用性にもかかわらず、敵の攻撃に弱いことが示され、これらのプロセスに大きな金銭的損失をもたらす可能性がある。 結果として、MLモデルの敵攻撃に対する堅牢性は、ソフトウェア分析タスクにデプロイされる前に評価されなければならない。 ソフトウェア分析タスクにおける敵攻撃にはいくつかのテクニックが提供されているが、ML説明可能性を用いた敵攻撃の探索はほとんど探索されていない。 そこで本研究では,ソフトウェア解析タスクにおけるMLモデルのロバスト性を評価するために,ML説明可能性と敵攻撃との関係を検討することを目的とした。 さらに、入力空間を直接摂動する既存の攻撃とは異なり、我々の攻撃アプローチは機能空間を摂動することに焦点を当てている。 6つのデータセット、3つのML説明可能性技術、7つのMLモデルを含む我々の広範な実験は、ソフトウェア分析タスクにおいてMLモデルに対する敵攻撃を成功させるのにML説明可能性を使用することができることを示した。 これはML説明可能性技術によって識別される上位1~3つの重要な機能だけを変更することで実現される。 その結果、攻撃対象のMLモデルは、敵攻撃前に正確に予測されたインスタンスの86.6%を正確に予測することができず、そのような攻撃に対してモデルの堅牢性が低いことを示している。 最後に,本手法は,表層データを対象とした4つの対角攻撃手法と比較して有望な結果を示す。

With the recent advancements in machine learning (ML), numerous ML-based approaches have been extensively applied in software analytics tasks to streamline software development and maintenance processes. Nevertheless, studies indicate that despite their potential usefulness, ML models are vulnerable to adversarial attacks, which may result in significant monetary losses in these processes. As a result, the ML models' robustness against adversarial attacks must be assessed before they are deployed in software analytics tasks. Despite several techniques being available for adversarial attacks in software analytics tasks, exploring adversarial attacks using ML explainability is largely unexplored. Therefore, this study aims to investigate the relationship between ML explainability and adversarial attacks to measure the robustness of ML models in software analytics tasks. In addition, unlike most existing attacks that directly perturb input-space, our attack approach focuses on perturbing feature-space. Our extensive experiments, involving six datasets, three ML explainability techniques, and seven ML models, demonstrate that ML explainability can be used to conduct successful adversarial attacks on ML models in software analytics tasks. This is achieved by modifying only the top 1-3 important features identified by ML explainability techniques. Consequently, the ML models under attack fail to accurately predict up to 86.6% of instances that were correctly predicted before adversarial attacks, indicating the models' low robustness against such attacks. Finally, our proposed technique demonstrates promising results compared to four state-of-the-art adversarial attack techniques targeting tabular data.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# LLMによるRAGに基づく脆弱性増大の探索

Exploring RAG-based Vulnerability Augmentation with LLMs ( http://arxiv.org/abs/2408.04125v1 )

ライセンス: Link先を確認
Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai, (参考訳) 脆弱性の検出は、ソフトウェアシステムの完全性、可用性、セキュリティを維持するための重要なタスクである。 近年,脆弱性検出のためのDLベースのモデルの利用が一般的になっている。 しかし、このような深層学習に基づく脆弱性検出(DLVD)は、効果的にトレーニングするための巨大なデータセットの不足に悩まされている。 データ拡張は、データ不足を軽減する可能性があるが、脆弱なコードの増大は困難であり、脆弱性を維持するジェネレーティブなソリューションを設計する必要がある。 そのため、脆弱性のあるコードサンプルを生成する作業は制限されており、以前の作業は単一のステートメントや特定のタイプの脆弱性を含むサンプルを生成することのみに焦点を当てていた。 近年,大規模な言語モデル (LLM) が様々なコード生成や理解タスクの解決に使われており,特に検索拡張生成 (RAG) と融合した場合に,刺激的な結果が示されている。 本研究では、単一およびマルチステートメントの脆弱性、すなわちミューテーション、インジェクション、拡張の脆弱性を強化するための3つの異なる戦略について検討する。 2つのLLMを用いて3つの脆弱性データセットと3つのDLVDモデルに対する提案手法の広範な評価を行った。 提案手法は,5Kの弱い試料を平均53.84 %,54.10 %,69.90 %,および15Kの弱い試料を平均30.80 %,27.48 %,27.93 %,15.41 %のランダムオーバーサンプリング (ROS) を平均53.84 %,54.10 %,69.90 %,40.93 % のベースライン設定 (NoAug,Vulgen,VGX の2種類のSOTA法) ,およびランダムオーバーサンプリング (ROS) を30.80 %,27.48 %,27.93 %,f1 %,f1 スコアで上回った。 提案手法は,1Kサンプルを188ドル程度の安価で生成することで,大規模データ拡張の実現可能性を示す。

Detecting vulnerabilities is a crucial task for maintaining the integrity, availability, and security of software systems. Utilizing DL-based models for vulnerability detection has become commonplace in recent years. However, such deep learning-based vulnerability detectors (DLVD) suffer from a shortage of sizable datasets to train effectively. Data augmentation can potentially alleviate the shortage of data, but augmenting vulnerable code is challenging and requires designing a generative solution that maintains vulnerability. Hence, the work on generating vulnerable code samples has been limited and previous works have only focused on generating samples that contain single statements or specific types of vulnerabilities. Lately, large language models (LLMs) are being used for solving various code generation and comprehension tasks and have shown inspiring results, especially when fused with retrieval augmented generation (RAG). In this study, we explore three different strategies to augment vulnerabilities both single and multi-statement vulnerabilities, with LLMs, namely Mutation, Injection, and Extension. We conducted an extensive evaluation of our proposed approach on three vulnerability datasets and three DLVD models, using two LLMs. Our results show that our injection-based clustering-enhanced RAG method beats the baseline setting (NoAug), Vulgen, and VGX (two SOTA methods), and Random Oversampling (ROS) by 30.80\%, 27.48\%, 27.93\%, and 15.41\% in f1-score with 5K generated vulnerable samples on average, and 53.84\%, 54.10\%, 69.90\%, and 40.93\% with 15K generated vulnerable samples. Our approach demonstrates its feasibility for large-scale data augmentation by generating 1K samples at as cheap as US$ 1.88.
翻訳日:2024-08-09 17:10:20 公開日:2024-08-07
# 任意の誤り訂正符号を用いた線形光学量子計算

Linear-optical quantum computation with arbitrary error-correcting codes ( http://arxiv.org/abs/2408.04126v1 )

ライセンス: Link先を確認
Blayney W. Walshe, Ben Q. Baragiola, Hugo Ferretti, José Gefaell, Michael Vasmer, Ryohei Weil, Takaya Matsuura, Thomas Jaeken, Giacomo Pantaleoni, Zhihua Han, Nicolas C. Menicucci, Ilan Tzitrin, Rafael N. Alexander, (参考訳) 高速量子誤り訂正符号は、フォールトトレラント量子コンピュータの命令スケールを緩和するが、非局所多体絡みの効率的な生成を必要とする。 我々はこれらの特性を持つ線形光学アーキテクチャを提供し、任意の符号や一般格子上のゴッテマン・キタエフ・プレスキルキュービットと互換性があり、物理的雑音バイアスを利用する自然な方法を備えている。 双曲曲面符号を含むシミュレーションでは、量子的低密度パリティチェック符号は符号化率の約10倍の改善で2次元曲面符号に匹敵する閾値を示す。

High-rate quantum error correcting codes mitigate the imposing scale of fault-tolerant quantum computers but require the efficient generation of non-local many-body entanglement. We provide a linear-optical architecture with these properties, compatible with arbitrary codes and Gottesman-Kitaev-Preskill qubits on generic lattices, and featuring a natural way to leverage physical noise bias. Simulations involving hyperbolic surface codes, promising quantum low-density parity-check codes, reveal a threshold comparable to the 2D surface code at about a ten-fold improvement in encoding rate.
翻訳日:2024-08-09 17:00:24 公開日:2024-08-07
# 仮想エージェントのためのデータ駆動ジェスチャー生成における空間認識の導入

Incorporating Spatial Awareness in Data-Driven Gesture Generation for Virtual Agents ( http://arxiv.org/abs/2408.04127v1 )

ライセンス: Link先を確認
Anna Deichler, Simon Alexanderson, Jonas Beskow, (参考訳) 本稿では,仮想エージェントの非言語行動,特にジェスチャーに空間的コンテキストを組み込むことにより,人間とエージェントのコミュニケーションを向上させることに焦点を当てる。 近年の音声合成の進歩は, 自然な動きを生み出すが, 動作範囲をヴォイドに限定するデータ駆動方式が主流となっている。 本研究の目的は、シーン情報を音声によるジェスチャー合成に組み込むことにより、これらの手法を拡張することである。 この目的に適した新しい合成ジェスチャーデータセットを提案する。 この開発は、環境やユーザとより自然に対話する、具体化された会話エージェントを作成するための重要なステップである。

This paper focuses on enhancing human-agent communication by integrating spatial context into virtual agents' non-verbal behaviors, specifically gestures. Recent advances in co-speech gesture generation have primarily utilized data-driven methods, which create natural motion but limit the scope of gestures to those performed in a void. Our work aims to extend these methods by enabling generative models to incorporate scene information into speech-driven gesture synthesis. We introduce a novel synthetic gesture dataset tailored for this purpose. This development represents a critical step toward creating embodied conversational agents that interact more naturally with their environment and users.
翻訳日:2024-08-09 17:00:24 公開日:2024-08-07
# サンプル外拡張による大規模データのコア外次元化

Out-of-Core Dimensionality Reduction for Large Data via Out-of-Sample Extensions ( http://arxiv.org/abs/2408.04129v1 )

ライセンス: Link先を確認
Luca Reichmann, David Hägele, Daniel Weiskopf, (参考訳) 次元性低減(DR)は、高次元データセットの可視化のための確立されたアプローチである。 DR法はしばしば文献の典型的なDRベンチマークデータセットに適用されるが、それらは実行時の複雑性とメモリ要求の増大に悩まされ、特に高性能コンピューティング以外の環境での大規模データ可視化には適さない。 大規模データセット上でDRを実現するために,サンプル外拡張方式を提案する。 このような拡張により、既存のプロジェクションに新しいデータを挿入することができます。 このプロセスは、メモリとランタイムの制限のため、大規模なデータ上でDRアウト・オブ・コアの実行を可能にする。 距離多次元スケーリング(MDS)では、典型的なソフトウェアライブラリではサポートされていないため、サンプル外投影機能の実装に貢献する。 文献の質指標を用いて5つの共通DRアルゴリズム(MDS, PCA, t-SNE, UMAP, オートエンコーダ)の投影品質を評価し, 基準セットのサイズと投影品質のトレードオフを分析する。 アルゴリズムの実行時の挙動は、参照セットのサイズ、サンプル外バッチサイズ、データセットの次元に関しても定量化される。 さらに,従来のアプローチよりも大規模なデータセットを扱うと主張するPaCMAPやTriMAPなど,最近導入された他のDR手法と比較した。 この大規模でDRの有用性を示すために、私たちは10億の投影されたインスタンスのストリームラインのアンサンブルを分析するユースケースに貢献する。

Dimensionality reduction (DR) is a well-established approach for the visualization of high-dimensional data sets. While DR methods are often applied to typical DR benchmark data sets in the literature, they might suffer from high runtime complexity and memory requirements, making them unsuitable for large data visualization especially in environments outside of high-performance computing. To perform DR on large data sets, we propose the use of out-of-sample extensions. Such extensions allow inserting new data into existing projections, which we leverage to iteratively project data into a reference projection that consists only of a small manageable subset. This process makes it possible to perform DR out-of-core on large data, which would otherwise not be possible due to memory and runtime limitations. For metric multidimensional scaling (MDS), we contribute an implementation with out-of-sample projection capability since typical software libraries do not support it. We provide an evaluation of the projection quality of five common DR algorithms (MDS, PCA, t-SNE, UMAP, and autoencoders) using quality metrics from the literature and analyze the trade-off between the size of the reference set and projection quality. The runtime behavior of the algorithms is also quantified with respect to reference set size, out-of-sample batch size, and dimensionality of the data sets. Furthermore, we compare the out-of-sample approach to other recently introduced DR methods, such as PaCMAP and TriMAP, which claim to handle larger data sets than traditional approaches. To showcase the usefulness of DR on this large scale, we contribute a use case where we analyze ensembles of streamlines amounting to one billion projected instances.
翻訳日:2024-08-09 17:00:24 公開日:2024-08-07
# 動的トラフィック割り当てのための不均一グラフシーケンスニューラルネットワーク

Heterogeneous Graph Sequence Neural Networks for Dynamic Traffic Assignment ( http://arxiv.org/abs/2408.04131v1 )

ライセンス: Link先を確認
Tong Liu, Hadi Meidani, (参考訳) 交通割当と交通流予測は、都市計画、交通管理、インテリジェント交通システムの発展に重要な洞察を与える。 交通ネットワーク全体にわたる交通の流れを計算する効率的なモデルが、交通力学をより詳細に、現実的に理解することを可能にするかもしれない。 しかしながら、グラフニューラルネットワークを利用するような既存のトラフィック予測アプローチは、通常はセンサーが配置された場所に限定され、センサロケーションを越えてトラフィックフローを予測できない。 この制限を緩和するために、リンクフローとオリジン・デスティネーション(OD)トラベル要求の間に存在する基本的関係に着想を得て、異種時空間グラフシーケンスネットワーク(HSTGSN)を提案した。 HSTGSNは、たとえ長距離であっても、オリジンノードと宛先ノード間の依存性を利用して、異なるオリジン・ディセプション要求の下で暗黙の車両経路選択を学習する。 このモデルは、道路リンク、ODリンク(原点と宛先を結ぶ仮想リンク)、およびOD要求とフロー分布の時空間関係をキャプチャする時空間グラフエンコーダ-デコーダからなる異種グラフに基づいている。 グラフエンコーダ-デコーダは,グラフデコーダからのノード埋め込みを用いて,フロー分布の時間的変化を予測することにより,OD需要における不完全情報を回復することができることを示す。 本研究では,完全/不完全なOD要求を伴う実世界のネットワークに関する広範な実験結果を用いて,リンクトラフィックフローとOD要求の間の暗黙の時空間的関係を捉えるだけでなく,正確な予測性能と一般化能力も達成できることを実証した。

Traffic assignment and traffic flow prediction provide critical insights for urban planning, traffic management, and the development of intelligent transportation systems. An efficient model for calculating traffic flows over the entire transportation network could provide a more detailed and realistic understanding of traffic dynamics. However, existing traffic prediction approaches, such as those utilizing graph neural networks, are typically limited to locations where sensors are deployed and cannot predict traffic flows beyond sensor locations. To alleviate this limitation, inspired by fundamental relationship that exists between link flows and the origin-destination (OD) travel demands, we proposed the Heterogeneous Spatio-Temporal Graph Sequence Network (HSTGSN). HSTGSN exploits dependency between origin and destination nodes, even when it is long-range, and learns implicit vehicle route choices under different origin-destination demands. This model is based on a heterogeneous graph which consists of road links, OD links (virtual links connecting origins and destinations) and a spatio-temporal graph encoder-decoder that captures the spatio-temporal relationship between OD demands and flow distribution. We will show how the graph encoder-decoder is able to recover the incomplete information in the OD demand, by using node embedding from the graph decoder to predict the temporal changes in flow distribution. Using extensive experimental studies on real-world networks with complete/incomplete OD demands, we demonstrate that our method can not only capture the implicit spatio-temporal relationship between link traffic flows and OD demands but also achieve accurate prediction performance and generalization capability.
翻訳日:2024-08-09 17:00:24 公開日:2024-08-07
# 登録栄養士試験におけるLDMの精度と一貫性:プロンプト工学と知識検索の影響

Accuracy and Consistency of LLMs in the Registered Dietitian Exam: The Impact of Prompt Engineering and Knowledge Retrieval ( http://arxiv.org/abs/2408.02964v2 )

ライセンス: Link先を確認
Iman Azimi, Mohan Qi, Li Wang, Amir M. Rahmani, Youlin Li, (参考訳) 大規模言語モデル(LLMs)は、患者のエンゲージメントの向上、臨床的意思決定の促進、医療教育の促進など、健康と幸福な領域における人間の直面する応用を根本的に変えつつある。 現状のLSMはいくつかの会話的応用において優れた性能を示したが、栄養学や食事学における評価はいまだに不十分である。 本稿では,栄養クエリの精度と整合性を評価するため,登録栄養士試験(RD)を用いて,最先端LCM,GPT-4o,Claude 3.5 Sonnet,Gemini 1.5 Proの標準的かつ包括的な評価を行う。 評価対象は,栄養問題と熟練度を含む1050のRD試験質問項目を含む。 また,ゼロショット (ZS) , 思考の連鎖 (CoT) , 自己一貫性の連鎖 (CoT-SC) , 思考の連鎖 (RAP) が応答の正確性と整合性に与える影響を初めて検討した。 以上の結果から,これらのLSMは総合的な性能は許容できるものの,異なるプロンプトや問合せ領域とは大きく異なることが明らかとなった。 GPT-4oとCoT-SCは他の手法よりも優れており、Gemini 1.5 ProとZSは高い一貫性を示した。 GPT-4oとClaude 3.5では、CoTは精度を向上し、CoT-SCは精度と一貫性の両方を改善した。 RAP は GPT-4o がエキスパートレベルの質問に答えるのに特に有効であった。 したがって、習熟度や特定のドメインに合わせて適切なLLMとプロンプト技術を選択することで、食事や栄養チャットボットのエラーや潜在的なリスクを軽減することができる。

Large language models (LLMs) are fundamentally transforming human-facing applications in the health and well-being domains: boosting patient engagement, accelerating clinical decision-making, and facilitating medical education. Although state-of-the-art LLMs have shown superior performance in several conversational applications, evaluations within nutrition and diet applications are still insufficient. In this paper, we propose to employ the Registered Dietitian (RD) exam to conduct a standard and comprehensive evaluation of state-of-the-art LLMs, GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro, assessing both accuracy and consistency in nutrition queries. Our evaluation includes 1050 RD exam questions encompassing several nutrition topics and proficiency levels. In addition, for the first time, we examine the impact of Zero-Shot (ZS), Chain of Thought (CoT), Chain of Thought with Self Consistency (CoT-SC), and Retrieval Augmented Prompting (RAP) on both accuracy and consistency of the responses. Our findings revealed that while these LLMs obtained acceptable overall performance, their results varied considerably with different prompts and question domains. GPT-4o with CoT-SC prompting outperformed the other approaches, whereas Gemini 1.5 Pro with ZS recorded the highest consistency. For GPT-4o and Claude 3.5, CoT improved the accuracy, and CoT-SC improved both accuracy and consistency. RAP was particularly effective for GPT-4o to answer Expert level questions. Consequently, choosing the appropriate LLM and prompting technique, tailored to the proficiency level and specific domain, can mitigate errors and potential risks in diet and nutrition chatbots.
翻訳日:2024-08-09 12:41:05 公開日:2024-08-07
# n,d)->1ランダムアクセス符号における量子アドバンテージ

Quantum Advantages in (n,d)->1 Random Access Codes ( http://arxiv.org/abs/1510.03045v2 )

ライセンス: Link先を確認
Andris Ambainis, Dmitry Kravchenko, Sk Sazim, Joonwoo Bae, Ashutosh Rai, (参考訳) ランダムアクセスコード(RAC)は、量子情報理論における様々な応用の通信プリミティブに対応するもので、準備と測定のシナリオの例である。 本研究では、(n,d)-RACを「n」長文字列とし、文字の「d」サイズの集合から構成し、文字列の符号化を単一のdレベル物理系に送信し、量子的優位性を示す。 まず、最適化された古典的RACを特徴付け、多数エンコーディング・アイデンティティ・デコーディングとして知られる古典的戦略が本当に最適であることを証明した。 次に、最小限の要件である2つの非互換な測度のみを利用して量子プロトコルを構築し、古典的な測度を超える利点を示す。 また、この結果の一般性や、全ての (n, d)->1 RAC に対して量子的優位性が有効かどうかについても論じる。

A random access code (RAC), corresponding to a communication primitive with various applications in quantum information theory, is an instance of a preparation-and-measurement scenario. In this work, we consider (n,d)-RACs constituting an "n"-length string, constructed from a "d" size set of letters, and send an encoding of the string in a single d-level physical system and present their quantum advantages. We first characterize optimal classical RACs, proving that the well-known classical strategy known as majority-encoding-identity-decoding is indeed optimal. We then construct a quantum protocol by exploiting only two incompatible measurements, the minimal requirement, and show the advantages beyond the classical one. We also discuss the generality of our results and whether quantum advantages are valid for all types of (n, d)->1 RACs.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# フィンガープリンティングによる画像から画像へ生成する敵対的ネットワーク

Fingerprinting Image-to-Image Generative Adversarial Networks ( http://arxiv.org/abs/2106.11760v5 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Han Qiu, Shangwei Guo, Run Wang, Jiwei Li, Tianwei Zhang, Rongxing Lu, (参考訳) Generative Adversarial Networks (GAN) は様々なアプリケーションシナリオで広く利用されている。 商用のGANの製造には相当な計算資源と人的資源が必要であるため、GANの著作権保護は緊急に必要である。 本稿では,信頼できる第三者に基づく画像間GANの知的財産権(IP)保護のための新しいフィンガープリント手法を提案する。 我々は,従来の指紋認証手法による盗難と堅牢性のボトルネックを突破し,分類モデルをGANに導入した。 具体的には、ターゲットGANと分類器から合成ディープラーニングモデルを革新的に構築する。 次に, この合成モデルから指紋サンプルを生成し, それを分類器に埋め込んで, 効果的な所有権検証を行う。 このスキームは、現代の画像から画像への変換GANを実質的に保護するためにいくつかの具体的な方法論を刺激する。 理論的解析は、これらの手法がIP保護に必要な異なるセキュリティ要件を満たすことを証明している。 また、我々のソリューションが既存の戦略より優れていることを示す広範な実験も行います。

Generative Adversarial Networks (GANs) have been widely used in various application scenarios. Since the production of a commercial GAN requires substantial computational and human resources, the copyright protection of GANs is urgently needed. This paper presents a novel fingerprinting scheme for the Intellectual Property (IP) protection of image-to-image GANs based on a trusted third party. We break through the stealthiness and robustness bottlenecks suffered by previous fingerprinting methods for classification models being naively transferred to GANs. Specifically, we innovatively construct a composite deep learning model from the target GAN and a classifier. Then we generate fingerprint samples from this composite model, and embed them in the classifier for effective ownership verification. This scheme inspires some concrete methodologies to practically protect the modern image-to-image translation GANs. Theoretical analysis proves that these methods can satisfy different security requirements necessary for IP protection. We also conduct extensive experiments to show that our solutions outperform existing strategies.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# BAST:バイノーラル音像定位のためのバイノーラル音声スペクトル変換器

BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization ( http://arxiv.org/abs/2207.03927v2 )

ライセンス: Link先を確認
Sheng Kuang, Jie Shi, Kiki van der Heijden, Siamak Mehrkanoon, (参考訳) 残響環境における正確な音像定位は人間の聴覚知覚に不可欠である。 近年,畳み込みニューラルネットワーク (CNN) を用いてバイノーラルヒト聴覚経路をモデル化している。 しかし、CNNは地球規模の音響特性を捉える際の障壁を示す。 そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。 共有パラメータを持つBASTモデルと非共有パラメータを持つBASTモデルに対応するBAST-SPとBAST-NSPの2つの実装モードについて検討した。 本モデルでは, 角距離1.29度, 平均角誤差1e-3を全方位で達成し, CNNモデルを大きく上回っている。 左半球および無響および残響環境におけるBASTの性能の探索的分析は、その一般化能力と、音像定位におけるバイノーラルトランスフォーマーの実現可能性を示している。 さらに, 自然残響環境における局所化過程の解釈について, 注意マップの解析を行った。

Accurate sound localization in a reverberation environment is essential for human auditory perception. Recently, Convolutional Neural Networks (CNNs) have been utilized to model the binaural human auditory pathway. However, CNN shows barriers in capturing the global acoustic features. To address this issue, we propose a novel end-to-end Binaural Audio Spectrogram Transformer (BAST) model to predict the sound azimuth in both anechoic and reverberation environments. Two modes of implementation, i.e. BAST-SP and BAST-NSP corresponding to BAST model with shared and non-shared parameters respectively, are explored. Our model with subtraction interaural integration and hybrid loss achieves an angular distance of 1.29 degrees and a Mean Square Error of 1e-3 at all azimuths, significantly surpassing CNN based model. The exploratory analysis of the BAST's performance on the left-right hemifields and anechoic and reverberation environments shows its generalization ability as well as the feasibility of binaural Transformers in sound localization. Furthermore, the analysis of the attention maps is provided to give additional insights on the interpretation of the localization process in a natural reverberant environment.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# ニューラルネットワークを用いたグランガー因果関係

Granger Causality using Neural Networks ( http://arxiv.org/abs/2208.03703v2 )

ライセンス: Link先を確認
Malik Shahid Sultan, Samuel Horvath, Hernando Ombao, (参考訳) ネットワーク内のノード間の依存は、金融、政治、社会学、ゲノム学、脳科学など多くの分野に浸透する重要な概念である。 多変量時系列データのコンポーネント間の依存を特徴付ける方法の1つは、Granger Causality (GC) である。 GC推定/推論の標準的なアプローチは一般に線形力学を前提としているが、信号が本質的に非線形である実世界の多くのアプリケーションではそのような単純化は成り立たない。 そのような場合、ベクトル自己回帰(VAR)モデルのような線形モデルを与えると、真のグランガー因果相互作用の誤特徴づけにつながる可能性がある。 この制限を克服するため、Tant et al (IEEE Transactions on Pattern Analysis and Machine Learning, 2022) は、少ない正規化のペナルティを持つニューラルネットワークを使用するソリューションを提案した。 正規化は学習可能なウェイトをスパースにし、GCの推論を可能にする。 本稿では、データに隠されたパターンを学習するために実証された機械学習とディープラーニングの進歩を活用することで、現在の手法の限界を克服する。 本稿では,GCとラグ順序の選択を同時に行うことによって,基礎となる非線形性を計算的に効率的に処理できる新しいモデルのクラスを提案する。 まず、共有ニューラルネットワークでパラメータ化されたカーネルを学習し、学習可能な重みに対するペナル化を行い、GC構造を発見するLearted Kernel VAR(LeKVAR)モデルを提案する。 第2に,脱カップリングしたペナルティによって,遅延と個々の時系列の重要度を直接分離できることを示す。 GC推定のプロセス中にラグ順を選択したいので、これは重要です。 この分離はフィルタリングとして機能し、マルチ層パーセプトロン(MLP)、リカレントニューラルネットワーク(RNN)、Long Short Term Memory Networks(LSTM)、Transformerなどを含む任意のDLモデルに拡張して、GC推定とラグ選択を同時に行うことができる。

Dependence between nodes in a network is an important concept that pervades many areas including finance, politics, sociology, genomics and the brain sciences. One way to characterize dependence between components of a multivariate time series data is via Granger Causality (GC). Standard traditional approaches to GC estimation / inference commonly assume linear dynamics, however such simplification does not hold in many real-world applications where signals are inherently non-linear. In such cases, imposing linear models such as vector autoregressive (VAR) models can lead to mis-characterization of true Granger Causal interactions. To overcome this limitation, Tank et al (IEEE Transactions on Pattern Analysis and Machine Learning, 2022) proposed a solution that uses neural networks with sparse regularization penalties. The regularization encourages learnable weights to be sparse, which enables inference on GC. This paper overcomes the limitations of current methods by leveraging advances in machine learning and deep learning which have been demonstrated to learn hidden patterns in the data. We propose novel classes of models that can handle underlying non-linearity in a computationally efficient manner, simultaneously providing GC and lag order selection. Firstly, we present the Learned Kernel VAR (LeKVAR) model that learns kernel parameterized by a shared neural net followed by penalization on learnable weights to discover GC structure. Secondly, we show one can directly decouple lags and individual time series importance via decoupled penalties. This is important as we want to select the lag order during the process of GC estimation. This decoupling acts as a filtering and can be extended to any DL model including Multi-Layer Perceptrons (MLP), Recurrent Neural Networks (RNN), Long Short Term Memory Networks (LSTM), Transformers etc, for simultaneous GC estimation and lag selection.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# Penrose dodecahedron, Witting configuration and quantum entanglement

Penrose dodecahedron, Witting configuration and quantum entanglement ( http://arxiv.org/abs/2208.13644v2 )

ライセンス: Link先を確認
Alexander Yu. Vlasov, (参考訳) ドデカヘドロンの幾何学に基づく2つの絡み合ったスピン-3/2粒子を持つモデルが、ロジャー・ペンローズによってベルの定理の類似を「確率なしで」定式化するために提案された。 このモデルは後に4Dヒルベルト空間に40光線を持ついわゆるウィッティング構成を用いて再設計された。 しかし、そのような改革は、非局所性やいくつかの他の問題を考える上で不可欠な2つの構成の絡み合いに関する微妙な問題を必要とする。 ウィッティング構成によって記述された量子状態を持つ2つの絡み合った系について,本論文で論じる。 ドデカヘドロンの頂点に関する点の重複は25920/60=432倍の対称性でかなり増大する。 量子回路モデル(Quantum circuits model)は、異なる状態の演算とそのようなシステムの測定を記述するための自然言語である。

A model with two entangled spin-3/2 particles based on geometry of dodecahedron was suggested by Roger Penrose for formulation of analogue of Bell theorem "without probabilities." The model was later reformulated using so-called Witting configuration with 40 rays in 4D Hilbert space. However, such reformulation needs for some subtleties related with entanglement of two such configurations essential for consideration of non-locality and some other questions. Two entangled systems with quantum states described by Witting configurations are discussed in presented work. Duplication of points with respect to vertices of dodecahedron produces rather significant increase with number of symmetries in 25920/60=432 times. Quantum circuits model is a natural language for description of operations with different states and measurements of such systems.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# Navier-Stokes, Einstein, Maxwell, B-type, Lin-Tsien, Camassa-Holm, DSW, H-S, KdV-B, non-homogeneous KdV, generalized KdV, KdV, Translational KdV, sKdV, B-L, Airy equations

Variational quantum algorithm for measurement extraction from the Navier-Stokes, Einstein, Maxwell, B-type, Lin-Tsien, Camassa-Holm, DSW, H-S, KdV-B, non-homogeneous KdV, generalized KdV, KdV, translational KdV, sKdV, B-L and Airy equations ( http://arxiv.org/abs/2209.07714v5 )

ライセンス: Link先を確認
Pete Rigas, (参考訳) 古典量子ハイブリッドアルゴリズムは近年注目されており、量子回路から読み出しを得るために量子と古典計算プロトコルを組み合わせることで特徴付けられる。 2019年の論文でLubschらによる最近の進歩は、期待値と変動パラメータの重ね合わせで表現されるコスト関数の基底状態を決定する新しい変動量子アルゴリズム(VQA)を使用することで、シュロディンガー方程式とInviscid Burgers方程式の解の読み出しを提供する。 以下に、VQAが従来実現されていた解に匹敵する他のPDEに対して、ノイズのない量子シミュレーションを特徴とする解を確実に生成できる、さらなる計算可能性について分析する。 アルゴリズムが他のIPPに対して処理できる非線形性の範囲を決定するために、まずナヴィエ・ストークス方程式から始まり、アインシュタイン、ブッシーネック型、リン=ツィン、カマサ=ホルム、ドリンフェルト・ソコロフ=ウィルソン(DSW)、ハンター=サクストン方程式のシミュレーションから、電磁界、重力、波動伝播などの物理現象を基礎とする他の方程式へと進むいくつかのPDEについて検討する。 量子回路からの読み出しとして得られる解の数値近似のためにVQAが行う最適化ルーチンを定式化するために、ZGR-QFTアンサザイ数百のシミュレーション結果を生成する補助部に各PDEに対応するコスト関数を設ける。

Classical-quantum hybrid algorithms have recently garnered significant attention, which are characterized by combining quantum and classical computing protocols to obtain readout from quantum circuits of interest. Recent progress due to Lubasch et al in a 2019 paper provides readout for solutions to the Schrodinger and Inviscid Burgers equations, by making use of a new variational quantum algorithm (VQA) which determines the ground state of a cost function expressed with a superposition of expectation values and variational parameters. In the following, we analyze additional computational prospects in which the VQA can reliably produce solutions to other PDEs that are comparable to solutions that have been previously realized classically, which are characterized with noiseless quantum simulations. To determine the range of nonlinearities that the algorithm can process for other IVPs, we study several PDEs, first beginning with the Navier-Stokes equations and progressing to other equations underlying physical phenomena ranging from electromagnetism, gravitation, and wave propagation, from simulations of the Einstein, Boussniesq-type, Lin-Tsien, Camassa-Holm, Drinfeld-Sokolov-Wilson (DSW), and Hunter-Saxton equations. To formulate optimization routines that the VQA undergoes for numerical approximations of solutions that are obtained as readout from quantum circuits, cost functions corresponding to each PDE are provided in the supplementary section after which simulations results from hundreds of ZGR-QFT ansatzae are generated.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# 欠陥のない原子配列の高速作成のための並列圧縮アルゴリズム

Parallel compression algorithm for fast preparation of defect-free atom arrays ( http://arxiv.org/abs/2212.03047v3 )

ライセンス: Link先を確認
Shangguo Zhu, Yun Long, Mingbo Pu, Xiangang Luo, (参考訳) 欠陥のない原子配列は量子科学と技術のための強力で汎用的なプラットフォームとして登場し、高いプログラマビリティと有望なスケーラビリティを提供している。 配列は、部分的にロードされた初期配列から指定されたターゲット部位に原子を配置することで作成することができる。 しかし、大規模な欠陥のない配列を実現することは、配列サイズに逆比例する再配列中の原子損失と真空寿命による課題を示す。 時間的コストと原子の損失を最小限に抑える効率的な再構成アルゴリズムは、原子の再配置の成功に不可欠である。 本稿では,複数の移動式ツイーザを用いて同時に原子を転送する並列圧縮アルゴリズムを提案する。 総工費は、目標地点数に応じて線形にスケールできる。 このアルゴリズムは、現在の実験装置で容易に実装できる。

Defect-free atom arrays have emerged as a powerful and versatile platform for quantum sciences and technologies, offering high programmability and promising scalability. The arrays can be prepared by rearranging atoms from a partially loaded initial array to the designated target sites. However, achieving large defect-free arrays presents challenges due to atom loss during rearrangement and the vacuum-limited lifetime which is inversely proportional to the array size. Efficient rearrangement algorithms which minimize time cost and atom loss are crucial for successful atom rearrangement. Here we propose a novel parallel compression algorithm which leverages multiple mobile tweezers to transfer atoms simultaneously. The total time cost could be reduced to scale linearly with the number of target sites. This algorithm can be readily implemented in current experimental setups.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# 異常・表現・自己監督

Anomalies, Representations, and Self-Supervision ( http://arxiv.org/abs/2301.04660v2 )

ライセンス: Link先を確認
Barry M. Dillon, Luigi Favaro, Friedrich Feiden, Tanmoy Modak, Tilman Plehn, (参考訳) 本研究では,CMS ADC2021のイベントレベル異常データを用いて,コントラスト学習を用いた自己教師付き密度ベース異常検出法を開発した。 AnomalyCLRのテクニックはデータ駆動であり、背景データの拡張を使用して、モデルに依存しない方法で非標準モデルイベントを模倣する。 置換不変なTransformer Encoderアーキテクチャを使用して、コライダーイベントで測定されたオブジェクトを表現空間にマッピングする。 バックグラウンド表現に基づいて訓練されたAutoEncoderは、表現空間内の様々な信号の異常スコアを計算する。 AnomalyCLRでは、生のデータベースラインと比較して、すべての信号のパフォーマンス指標が大幅に改善されています。

We develop a self-supervised method for density-based anomaly detection using contrastive learning, and test it using event-level anomaly data from CMS ADC2021. The AnomalyCLR technique is data-driven and uses augmentations of the background data to mimic non-Standard-Model events in a model-agnostic way. It uses a permutation-invariant Transformer Encoder architecture to map the objects measured in a collider event to the representation space, where the data augmentations define a representation space which is sensitive to potential anomalous features. An AutoEncoder trained on background representations then computes anomaly scores for a variety of signals in the representation space. With AnomalyCLR we find significant improvements on performance metrics for all signals when compared to the raw data baseline.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# 深部学習屈折光学のカリキュラム学習

Curriculum Learning for ab initio Deep Learned Refractive Optics ( http://arxiv.org/abs/2302.01089v4 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Wolfgang Heidrich, (参考訳) 近年,出力画像のみを目的とする計算イメージングシステムの設計パラダイムとして,深部光学最適化が登場している。 しかし、これは、回折光学素子(DOE)やメタレンのような単一の要素からなる単純な光学系、あるいは優れた初期設計からの複合レンズの微調整に限られている。 本稿では、人間の介入なしにランダムに初期化面から複合レンズの光学設計を学習できるカリキュラム学習に基づくDeepLens設計手法を提案する。 本研究では,従来の画像レンズと大視野拡大深度計算レンズの両方を,非球面と短焦点長の携帯電話式形状因子で完全に設計し,提案手法の有効性を実証する。

Deep optical optimization has recently emerged as a new paradigm for designing computational imaging systems using only the output image as the objective. However, it has been limited to either simple optical systems consisting of a single element such as a diffractive optical element (DOE) or metalens, or the fine-tuning of compound lenses from good initial designs. Here we present a DeepLens design method based on curriculum learning, which is able to learn optical designs of compound lenses ab initio from randomly initialized surfaces without human intervention, therefore overcoming the need for a good initial design. We demonstrate the effectiveness of our approach by fully automatically designing both classical imaging lenses and a large field-of-view extended depth-of-field computational lens in a cellphone-style form factor, with highly aspheric surfaces and a short back focal length.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# 機械学習におけるアルゴリズム的集団行動

Algorithmic Collective Action in Machine Learning ( http://arxiv.org/abs/2302.04262v3 )

ライセンス: Link先を確認
Moritz Hardt, Eric Mazumdar, Celestine Mendler-Dünner, Tijana Zrnic, (参考訳) 機械学習アルゴリズムをデプロイするデジタルプラットフォーム上でのアルゴリズム集合行動の原理的な研究を開始する。 本稿では,企業の学習アルゴリズムと相互作用する集合の単純な理論的モデルを提案する。 集団は参加者のデータをプールし、参加者に自身のデータをどう修正して全体目標を達成するかを指示することでアルゴリズム戦略を実行する。 非パラメトリック最適学習アルゴリズム、パラメトリックリスク最小化器、勾配に基づく最適化の3つの基本的学習理論設定において、このモデルの有効性について検討する。 各設定において、協調したアルゴリズム戦略を考え出し、自然の成功基準を集団の大きさの関数として特徴づける。 本理論を補完し,フリーランサーのためのギグプラットフォームから数万の履歴書を含むスキル分類タスクを体系的に実施する。 BERTのような言語モデルによる2000以上のモデルトレーニングの実行を通じて、経験的観察と我々の理論による予測との間に顕著な対応が現れる。 我々の理論と実験は、極小のアルゴリズム集合がプラットフォームの学習アルゴリズムを著しく制御できるという結論を広く支持している。

We initiate a principled study of algorithmic collective action on digital platforms that deploy machine learning algorithms. We propose a simple theoretical model of a collective interacting with a firm's learning algorithm. The collective pools the data of participating individuals and executes an algorithmic strategy by instructing participants how to modify their own data to achieve a collective goal. We investigate the consequences of this model in three fundamental learning-theoretic settings: the case of a nonparametric optimal learning algorithm, a parametric risk minimizer, and gradient-based optimization. In each setting, we come up with coordinated algorithmic strategies and characterize natural success criteria as a function of the collective's size. Complementing our theory, we conduct systematic experiments on a skill classification task involving tens of thousands of resumes from a gig platform for freelancers. Through more than two thousand model training runs of a BERT-like language model, we see a striking correspondence emerge between our empirical observations and the predictions made by our theory. Taken together, our theory and experiments broadly support the conclusion that algorithmic collectives of exceedingly small fractional size can exert significant control over a platform's learning algorithm.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# エージェントベースシミュレーション物理システムにおけるコンポーネント再利用可能性の評価と要件追跡

Component reusability evaluation and requirement tracing for agent-based simulation-physical systems ( http://arxiv.org/abs/2303.09565v4 )

ライセンス: Link先を確認
Wojciech Dudek, Narcis Miguel, Tomasz Winiarski, (参考訳) 製品開発の初期段階では、品質とコストに影響を与えるため、設計概念を評価することが重要です。 しかし、このプロセスは曖昧で不確実な設計情報によって妨げられることが多い。 ドメイン仕様言語(DSL)を用いてシミュレーションと物理部品を組み込んだシステムの設計分析と評価を改善する。 目的:本手法は,システムのシミュレートと物理的具体化の整合性を評価する。この評価は,様々な分野において実施される。例えば,Digital Twins (DT) とその物理対物理双対 (PT) ,システム全体,あるいは多くのシステム構成の1つである。本手法では,システムモデリング言語 (SysML) に基づく DSL を提案する。シミュレーション-物理システムモデリング言語 (SPSysML) では,少なくとも1つの物理的あるいはシミュレートされた部分からなる CPS の分類を定義している。SPSysML では,要件分析を向上し,DT がシミュレーションの世界においてエキゾネティックな動作を知覚できる要件ベースのシステム構成法を定義する。 設計されたシステムは、物理ロボットと2つのシミュレータに配備された。 システム・セットアップはロボット・オペレーティング・システム(ROS)とROS2に基づいている。 したがって、SPSysMLは制御システムフレームワークやロボットシミュレータに特化していない。 SPSysMLはサードパーティの開発者によって使用され、彼や他の実践者によって調査で評価された。 まとめ: SPSysMLはDTを特徴とするシステムの設計を可能にし、シミュレーションと物理部品の整合性を改善するための評価を行う。 要件ベースのシステム構造は、システム要求割り当てのトレーサビリティを高める。

In the early stages of product development, evaluating design concepts is crucial due to its impact on quality and cost. However, this process is often hindered by vague and uncertain design information. We use the Domain Specification Language (DSL) to improve design analysis and evaluation of systems incorporating simulation and physical parts. ' Goal: Our method evaluates the integrity between the simulated and physical embodiment of the system. The assessment is done in various scopes, e.g. per pair of Digital Twins (DT) and its physical counterpart- Physical Twin (PT), system-wide, or one of many system setups. Method: We propose a DSL based on Systems Modeling Language (SysML). The Simulation-Physical Systems Modeling Language (SPSysML) defines the taxonomy of CPS consisting of at least a physical or simulated part. Based on SPSysML, we define quantitative factors and a requirement-based system structuring method, which enhances requirement analysis and allows DT to perceive exogenous actions in the simulated world. Result: SPSysML is used to develop a robotic system for the INCARE project. In subsequent iterations of the system's design process, the simulation-physical integrity of the system is improved, and more system components is shared between its simulated and physical embodiments. The designed system was deployed on the physical robot and two simulators. System setups are based on Robot Operating System (ROS) and ROS2. Therefore, we argue that SPSysML is neither specific for a control system framework nor a robot simulator. SPSysML was used by a third-party developer and was assessed by him and other practitioners in a survey. Summary: SPSysML allows the design of systems featuring DTs and evaluation for improved integrity between simulation and physical parts. The requirement-based system structuring enhances the traceability of system requirements allocation.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# RCA: 視覚的帰納的推論のための条件付き適応

RCA: Region Conditioned Adaptation for Visual Abductive Reasoning ( http://arxiv.org/abs/2303.10428v5 )

ライセンス: Link先を確認
Hao Zhang, Yeo Keat Ee, Basura Fernando, (参考訳) 視覚誘発推論は、視覚的な観察のためにおそらく説明することを目的としている。 凍結したCLIPに局所的な視覚的手がかりから説明を推論する機能を持たせるハイブリッドパラメータ効率の良い微調整手法である、単純で効果的な領域条件適応を提案する。 私たちは ``local hints'' と ``global contexts'' を CLIP モデルの視覚的プロンプトに細粒度と粗粒度を別々にエンコードする。 アダプタは下流タスクのための微調整CLIPモデルに使用され、トレーニング可能なクエリと凍結したCLIPモデルのキープロジェクションでアテンションマップの焦点を直接制御する新しいアテンションアダプタを設計する。 最後に,視覚的特徴をリテラル記述と可視的説明の特徴に反映させるために,コントラスト損失を修正した新しいモデルを訓練する。 この損失により、CLIPは知覚と推論能力の両方を維持することができる。 シャーロックの視覚誘導推論ベンチマークの実験では、RCAは以前のSOTAをはるかに上回り、リーダーボード(例えば、人間Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better)にランク付けしている。 我々はまた、RCAがRefCOCOのような局所的な知覚ベンチマークに一般化可能であることを検証する。 私たちはこのプロジェクトを、textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}でオープンソース化しました。

Visual abductive reasoning aims to make likely explanations for visual observations. We propose a simple yet effective Region Conditioned Adaptation, a hybrid parameter-efficient fine-tuning method that equips the frozen CLIP with the ability to infer explanations from local visual cues. We encode ``local hints'' and ``global contexts'' into visual prompts of the CLIP model separately at fine and coarse-grained levels. Adapters are used for fine-tuning CLIP models for downstream tasks and we design a new attention adapter, that directly steers the focus of the attention map with trainable query and key projections of a frozen CLIP model. Finally, we train our new model with a modified contrastive loss to regress the visual feature simultaneously toward features of literal description and plausible explanations. The loss enables CLIP to maintain both perception and reasoning abilities. Experiments on the Sherlock visual abductive reasoning benchmark show that the RCA significantly outstands previous SOTAs, ranking the \nth{1} on the leaderboards (e.g., Human Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better). We also validate the RCA is generalizable to local perception benchmarks like RefCOCO. We open-source our project at \textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# 古典的な量子非シグナリングボックス

Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v4 )

ライセンス: Link先を確認
Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins, Sandu Popescu, (参考訳) ここでは、古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。 このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。 論文で論じられている主な問題は、既に知られている物体、すなわち、事前に共有された量子粒子に作用するC-Cボックスから、C-Qボックスまたは全てのC-Qボックスを構築することができるかどうかである。 C-Q ボックスの大規模なクラスは非遺伝的であることを示す。 特に、純状態の出力を持つ全ての二部C-Qボックスが非GAであることを示す。 また,解答がまだオープンな混合状態を出力するマルチパーティC-Qボックスなど,一般問題に対処するための様々な戦略も提示する。 最後に、非常に単純なC-Qボックスでさえ、それらをシミュレートするために大量のC-C非局所相関を必要とすることを示す。

Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist 'genuine' C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non-genuine. In particular, we show that all bi-partite C-Q boxes with outputs that are pure states are non-genuine. We also present various strategies for addressing the general problem, i.e. for multi-partite C-Q boxes which output mixed states, whose answer is still open. Finally, we show that even some very simple non-genuine C-Q boxes require large amounts of C-C nonlocal correlations in order to simulate them.
翻訳日:2024-08-08 18:42:56 公開日:2024-08-07
# Data Mesh: システムグレーの文献レビュー

Data Mesh: a Systematic Gray Literature Review ( http://arxiv.org/abs/2304.01062v3 )

ライセンス: Link先を確認
Abel Goedegebuure, Indika Kumara, Stefan Driessen, Dario Di Nucci, Geert Monsieur, Willem-jan van den Heuvel, Damian Andrew Tamburri, (参考訳) Data Meshは、企業の集中型モノリシックなデータアーキテクチャに関連する運用上のボトルネックを最小化または回避することを目的とした、新たなドメイン駆動型の分散データアーキテクチャである。 この話題は実践者の興味を惹きつけており、それには相当なグレーの文学がある。 同時に、概念を定義し、構築する学術的な試みの欠如を観察する。 したがって、この記事では、その設計原則、アーキテクチャコンポーネント、機能、組織の役割について、基盤から始め、データメッシュアーキテクチャを特徴付けることを目的としています。 我々は114の産業用グレー文学論文を体系的に収集,分析,合成した。 このレビューは、データメッシュの4つの重要な原則、すなわち、製品としてのデータ、データのドメインオーナシップ、セルフサービスデータプラットフォーム、フェデレートされたコンピューティングガバナンスに関する実践者の見解に関する洞察を提供する。 さらに、データメッシュとSOA(サービス指向アーキテクチャ)の互換性のため、グレーの文献からの発見をSOA学術文献の参照アーキテクチャにマッピングし、データメッシュの3つの重要な側面、すなわち能力と役割、開発、実行の組織化を記述するための参照アーキテクチャを作成しました。 最後に,データメッシュにおけるオープンな研究課題について論じる。

Data mesh is an emerging domain-driven decentralized data architecture that aims to minimize or avoid operational bottlenecks associated with centralized, monolithic data architectures in enterprises. The topic has picked the practitioners' interest, and there is considerable gray literature on it. At the same time, we observe a lack of academic attempts at defining and building upon the concept. Hence, in this article, we aim to start from the foundations and characterize the data mesh architecture regarding its design principles, architectural components, capabilities, and organizational roles. We systematically collected, analyzed, and synthesized 114 industrial gray literature articles. The review provides insights into practitioners' perspectives on the four key principles of data mesh: data as a product, domain ownership of data, self-serve data platform, and federated computational governance. Moreover, due to the comparability of data mesh and SOA (service-oriented architecture), we mapped the findings from the gray literature into the reference architectures from the SOA academic literature to create the reference architectures for describing three key dimensions of data mesh: organization of capabilities and roles, development, and runtime. Finally, we discuss open research issues in data mesh, partially based on the findings from the gray literature.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 深層学習に基づく多彩な不整脈の描写のためのECGセグメンテーション

Deep learning based ECG segmentation for delineation of diverse arrhythmias ( http://arxiv.org/abs/2304.06237v3 )

ライセンス: Link先を確認
Chankyu Joung, Mijin Kim, Taejin Paik, Seong-Ho Kong, Seung-Young Oh, Won Kyeong Jeon, Jae-hu Jeon, Joong-Sik Hong, Wan-Joong Kim, Woong Kook, Myung-Jin Cha, Otto van Koert, (参考訳) 心電図におけるキー波形の正確なデライン化は、心臓疾患の診断と治療を支援するために、関連する特徴を抽出する重要なステップである。 P, QRS, T波の探索にセグメンテーションモデルを用いた深層学習法は有望な結果を示しているが, 不整脈の処理能力については研究されていない。 本稿では,不整脈が脱線品質に及ぼす影響について検討し,その有効性を高めるための戦略を開発する。 多様な不整脈に着目した心電図記述のためのU-Netライクセグメンテーションモデルを提案する。 これに続いて後処理アルゴリズムがノイズを除去し、P、QRS、T波の境界を自動的に決定する。 F1スコアはQRSおよびT波の99%,LUDBデータセットのP波の97%以上である。 さらに, 様々な不整脈モデルの評価を行い, タキカルディアなどのこれらのベンチマークで表現されていない不整脈に対して, 標準ベンチマーク上での強い性能のモデルでは, いまだに不整脈に対する性能が低いことを観察した。 我々はこの相違に対処する解決策を提案する。

Accurate delineation of key waveforms in an ECG is a critical step in extracting relevant features to support the diagnosis and treatment of heart conditions. Although deep learning based methods using segmentation models to locate P, QRS, and T waves have shown promising results, their ability to handle arrhythmias has not been studied in any detail. In this paper we investigate the effect of arrhythmias on delineation quality and develop strategies to improve performance in such cases. We introduce a U-Net-like segmentation model for ECG delineation with a particular focus on diverse arrhythmias. This is followed by a post-processing algorithm which removes noise and automatically determines the boundaries of P, QRS, and T waves. Our model has been trained on a diverse dataset and evaluated against the LUDB and QTDB datasets to show strong performance, with F1-scores exceeding 99% for QRS and T waves, and over 97% for P waves in the LUDB dataset. Furthermore, we assess various models across a wide array of arrhythmias and observe that models with a strong performance on standard benchmarks may still perform poorly on arrhythmias that are underrepresented in these benchmarks, such as tachycardias. We propose solutions to address this discrepancy.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# ASR: Attention-alike Structure Re-parameterization

ASR: Attention-alike Structural Re-parameterization ( http://arxiv.org/abs/2304.06345v3 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin, (参考訳) 構造的再パラメータ化(Structuor re-parameterization, SRP)技術は、等価なパラメータ変換によって異なるネットワークアーキテクチャ間の相互変換を実現する新しいディープラーニング技術である。 この技術により、パラメータサイズや推論時間などのトレーニング中のパフォーマンス改善のための余分なコストを、推論中のこれらの変換を通じて軽減することができるため、SRPは工業的および実用的応用に大きな可能性を秘めている。 既存のSRP手法は、正規化、プーリング、マルチブランチの畳み込みなど、多くの一般的なアーキテクチャをうまく検討してきた。 しかしながら、これらのモジュールがバックボーンネットワーク上で乗算的に動作し、モジュールの出力は推論中に入力依存となるため、SRPのアプリケーションシナリオは制限される。 本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。 この観察により,注意機構の有効性を享受しながら,所定のネットワークに対してSRPを実現するための,シンプルな注意効果のある構造的再パラメータ化(ASR)を提案することができる。 いくつかの標準ベンチマークで実施された大規模な実験は、ASRが既存のバックボーンネットワーク、アテンションモジュール、SRPメソッドの性能を精巧なモデル作成なしで全般的に改善することを示した。 また, この限界を解析し, 提案したASRの強靭性に関する実験的, 理論的証拠を提供する。

The structural re-parameterization (SRP) technique is a novel deep learning technique that achieves interconversion between different network architectures through equivalent parameter transformations. This technique enables the mitigation of the extra costs for performance improvement during training, such as parameter size and inference time, through these transformations during inference, and therefore SRP has great potential for industrial and practical applications. The existing SRP methods have successfully considered many commonly used architectures, such as normalizations, pooling methods, and multi-branch convolution. However, the widely used attention modules which drastically slow inference speed cannot be directly implemented by SRP due to these modules usually act on the backbone network in a multiplicative manner and the modules' output is input-dependent during inference, which limits the application scenarios of SRP. In this paper, we conduct extensive experiments from a statistical perspective and discover an interesting phenomenon Stripe Observation, which reveals that channel attention values quickly approach some constant vectors during training. This observation inspires us to propose a simple-yet-effective attention-alike structural re-parameterization (ASR) that allows us to achieve SRP for a given network while enjoying the effectiveness of the attention mechanism. Extensive experiments conducted on several standard benchmarks demonstrate the effectiveness of ASR in generally improving the performance of existing backbone networks, attention modules, and SRP methods without any elaborated model crafting. We also analyze the limitations and provide experimental and theoretical evidence for the strong robustness of the proposed ASR.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# ポピュリズムの顔:機械学習を用いた政治指導者の感情表現の相違について

The Face of Populism: Examining Differences in Facial Emotional Expressions of Political Leaders Using Machine Learning ( http://arxiv.org/abs/2304.09914v4 )

ライセンス: Link先を確認
Sara Major, Aleksandar Tomašević, (参考訳) オンラインメディアで使用されるポピュリストのレトリックは、深く衝動的であり、しばしば強い感情に埋もれていると特徴付けられる。 本研究の目的は、政治的指導者の感情的非言語コミュニケーションの違いを実証的に調査することである。 深層学習の手法を用いて、15カ国の政治指導者の220本のYouTubeビデオを分析し、感情の表情を分析し、平均的な感情スコアの差を6つの感情状態(怒り、嫌悪感、恐怖、幸福、悲しみ、驚き)の相対的な存在と、YouTubeビデオのフレームごとに中立的な表現と比較する。 手動で符号化された画像のサンプルから、このディープラーニングアプローチは、人間のラベルと53-60\%の一致があることが分かる。 ポピュリスト・レトリックの度合いが異なるリーダー群間での負の感情の平均スコアの統計的に有意な差を観察した。

Populist rhetoric employed on online media is characterized as deeply impassioned and often imbued with strong emotions. The aim of this paper is to empirically investigate the differences in affective nonverbal communication of political leaders. We use a deep-learning approach to process a sample of 220 YouTube videos of political leaders from 15 different countries, analyze their facial expressions of emotion and then examine differences in average emotion scores representing the relative presence of 6 emotional states (anger, disgust, fear, happiness, sadness, and surprise) and a neutral expression for each frame of the YouTube video. Based on a sample of manually coded images, we find that this deep-learning approach has 53-60\% agreement with human labels. We observe statistically significant differences in the average score of negative emotions between groups of leaders with varying degrees of populist rhetoric.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 対向摂動の空間周波数識別性

Spatial-Frequency Discriminability for Revealing Adversarial Perturbations ( http://arxiv.org/abs/2305.10856v3 )

ライセンス: Link先を確認
Chao Wang, Shuren Qi, Zhiqiu Huang, Yushu Zhang, Rushi Lan, Xiaochun Cao, Feng-Lei Fan, (参考訳) 敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。 セキュリティの観点からは、一般的なDLaaS(Deep Learning as a Service)フレームワークなど、現代のビジョンシステムにとって重要なリスクとなる。 深いモデルを修正せずに保護するために、現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。 しかし、これらの分解は周波数分解能や空間分解能に偏りがあり、敵のパターンを包括的に捉えることができない。 また、ディテクターが固定的な特徴をほとんど依存していない場合、ディテクターを回避しながらモデルを騙すことは現実的である(つまりディフェンス・アウェア・アタック)。 このような事実に触発されて、空間周波数のKrawtchouk分解に依存する判別検出器を提案する。 上記の作品を2つの側面から拡張する。 1) 導入したKrawtchoukベースは、より優れた空間周波数識別性を提供し、空間分布と周波数分布の両方において、自然データと敵対データの違いを包括的に捉えている。 2) クラウチョーク分解によって形成される広範囲な特徴は適応的な特徴選択と秘密機構を可能にし、固定された特徴がほとんどない検出器において、防御・認識攻撃の難しさを著しく増大させる。 理論的および数値解析により、検出器の特異性と有用性を示し、様々な深いモデルと様々な敵攻撃に対する画像セットの競合点を示す。

The vulnerability of deep neural networks to adversarial perturbations has been widely perceived in the computer vision community. From a security perspective, it poses a critical risk for modern vision systems, e.g., the popular Deep Learning as a Service (DLaaS) frameworks. For protecting deep models while not modifying them, current algorithms typically detect adversarial patterns through discriminative decomposition for natural and adversarial data. However, these decompositions are either biased towards frequency resolution or spatial resolution, thus failing to capture adversarial patterns comprehensively. Also, when the detector relies on few fixed features, it is practical for an adversary to fool the model while evading the detector (i.e., defense-aware attack). Motivated by such facts, we propose a discriminative detector relying on a spatial-frequency Krawtchouk decomposition. It expands the above works from two aspects: 1) the introduced Krawtchouk basis provides better spatial-frequency discriminability, capturing the differences between natural and adversarial data comprehensively in both spatial and frequency distributions, w.r.t. the common trigonometric or wavelet basis; 2) the extensive features formed by the Krawtchouk decomposition allows for adaptive feature selection and secrecy mechanism, significantly increasing the difficulty of the defense-aware attack, w.r.t. the detector with few fixed features. Theoretical and numerical analyses demonstrate the uniqueness and usefulness of our detector, exhibiting competitive scores on several deep models and image sets against a variety of adversarial attacks.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 室内シーン認識のための意味誘導型空間関係モデルとオブジェクト共起モデル

Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition ( http://arxiv.org/abs/2305.12661v4 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, (参考訳) シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。 しかし、クラス内空間配置の多様性とクラス間オブジェクトの共存により、様々な画像特性を適応させるためにコンテキスト関係をモデル化することは大きな課題である。 シーン認識のための既存の文脈モデリング手法には2つの制限がある。 1) シーン内のオブジェクト間の空間的関係(順序や距離)をモデル化し,空間的レイアウトを限定的に探索する。 2) 異なる場面にまたがって共存する物体の違いを見落とし, シーン認識性能を抑えることが多かった。 これらの制約を克服するために,意味的セグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。 まず,シーンの空間的特徴をモデル化するために,セマンティック空間関係モジュール (SSRM) を構築した。 セマンティックセグメンテーション(セマンティックセグメンテーション)の助けを借りて、このモジュールはシーン画像から空間情報を分離し、オブジェクト間のすべての空間関係をエンドツーエンドに徹底的に探索し、セマンティックベースの空間特徴を得る。 次に、SSRMの空間的特徴と画像特徴抽出モジュールの深い特徴の両方を各オブジェクトに割り当て、異なるシーン間で共存するオブジェクトを区別する。 最後に,オブジェクト間の長距離共起を探索するグローバルローカル依存モジュールを設計し,さらに屋内シーン認識のための意味誘導特徴表現を生成する。 広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for scene recognition exhibit two limitations: 1) They typically model only one type of spatial relationship (order or metric) among objects within scenes, with limited exploration of diverse spatial layouts. 2) They often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To overcome these limitations, we propose SpaCoNet, which simultaneously models Spatial relation and Co-occurrence of objects guided by semantic segmentation. Firstly, the Semantic Spatial Relation Module (SSRM) is constructed to model scene spatial features. With the help of semantic segmentation, this module decouples spatial information from the scene image and thoroughly explores all spatial relationships among objects in an end-to-end manner, thereby obtaining semantic-based spatial features. Secondly, both spatial features from the SSRM and deep features from the Image Feature Extraction Module are allocated to each object, so as to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features above, we design a Global-Local Dependency Module to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 大量鉱石からの金の蒸留:効率的なデータセット蒸留に向けてのバイレベルデータプロンニング

Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation ( http://arxiv.org/abs/2305.18381v4 )

ライセンス: Link先を確認
Yue Xu, Yong-Lu Li, Kaitong Cui, Ziyu Wang, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang, (参考訳) データ効率の学習は、特に大規模マルチモーダルモデルの現在の傾向を考えると、大きな注目を集めている。 近年, ネットワーク学習に不可欠なデータサンプルを合成することで, データセットの蒸留が効果的に行われている。 しかし, データセット蒸留プロセス自体に欠かせない試料は, いまだに調査されていない。 本研究では,データセットの蒸留作業におけるデータ効率と選択について検討する。 蒸留の力学を再定式化することにより、理論上も経験的にも、実際のデータセットに固有の冗長性についての洞察を提供する。 本稿では,経験的損失値を静的データプルーニング基準として用いることを提案する。 トレーニングにおけるデータ値の変化を補うために, 蒸留における因果的影響に基づいて最も寄与の大きい試料を見出した。 提案した選択戦略は、トレーニングデータセットを効率的に活用し、以前のSOTA蒸留アルゴリズムより優れ、より大規模で異質なデータセットであるイメージNet-1KやKinetics-400でも、蒸留アルゴリズムを一貫して強化することができる。 我々は、このパラダイムが蒸留の力学における新たな道を開き、効率的なデータセット蒸留の道を開くと信じている。 私たちのコードはhttps://github.com/silicx/GoldFromOres-BiLPで利用可能です。

Data-efficient learning has garnered significant attention, especially given the current trend of large multi-modal models. Recently, dataset distillation has become an effective approach by synthesizing data samples that are essential for network training. However, it remains to be explored which samples are essential for the dataset distillation process itself. In this work, we study the data efficiency and selection for the dataset distillation task. By re-formulating the dynamics of distillation, we provide insight into the inherent redundancy in the real dataset, both theoretically and empirically. We propose to use the empirical loss value as a static data pruning criterion. To further compensate for the variation of the data value in training, we find the most contributing samples based on their causal effects on the distillation. The proposed selection strategy can efficiently exploit the training dataset, outperform the previous SOTA distillation algorithms, and consistently enhance the distillation algorithms, even on much larger-scale and more heterogeneous datasets, e.g., full ImageNet-1K and Kinetics-400. We believe this paradigm will open up new avenues in the dynamics of distillation and pave the way for efficient dataset distillation. Our code is available on https://github.com/silicx/GoldFromOres-BiLP.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# LoRAPrune:低ランクパラメータ効率のファインチューニングを実現する構造化プルーニング

LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2305.18403v5 )

ライセンス: Link先を確認
Mingyang Zhang, Hao Chen, Chunhua Shen, Zhen Yang, Linlin Ou, Xinyi Yu, Bohan Zhuang, (参考訳) LLaMAやT5のような大規模言語モデル(LLM)は、微調整によって様々なタスクで例外的な性能を示している。 低ランク適応(LoRA)は、下流のタスクでこれらのLSMを安価に微調整するために現れてきたが、それでもその展開は膨大なモデルスケールと計算コストによって妨げられている。 訓練後のモデルプルーニングはLLMを圧縮する方法を提供する。 しかし、LLM用に設計された現在のプルーニング方式はLoRAと互換性がない。 これは、LLMにおける非構造的プルーニングの利用、LoRA重みの合併を妨げること、またはプレトレーニングされた重みの勾配に依存してプルーニングを誘導することによるものであり、メモリオーバーヘッドが大幅に増大する可能性がある。 この目的のために我々は,高精度な構造化プルーンドモデルを提供する新しいフレームワークであるLoRAPruneを提案する。 具体的には,まずLoRA誘導プルーニング基準を設計し,LoRAの重みと勾配を用いて,重みの勾配を重要度推定に用いた。 その後、この基準を反復的刈り込みプロセスに統合し、冗長なチャネルやヘッドを効果的に除去する。 LLaMA シリーズモデルにおける既存のアプローチよりも,LoRAPrune の方が優れた性能を示した。 50 %の圧縮速度で、LoRAPruneはLLM-Prunerよりも優れた性能を示し、WikiText2では4.81、PTBでは3.46、メモリ使用量は52.6%削減された。 さらに、LoRAPruneは複数のLLMを横断する半構造的プルーニングと一致し、その適用性を示している。 コードはhttps://github.com/aim-uofa/LoRAPrune.comで公開されている。

Large Language Models (LLMs), such as LLaMA and T5, have shown exceptional performance across various tasks through fine-tuning. Although low-rank adaption (LoRA) has emerged to cheaply fine-tune these LLMs on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Post-training model pruning offers a way to compress LLMs. However, the current pruning methods designed for LLMs are not compatible with LoRA. This is due to their utilization of unstructured pruning on LLMs, impeding the merging of LoRA weights, or their dependence on the gradients of pre-trained weights to guide pruning, which can impose significant memory overhead. To this end, we propose LoRAPrune, a new framework that delivers an accurate structured pruned model in a highly memory-efficient manner. Specifically, we first design a LoRA-guided pruning criterion, which uses the weights and gradients of LoRA, rather than the gradients of pre-trained weights for importance estimation. We subsequently integrate this criterion into an iterative pruning process, effectively removing redundant channels and heads. Extensive experimental results demonstrate the superior performance of our LoRAPrune over existing approaches on the LLaMA series models. At a 50\% compression rate, LoRAPrune demonstrates superior performance over LLM-Pruner, achieving a reduction in perplexity by 4.81 on WikiText2 and 3.46 on PTB, while also decreasing memory usage by 52.6%. Besides, LoRAPrune also matches semi-structural pruning across multiple LLMs, proving its wide applicability. The code is available at https://github.com/aim-uofa/LoRAPrune.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# G-不変拡散写像

G-invariant diffusion maps ( http://arxiv.org/abs/2306.07350v3 )

ライセンス: Link先を確認
Eitan Rosen, Xiuyuan Cheng, Yoel Shkolnisky, (参考訳) 多様体上に横たわるデータの拡散マップは、次元の減少、クラスタリング、データの可視化といったタスクに成功している。 本研究では、連続行列群の作用の下で閉じた多様体からサンプリングされた埋め込みデータセットについて考察する。 そのようなデータセットの例は、平面回転が任意である画像である。 この研究のパート I で導入された G-不変グラフ Laplacian は、群の既約ユニタリ表現の元とある種の行列の固有ベクトルの間のテンソル積の形の固有函数を認める。 我々はこれらの固有関数を用いて、データ上の群作用を本質的に説明する拡散写像を導出する。 特に、同変埋め込みと不変埋め込みの両方を構築し、データポイントのクラスタ化とアライメントに使用できる。 ランダム・コンピュータ・トモグラフィー問題における構築の有用性を実証する。

The diffusion maps embedding of data lying on a manifold has shown success in tasks such as dimensionality reduction, clustering, and data visualization. In this work, we consider embedding data sets that were sampled from a manifold which is closed under the action of a continuous matrix group. An example of such a data set is images whose planar rotations are arbitrary. The G-invariant graph Laplacian, introduced in Part I of this work, admits eigenfunctions in the form of tensor products between the elements of the irreducible unitary representations of the group and eigenvectors of certain matrices. We employ these eigenfunctions to derive diffusion maps that intrinsically account for the group action on the data. In particular, we construct both equivariant and invariant embeddings, which can be used to cluster and align the data points. We demonstrate the utility of our construction in the problem of random computerized tomography.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 多ギャップオイラー半金属における障害誘起トポロジカル量子相転移

Disorder-induced topological quantum phase transitions in multi-gap Euler semimetals ( http://arxiv.org/abs/2306.13084v2 )

ライセンス: Link先を確認
Wojciech J. Jankowski, Mohammadreza Noormandipour, Adrien Bouhon, Robert-Jan Slager, (参考訳) 非自明なオイラー類を持つ系における障害の影響について検討する。 最近提案されたマルチギャップ位相は、異なるバンド間に存在する非アベリア帯帯ノードをブレイディングして、孤立バンド部分空間内で安定なペアを誘導することによって生じるため、新しい性質が期待できる。 すなわち、a〜修飾された安定性と金属を包含しない臨界相は、基礎となる$C_2\cal{T}$または$\cal{P}\cal{T}$対称性を平均で保存する場合に生じる。 精巧な数値計算を用いて、状態の平均密度と異なる種類の障害に対する導電率の変化を評価することにより、関連するトポロジのロバスト性を検証する。 対応する量子臨界点に関するスケーリング解析を実行すると、2次元パーコレーションモデルに関連するオイラー保護位相に対して$\nu = 1.4 \pm 0.1$の局所化長指数に対して普遍性を求める。 一般に、焼成障害はオイラー半金属を臨界金属相へと誘導する。 最後に、磁気障害は、オイラー不変量の初期値から決定される局所チャーン数を用いて、量子異常ホールプラケットへの位相遷移を誘導することも示している。

We study the effect of disorder in systems having a non-trivial Euler class. As these recently proposed multi-gap topological phases come about by braiding non-Abelian charged band nodes residing between different bands to induce stable pairs within isolated band subspaces, novel properties may be expected. Namely, a~modified stability and critical phases under the unbraiding to metals can arise, when the disorder preserves the underlying $C_2\cal{T}$ or $\cal{P}\cal{T}$ symmetry on average. Employing elaborate numerical computations, we verify the robustness of associated topology by evaluating the changes in the average densities of states and conductivities for different types of disorders. Upon performing a scaling analysis around the corresponding quantum critical points we retrieve a universality for the localization length exponent of $\nu = 1.4 \pm 0.1$ for Euler-protected phases, relating to two-dimensional percolation models. We generically find that quenched disorder drives Euler semimetals into critical metallic phases. Finally, we show that magnetic disorder can also induce topological transitions to quantum anomalous Hall plaquettes with local Chern numbers determined by the initial value of the Euler invariant.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# Niel's Chess -- The Battle of the Quantum Age

Niel's Chess -- The Battle of the Quantum Age ( http://arxiv.org/abs/2306.13669v5 )

ライセンス: Link先を確認
Tamás Varga, (参考訳) 本稿では,コンピュータや他の電子機器を使わずに従来のボード上で演奏できる,チェスの量子変種を紹介した。 ゲームのルールは、従来のチェスのルールと重ね合わせや絡み合いのような重要な量子物理学効果を組み合わせることで自然に生まれる。 Niel's Chessは10歳以上、歴史的ルーツを持つ創造的なゲームをしたいと願うすべての人に推奨され、同時に、今後数十年で私たちの社会に革命をもたらすであろう量子コンピューティングや量子通信といった最先端技術に電力を供給する基本的な量子効果に関する直感を得る。

In this paper, a quantum variant of chess is introduced, which can be played on a traditional board without the need of using computers or other electronic devices. The rules of the game arise naturally by combining the rules of conventional chess with key quantum-physical effects such as superposition and entanglement. Niel's Chess is recommended for ages 10 and above, to everyone who wishes to play a creative game with historical roots and at the same time gain intuition about the foundational quantum effects that power cutting-edge technologies like quantum computing and quantum communication, which are poised to revolutionise our society in the coming decades.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# ニューラルパーセプション機構を持つPMDPのポイントベース値反復

Point-Based Value Iteration for POMDPs with Neural Perception Mechanisms ( http://arxiv.org/abs/2306.17639v2 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska, (参考訳) ニューラルネットワークと従来型のソフトウェアコンポーネントを安全クリティカルな設定で統合する傾向が強まり、形式的なモデリング、検証、コンストラクションポリシ合成のための方法論が求められている。 本稿では,ニューロ・シンボリックな部分観測可能なマルコフ決定過程 (NS-POMDPs) を導入し, エージェントがニューラル・リビジョン認知機構を用いて連続状態環境を知覚し, シンボリックな決定を行う。 知覚メカニズムは、画像やセンサ値などの入力を、意思決定に使用されるシンボルパーセプションに分類する。 NS-POMDPの累積報酬を最適化する問題について検討する。 連続状態空間を直接扱うことで、モデルの基本構造とニューラル認知機構を利用して、状態空間と値ベクトルをカバーしたポリヘドラを用いて、新しいピースワイド線形凸表現(P-PWLC)を提案し、ベルマンのバックアップをこの表現に拡張する。 本稿では,値関数の凸性と連続性を証明し,有限表現性を保証する2つの値反復アルゴリズムを提案する。 1つ目は、Porta {\em et al} (2006) の$\alpha$-functions を連続状態空間の P-PWLC 表現に拡張する古典的な(実際に)値反復アルゴリズムである。 2つ目はNS-HSVIと呼ばれる点ベース(近似)法であり、P-PWLC表現と信念値誘導関数を用いて、粒子ベースと領域ベースという2種類の信念に対して下から上の値関数を近似する。 本稿では,ReLUニューラルネットワークを知覚関数として用いた2つのケーススタディに対して,提案手法の実用性を示す。

The increasing trend to integrate neural networks and conventional software components in safety-critical settings calls for methodologies for their formal modelling, verification and correct-by-construction policy synthesis. We introduce neuro-symbolic partially observable Markov decision processes (NS-POMDPs), a variant of continuous-state POMDPs with discrete observations and actions, in which the agent perceives a continuous-state environment using a neural {\revise perception mechanism} and makes decisions symbolically. The perception mechanism classifies inputs such as images and sensor values into symbolic percepts, which are used in decision making. We study the problem of optimising discounted cumulative rewards for NS-POMDPs. Working directly with the continuous state space, we exploit the underlying structure of the model and the neural perception mechanism to propose a novel piecewise linear and convex representation (P-PWLC) in terms of polyhedra covering the state space and value vectors, and extend Bellman backups to this representation. We prove the convexity and continuity of value functions and present two value iteration algorithms that ensure finite representability. The first is a classical (exact) value iteration algorithm extending the $\alpha$-functions of Porta {\em et al} (2006) to the P-PWLC representation for continuous-state spaces. The second is a point-based (approximate) method called NS-HSVI, which uses the P-PWLC representation and belief-value induced functions to approximate value functions from below and above for two types of beliefs, particle-based and region-based. Using a prototype implementation, we show the practical applicability of our approach on two case studies that employ (trained) ReLU neural networks as perception functions, by synthesising (approximately) optimal strategies.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# CA-LoRA: 圧縮LDMに既存のLORAを適応してパーソナルデバイス上で効率的なマルチタスクを実現する

CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices ( http://arxiv.org/abs/2307.07705v3 )

ライセンス: Link先を確認
Weilin Zhao, Yuxiang Huang, Xu Han, Zhiyuan Liu, Zhengyan Zhang, Kuai Li, Chen Chen, Tao Yang, Maosong Sun, (参考訳) 近年,ノートパソコンやスマートフォンなどのパーソナルデバイスにLLM(Large Language Models)をデプロイする必要性が高まっている。 これらのLCMは、異なるタスクを扱う際に異なるモデル変異を持つ。 しかし、パーソナルデバイスはリソースが限られており、ストレージのオーバーヘッドを減らす必要がある。 1つはモデル圧縮であり、LLMを小さなサイズに圧縮し、もう1つはLoRAであり、LLMを非常に少ないパラメータで他のタスクに転送することができる。 しかし, この2つの手法を直接組み合わせた実験により, 準最適性能が得られた。 オープンソースコミュニティはすでに多くのLoRAをLLMに寄贈していることを考慮し、LLMから圧縮されたバージョンにこれらの既存のLoRAを適応させ、圧縮対応のLoRA(CA-LoRA)フレームワークを導入することを提案する。 モデル圧縮による知識の喪失を回復するために,知識の継承と回復戦略を取り入れた。 実験の結果,CA-LoRA は圧縮 LLM に適用したバニラ LoRA 法より優れており,既存の LoRA モジュールを用いた非圧縮 LLM に匹敵する性能が得られた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。

Recently, there has been a demand to deploy Large Language Models (LLMs) on personal devices such as laptops and smartphones. These LLMs have different model variants when handling different tasks. However, personal devices have limited resources and require reduced storage overhead. To address this, there are two key methods available: the first is model compression, which compresses LLMs into smaller sizes; the second is LoRA, which can transfer an LLM to other tasks with very few parameters, avoiding the storage of multiple model variants in multi-task scenarios by only preserving LoRAs. However, our experiments show that directly combining these two methods yields sub-optimal performance. Considering that the open-source community has already contributed many LoRAs to LLMs, we propose to adapt these existing LoRAs from the LLMs to their compressed version and introduce a Compression-Aware LoRA (CA-LoRA) framework. We incorporate knowledge inheritance and recovery strategies to recover the lost knowledge caused by model compression. Experiment results demonstrate that CA-LoRA outperforms the vanilla LoRA methods applied to a compressed LLM and achieves comparable performance to the non-compressed LLM with existing LoRA modules. The source code of CA-LoRA is available at https://github.com/thunlp/CA-LoRA.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# VoteLab: オンライン集団意思決定のためのモジュール的で適応的な実験プラットフォーム

VoteLab: A Modular and Adaptive Experimentation Platform for Online Collective Decision Making ( http://arxiv.org/abs/2307.10903v2 )

ライセンス: Link先を確認
Renato Kunz, Fatemeh Banaie, Abhinav Sharma, Carina I. Hausladen, Dirk Helbing, Evangelos Pournaras, (参考訳) デジタル民主主義と政策への直接デジタル参加の新たな形態は、前例のない勢いを増している。 これは特に、市民集会、参加予算、選挙における公平で包括的で合法的な集団的意思決定プロセスを促進するために設計された、優先的な投票方法と意思決定支援システムのケースである。 しかし、異なる投票方法による体系的な人間の実験は、面倒でコストがかかる。 本稿では,投票実験のモジュール化と適応設計のための,オープンソースかつ徹底的に文書化されたプラットフォームであるVoteLabを紹介する。 これは、異なる投票方法を選択することで、再利用可能なキャンペーンを視覚的にインタラクティブに構築することをサポートし、投票者はスマートフォンで登録された投票質問に簡単に答えることができる。 オンライン実験では、投票結果の整合性を調べるために、4つの投票方法と、COVID-19に関する質問を含む概念実証が使用されている。 VoteLabが複雑な投票シナリオの厳格な実験をサポートする能力を示している。

Digital democracy and new forms for direct digital participation in policy making gain unprecedented momentum. This is particularly the case for preferential voting methods and decision-support systems designed to promote fairer, more inclusive and legitimate collective decision-making processes in citizens assemblies, participatory budgeting and elections. However, a systematic human experimentation with different voting methods is cumbersome and costly. This paper introduces VoteLab, an open-source and thoroughly-documented platform for modular and adaptive design of voting experiments. It supports to visually and interactively build reusable campaigns with a choice of different voting methods, while voters can easily respond to subscribed voting questions on a smartphone. A proof-of-concept with four voting methods and questions on COVID-19 in an online lab experiment have been used to study the consistency of voting outcomes. It demonstrates the capability of VoteLab to support rigorous experimentation of complex voting scenarios.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 正規化による回帰における非パラメトリック線形特徴学習

Nonparametric Linear Feature Learning in Regression Through Regularisation ( http://arxiv.org/abs/2307.12754v4 )

ライセンス: Link先を確認
Bertille Follain, Francis Bach, (参考訳) 表現学習は、特に非パラメトリック手法がしばしば苦労する高次元データの文脈において、自動特徴選択において重要な役割を果たす。 本研究では,データの低次元線形部分空間,すなわちマルチインデックスモデルに関係する情報が存在する教師あり学習シナリオに着目した。 もしこの部分空間が知られているなら、予測、計算、解釈を大幅に強化するだろう。 この課題に対処するために,隠れた特徴をより効果的に活用することを目的とした,連立線形特徴学習と非パラメトリック関数推定の新しい手法を提案する。 提案手法は経験的リスク最小化を採用し,機能デリバティブにペナルティを付与し,汎用性を確保する。 エルミート多項式の直交性と回転不変性を利用して、RegFeaLという推定器を導入する。 代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。 我々は,本手法の予測リスクが最小限の仮定と明示的なレートの下で,最小限のリスクに高確率で収束することを確立する。 また,各種実験におけるRegFeaLの性能を示す実験結果も提供する。

Representation learning plays a crucial role in automated feature selection, particularly in the context of high-dimensional data, where non-parametric methods often struggle. In this study, we focus on supervised learning scenarios where the pertinent information resides within a lower-dimensional linear subspace of the data, namely the multi-index model. If this subspace were known, it would greatly enhance prediction, computation, and interpretation. To address this challenge, we propose a novel method for joint linear feature learning and non-parametric function estimation, aimed at more effectively leveraging hidden features for learning. Our approach employs empirical risk minimisation, augmented with a penalty on function derivatives, ensuring versatility. Leveraging the orthogonality and rotation invariance properties of Hermite polynomials, we introduce our estimator, named RegFeaL. By using alternative minimisation, we iteratively rotate the data to improve alignment with leading directions. We establish that the expected risk of our method converges in high-probability to the minimal risk under minimal assumptions and with explicit rates. Additionally, we provide empirical results demonstrating the performance of RegFeaL in various experiments.
翻訳日:2024-08-08 18:33:27 公開日:2024-08-07
# 連続量子計測電流の最初のパッセージ時間

First Passage Times for Continuous Quantum Measurement Currents ( http://arxiv.org/abs/2308.07810v3 )

ライセンス: Link先を確認
Michael J. Kewming, Anthony Kiely, Steve Campbell, Gabriel T. Landi, (参考訳) FPT(First Passage Time)は、確率過程が所望の閾値に達するのにかかる時間である。 本稿では,連続測定量子系における確率的測定電流のFPTについて述べる。 本手法は電荷検出のフルカウンティング統計と関連する電荷分解マスター方程式に基づく。 量子ジャンプ(英語版)(quantum jump unravelling)において、これはマスター方程式の結合系の形を取るが、量子拡散では量子フォッカー・プランク方程式の一種となる。 どちらの場合も、FPTは吸収境界条件を導入し、計算を極めて効率的に(かつ解析的に)行えることを示す。 フレームワークの汎用性は、2つの関連する例で示されています。 まず,FPTの信号-雑音比に束縛される量子ジャンプにおいて,最近提案された運動的不確実性関係(KURs)の厳密性について検討する。 第2に,Rabiパルスのしきい値検出器としての量子ビットの利用について検討し,検出確率を最大化するために,同時に偽陽性の発生を最小限に抑える方法を示す。

The First Passage Time (FPT) is the time taken for a stochastic process to reach a desired threshold. In this letter we address the FPT of the stochastic measurement current in the case of continuously measured quantum systems. Our approach is based on a charge-resolved master equation, which is related to the Full-Counting statistics of charge detection. In the quantum jump unravelling this takes the form of a coupled system of master equations, while for quantum diffusion it becomes a type of quantum Fokker-Planck equation. In both cases, we show that the FPT can be obtained by introducing absorbing boundary conditions, making their computation extremely efficient {and analytically tractable}. The versatility of our framework is demonstrated with two relevant examples. First, we show how our method can be used to study the tightness of recently proposed kinetic uncertainty relations (KURs) for quantum jumps, which place bounds on the signal-to-noise ratio of the FPT. Second, we study the usage of qubits as threshold detectors for Rabi pulses, and show how our method can be employed to maximize the detection probability while, at the same time, minimize the occurrence of false positives.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# サウジアラビアにおけるGoogleアカウント保有者のプライバシー認識と行動

Privacy Perceptions and Behaviors of Google Personal Account Holders in Saudi Arabia ( http://arxiv.org/abs/2308.10148v5 )

ライセンス: Link先を確認
Eman Alashwali, Lorrie Faith Cranor, (参考訳) 西洋社会ではプライバシーの認識や行動が研究されているが、非西洋社会ではこれらの問題についてはほとんど分かっていない。 このギャップを埋めるために、私たちはサウジアラビアのGoogleアカウント保有者30人に、Googleが保存した活動データに関するプライバシーの認識と行動についてインタビューした。 我々の研究は、ユーザーがWeb \& App Activity、Location History、YouTube Historyを保存できるかどうかを制御できるGoogleのActivity Controlsに焦点を当てている。 我々の結果によると、ほとんどの参加者はGoogleのデータプラクティスやアクティビティコントロールについてある程度の意識を持っているが、多くは曖昧な認識しか持っておらず、大多数は利用可能なコントロールを使用していない。 参加者が保存した活動データを見たとき、多くの人が救われたことに驚きました。 多くの参加者は、Googleが提供したサービスを改善するためにデータを使用することを容認しているが、大多数は広告目的でデータを使用することを容認できないと考えている。 サウジアラビアの参加者は、米国の研究では、プライバシー意識、態度、好み、関心、行動に類似した傾向とパターンを示しています。 我々の結果は以下の必要性を強調している。 1) ユーザに対して,アカウント登録時のプライバシ設定を通知し,ユーザに対して設定を通知し,プライバシ設定に対する意識を高める技術の改善。 2)プライバシー設定インタフェースの改善により、多くのユーザーが設定を変更するのを妨げているコストを削減する。 3)非西洋文化におけるプライバシーに関するさらなる研究。

While privacy perceptions and behaviors have been investigated in Western societies, little is known about these issues in non-Western societies. To bridge this gap, we interviewed 30 Google personal account holders in Saudi Arabia about their privacy perceptions and behaviors regarding the activity data that Google saves about them. Our study focuses on Google's Activity Controls, which enable users to control whether, and how, Google saves their Web \& App Activity, Location History, and YouTube History. Our results show that although most participants have some level of awareness about Google's data practices and the Activity Controls, many have only vague awareness, and the majority have not used the available controls. When participants viewed their saved activity data, many were surprised by what had been saved. While many participants find Google's use of their data to improve the services provided to them acceptable, the majority find the use of their data for ad purposes unacceptable. We observe that our Saudi participants exhibit similar trends and patterns in privacy awareness, attitudes, preferences, concerns, and behaviors to what has been found in studies in the US. Our results emphasize the need for: 1) improved techniques to inform users about privacy settings during account sign-up, to remind users about their settings, and to raise awareness about privacy settings; 2) improved privacy setting interfaces to reduce the costs that deter many users from changing the settings; and 3) further research to explore privacy concerns in non-Western cultures.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 異常検出のための包括的拡張フレームワーク

A Comprehensive Augmentation Framework for Anomaly Detection ( http://arxiv.org/abs/2308.15068v4 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan, (参考訳) データ拡張法は、異常検出モデルのトレーニングに一般的に統合される。 本稿では, 再建ネットワークのトレーニングに寄与する模擬異常の重要特性を分析し, 適切な組み合わせを選択的に活用して, 網羅的な枠組みを構築するとともに, 再建過程への干渉を回避し, オーバーフィッティングの問題を解消する分割トレーニング戦略を同時に提案する。 MVTec異常検出データセットを用いて行った評価は,本手法が従来の最先端手法,特にオブジェクトクラスよりも優れていることを示す。 一般化性を評価するため,本試験では,特定の種類の異常しか含まないため,多様な特徴を持つ異常を含むシミュレーションデータセットを生成し,バイアス評価を導出する可能性がある。 実験により,本手法は実世界のシナリオで発生する様々な予期せぬ異常に対して効果的に一般化できる可能性が示された。

Data augmentation methods are commonly integrated into the training of anomaly detection models. Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. The evaluations conducted on the MVTec anomaly detection dataset demonstrate that our method outperforms the previous state-of-the-art approach, particularly in terms of object classes. To evaluate generalizability, we generate a simulated dataset comprising anomalies with diverse characteristics since the original test samples only include specific types of anomalies and may lead to biased evaluations. Experimental results demonstrate that our approach exhibits promising potential for generalizing effectively to various unforeseen anomalies encountered in real-world scenarios.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 電子光学フォトニック集積回路における基本電荷ノイズ

Fundamental charge noise in electro-optic photonic integrated circuits ( http://arxiv.org/abs/2308.15404v4 )

ライセンス: Link先を確認
Junyin Zhang, Zihan Li, Johann Riemensberger, Grigory Lihachev, Guanhao Huang, Tobias J. Kippenberg, (参考訳) 熱力学的測定ノイズを理解することは、電荷キャリアのブラウン運動が限界を呈するマスファブリケート半導体センサからの熱的および光学的精度測定において重要なものであり、屈折率と長さ変動への温度変動の伝達による熱屈折性および熱弾性ノイズによって制限される原子時計の光学的基準空洞や重力波検出までである。 ここでは、突発的に帯電するキャリア密度変動が、最近出現した電子光学フォトニック集積回路において、新しいノイズ過程を引き起こすことを発見した。 ニオブ酸リチウムおよびタンタル酸リチウムフォトニック集積マイクロ共振器は、そのノイズ特性において予期せぬFlicker型(すなわち1/f^{1.2}$)のスケールを示す。 このノイズは熱力学的電荷雑音と一致しており、電気光学材料の強いポッケル効果によって電界変動が引き起こされる。 この結果から,ポッケルス集積フォトニクスの基本的限界として,超高速波長可変・低雑音レーザー,ポッケルスソリトンマイクロコム,量子トランスダクション,シャープ光,エンタングル光対生成など,古典的・量子的デバイスの性能限界を決定する上で重要な電気的ジョンソン・ニキストノイズが得られた。 同様に、この観測は、例外的な精度でメソスコピック電荷ゆらぎを探査する光学的方法を提供する。

Understanding thermodynamical measurement noise is of central importance for electrical and optical precision measurements from mass-fabricated semiconductor sensors, where the Brownian motion of charge carriers poses limits, to optical reference cavities for atomic clocks or gravitational wave detection, which are limited by thermorefractive and thermoelastic noise due to the transduction of temperature fluctuations to the refractive index and length fluctuations. Here, we discover that unexpectedly charge carrier density fluctuations give rise to a novel noise process in recently emerged electro-optic photonic integrated circuits. We show that Lithium Niobate and Lithium Tantalate photonic integrated microresonators exhibit an unexpected Flicker type (i.e. $1/f^{1.2}$) scaling in their noise properties, significantly deviating from the well-established thermorefractive noise theory. We show that this noise is consistent with thermodynamical charge noise, which leads to electrical field fluctuations that are transduced via the strong Pockels effects of electro-optic materials. Our results establish electrical Johnson-Nyquist noise as the fundamental limitation for Pockels integrated photonics, crucial for determining performance limits for both classical and quantum devices, ranging from ultra-fast tunable and low-noise lasers, Pockels soliton microcombs, to quantum transduction, squeezed light or entangled photon-pair generation. Equally, this observation offers optical methods to probe mesoscopic charge fluctuations with exceptional precision.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 複数のルートノードを用いたモンテカルロ木探索定式化によるトラス構造の離散サイズ最適化

Improved Monte Carlo tree search formulation with multiple root nodes for discrete sizing optimization of truss structures ( http://arxiv.org/abs/2309.06045v4 )

ライセンス: Link先を確認
Fu-Yao Ko, Katsuyuki Suzuki, Kazuo Yonekura, (参考訳) 本稿では,改良モンテカルロ木探索法(IMCTS)を用いた新しい強化学習アルゴリズムを提案する。 複数のルートノードを持つIMCTSには、更新プロセス、最高の報酬、加速技術、端末条件が含まれる。 更新プロセスは、最終ソリューションが見つかると、次の検索ツリーの最初のソリューションとして使用されることを意味する。 最高の報酬は、バックプロパゲーションステップで使用されます。 探索木幅を減らし,最大反復回数を減らして高速化技術を導入する。 エージェントは、端末条件が満たされるまで、様々な制約下での全構造重量を最小化するように訓練される。 そして、最適解は探索木で見つかるすべての解の最小値である。 これらの数値的な例は、エージェントが計算コストの低い最適解を見つけ、安定して最適な設計をし、多目的構造最適化や大規模構造に適していることを示している。

This paper proposes a novel reinforcement learning (RL) algorithm using improved Monte Carlo tree search (IMCTS) formulation for discrete optimum design of truss structures. IMCTS with multiple root nodes includes update process, the best reward, accelerating technique, and terminal condition. Update process means that once a final solution is found, it is used as the initial solution for next search tree. The best reward is used in the backpropagation step. Accelerating technique is introduced by decreasing the width of search tree and reducing maximum number of iterations. The agent is trained to minimize the total structural weight under various constraints until the terminal condition is satisfied. Then, optimal solution is the minimum value of all solutions found by search trees. These numerical examples show that the agent can find optimal solution with low computational cost, stably produces an optimal design, and is suitable for multi-objective structural optimization and large-scale structures.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# ハイブリッド量子古典的アプローチを用いた異種都市鉄道網における再スケジューリング問題の解法

Solving rescheduling problems in heterogeneous urban railway networks using hybrid quantum-classical approach ( http://arxiv.org/abs/2309.06763v3 )

ライセンス: Link先を確認
Mátyás Koniorczyk, Krzysztof Krawiec, Ludmila Botelho, Nikola Bešinović, Krzysztof Domino, (参考訳) 鉄道再スケジュール管理問題に対するハイブリッド量子古典的ヒューリスティックスの適用性について検討する。 与えられた問題に対して整数線型モデルを構築し、それをD-Waveの量子古典ハイブリッドソルバとCPLEXで比較する。 提案手法は,ポーランドのヘテロジニアス都市ネットワークにおいて,シングルトラックセグメントとマルチトラックセグメントの両方を含む実環境において実証され,ネットワークのオペレーターが提案する要件をすべてカバーしている。 計算結果は、現実的な鉄道シナリオにおける量子古典的ハイブリッド・ソルバの適用と利点の準備ができていることを示す。 同時に得られた解は実現可能であった。 さらに、それらは確率的(ヒューリスティックス)であるが、ディスペンサーが選択できる様々な可能なソリューションを返却することで、有効な代替手段を提供する。 そして何よりも重要なのは、古典的な解法よりも優れていることだ。

We address the applicability of hybrid quantum-classical heuristics for practical railway rescheduling management problems. We build an integer linear model for the given problem and solve it with D-Wave's quantum-classical hybrid solver as well as with CPLEX for comparison. The proposed approach is demonstrated on a real-life heterogeneous urban network in Poland, including both single- and multi-track segments and covers all the requirements posed by the operator of the network. The computational results demonstrate the readiness for application and benefits of quantum-classical hybrid solvers in the realistic railway scenario: they yield acceptable solutions on time, which is a critical requirement in a rescheduling situation. At the same time, the solutions that were obtained were feasible. Moreover, though they are probabilistic (heuristics) they offer a valid alternative by returning a range of possible solutions the dispatcher can choose from. And, most importantly, they outperform classical solvers in some cases.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 開量子系、生体物理系およびパリティ時対称材料における固有値アトラクション

Eigenvalue attraction in open quantum systems, biophysical systems, and Parity-Time symmetric materials ( http://arxiv.org/abs/2309.07943v3 )

ライセンス: Link先を確認
Pete Rigas, (参考訳) オープン量子系,生物物理系,およびパリティ時間対称材料に対する固有値アトラクションについて検討する。 実行列の固有値とその複素共役が引き寄せられるかどうかを判断するために、慣性力、固有値とその複素共役の間のアトラクション、およびスペクトル内の残りの固有値の力に依存する第二の固有値の導出式を導出する。

We investigate eigenvalue attraction for open quantum systems, biophysical systems, and for Parity-Time symmetric materials. To determine whether an eigenvalue and its complex conjugate of a real matrix attract, we derive expressions for the second derivative of eigenvalues, which is dependent upon contributions from inertial forces, attraction between an eigenvalue and its complex conjugate, as well as the force of the remaining eigenvalues in the spectrum.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# L^1$ 推定:線形推定器の最適性について

$L^1$ Estimation: On the Optimality of Linear Estimators ( http://arxiv.org/abs/2309.09129v4 )

ライセンス: Link先を確認
Leighton P. Barnes, Alex Dytso, Jingbo Liu, H. Vincent Poor, (参考訳) 雑音の観測から確率変数$X$を推定する問題を考えると、$Y = X+Z$, ここでは$Z$は標準正規であり、$L^1$フィデリティ基準の下でである。 この設定における最適ベイズ推定器が条件中央値であることはよく知られている。 この研究は、条件中央値の線型性を誘導する$X$上の唯一の先行分布がガウス分布であることを示している。 その過程で、他にもいくつかの結果が提示される。 特に、条件分布 $P_{X|Y=y}$ がすべての$y$に対して対称であるなら、$X$ はガウス分布に従わなければならない。 さらに、他の$L^p$の損失も考慮し、次の現象を観察する:$p \in [1,2]$の場合、ガウス分布は線型最適ベイズ推定器を誘導する唯一の先行分布であり、$p \in (2,\infty)$の場合、$X$上の無限に多くの先行分布は線型性を誘導することができる。 最後に、ある指数族からの条件分布につながるノイズモデルを含む拡張が提供される。

Consider the problem of estimating a random variable $X$ from noisy observations $Y = X+ Z$, where $Z$ is standard normal, under the $L^1$ fidelity criterion. It is well known that the optimal Bayesian estimator in this setting is the conditional median. This work shows that the only prior distribution on $X$ that induces linearity in the conditional median is Gaussian. Along the way, several other results are presented. In particular, it is demonstrated that if the conditional distribution $P_{X|Y=y}$ is symmetric for all $y$, then $X$ must follow a Gaussian distribution. Additionally, we consider other $L^p$ losses and observe the following phenomenon: for $p \in [1,2]$, Gaussian is the only prior distribution that induces a linear optimal Bayesian estimator, and for $p \in (2,\infty)$, infinitely many prior distributions on $X$ can induce linearity. Finally, extensions are provided to encompass noise models leading to conditional distributions from certain exponential families.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 非可逆対称性を持つ安定化器符号モデル:ストレンジフラクトン、閉じ込め、非可換および非アベリア核融合規則

A stabilizer code model with non-invertible symmetries: Strange fractons, confinement, and non-commutative and non-Abelian fusion rules ( http://arxiv.org/abs/2309.10037v4 )

ライセンス: Link先を確認
Tanay Kibe, Ayan Mukhopadhyay, Pramod Padmanabhan, (参考訳) 正方格子上の各辺にクォートを持つ安定化器符号モデルと非可逆プラケット演算子を導入する。 基底状態の縮退はトーリック符号と同様にトポロジカルであり、また電荷と磁気電荷の対からなる通常の分解励起を持つ。 しかし、新しいタイプの閉じ込められたフラクトロン励起は、隣接する顔の集合体と消滅するフラックスから構成される。 これらのフラクトンは閉じ込められ、さらに大きな構成のフラクトンは完全に動かないが、内部自由度は急上昇する。 分解励起は、これらのフラクトロニック欠陥の存在下でその性質を変化させる。 例えば、フラクトロニックな欠陥は磁気電荷を吸収し、磁気モノポールは存在するが、電荷は制限されたモビリティを取得する。 さらに、一般化された対称性によっては、あらゆる基底状態と完全な移動励起の完全なセクターを消滅させることができる。 これらの性質はすべて、積が結合的であるが可換ではない新しいタイプの \textit{non-commutative} と \textit{non-Abelian} 融合圏を通じて取得でき、(術)同値類の和として表すことができる。 一般化された非可逆対称性は、融合積が適切な恒等性を持たない非ユニタリ圏を形成するという特徴を生じる。 このモデルの変種は、分解されたフラクトン液相と、二重(磁性)弦が凝縮した相を特徴とする。

We introduce a stabilizer code model with a qutrit at every edge on a square lattice and with non-invertible plaquette operators. The degeneracy of the ground state is topological as in the toric code, and it also has the usual deconfined excitations consisting of pairs of electric and magnetic charges. However, there are novel types of confined fractonic excitations composed of a cluster of adjacent faces with vanishing flux. They manifest confinement, and even larger configurations of these fractons are fully immobile although they acquire emergent internal degrees of freedom. Deconfined excitations change their nature in presence of these fractonic defects. As for instance, fractonic defects can absorb magnetic charges making magnetic monopoles exist while electric charges acquire restricted mobility. Furthermore, some generalized symmetries can annihilate any ground state and also the full sector of fully mobile excitations. All these properties can be captured via a novel type of \textit{non-commutative} and \textit{non-Abelian} fusion category in which the product is associative but does not commute, and can be expressed as a sum of (operator) equivalence classes. Generalized non-invertible symmetries give rise to the feature that the fusion products form a non-unital category without a proper identity. We show that a variant of this model features a deconfined fracton liquid phase and a phase where the dual (magnetic) strings have condensed.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# 一般化されたブラックホールエントロピーはフォン・ノイマンエントロピーである

Generalized Black Hole Entropy is von Neumann Entropy ( http://arxiv.org/abs/2309.15897v5 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran, (参考訳) 最近、シュワルツシルト-AdSブラックホールの質量にdressした可観測物のフォン・ノイマン代数やデ・シッターの観測者がタイプIIであることが示されている。 半古典状態のフォン・ノイマンエントロピーは一般化エントロピーであることが判明した。 しかし、これらの議論は平衡状態(KMS)の存在に依存しており、例えば、重力崩壊から形成されたブラックホール、カーブラックホール、または漸近的にデ・シッター空間のブラックホールには適用されない。 本稿では, キリング地平線を持つ任意の時空上の線形場に対して, 着飾った可観測体の代数を求めるための一般的な枠組みを提案する。 定常状態(ただし必ずしも KMS ではない)の存在と解の適切な崩壊を仮定すると、着飾った可観測体の代数が常に地平線上に「局所化」されたタイプII因子を含むという構造定理が証明される。 これらの仮定は、ほとんどのケースで厳格に証明されている。 漸近的に平坦なケーラーブラックホールの外方での代数に応用すると、場はブラックホールの質量と角運動量にdressした上で、地平線上のタイプII$_{\infty}$代数と過去のヌル無限大におけるタイプI$_{\infty}$代数の積を求める。 シュワルツシルト=ド・シッター (Schwarzschild-de Sitter) では、観測者を導入するにもかかわらず、場の可観測物はブラックホールと宇宙的地平線の摂動領域に似ており、各地平線上のタイプII$_{\infty}$代数の積である。 いずれの場合も、半古典状態に対するフォン・ノイマンのエントロピーは一般化エントロピーによって与えられる。 我々の結果は、他の「有界構造」(例えば、漸近境界あるいは他のキリング地平線)が存在するすべての場合において、可観測物の代数はタイプII$_{\infty}$であり、そのような構造が存在しない場合(例えば、デ・シッター)、代数はタイプII$_{1}$であることを示している。

It was recently shown that the von Neumann algebras of observables dressed to the mass of a Schwarzschild-AdS black hole or an observer in de Sitter are Type II, and thus admit well-defined traces. The von Neumann entropies of "semi-classical" states were found to be generalized entropies. However, these arguments relied on the existence of an equilibrium (KMS) state and thus do not apply to, e.g., black holes formed from gravitational collapse, Kerr black holes, or black holes in asymptotically de Sitter space. In this paper, we present a general framework for obtaining the algebra of dressed observables for linear fields on any spacetime with a Killing horizon. We prove, assuming the existence of a stationary (but not necessarily KMS) state and suitable decay of solutions, a structure theorem that the algebra of dressed observables always contains a Type II factor "localized" on the horizon. These assumptions have been rigorously proven in most cases of interest. Applied to the algebra in the exterior of an asymptotically flat Kerr black hole, where the fields are dressed to the black hole mass and angular momentum, we find a product of a Type II$_{\infty}$ algebra on the horizon and a Type I$_{\infty}$ algebra at past null infinity. In Schwarzschild-de Sitter, despite the fact that we introduce an observer, the quantum field observables are dressed to the perturbed areas of the black hole and cosmological horizons and is the product of Type II$_{\infty}$ algebras on each horizon. In all cases, the von Neumann entropy for semiclassical states is given by the generalized entropy. Our results suggest that in all cases where there exists another "boundary structure" (e.g., an asymptotic boundary or another Killing horizon) the algebra of observables is Type II$_{\infty}$ and in the absence of such structures (e.g., de Sitter) the algebra is Type II$_{1}$.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# テンソルネットワークからのサーキット・ト・ハミルトニアンと耐故障性

Circuit-to-Hamiltonian from tensor networks and fault tolerance ( http://arxiv.org/abs/2309.16475v2 )

ライセンス: Link先を確認
Anurag Anshu, Nikolas P. Breuckmann, Quynh T. Nguyen, (参考訳) 任意の量子回路から基底状態が量子計算を符号化する局所ハミルトニアンへの写像を定義する。 以前の地図は全てファインマン・キタエフの構成に依存しており、計算ステップを追跡するために補助的な 'clock register' を導入していた。 一方、我々の構成は、時計レジスタの導入を避けるために、関連する親ハミルトニアンの射影テンソルネットワークに依存している。 これは、独立した確率ノイズを持つ量子計算のノイズバージョンのみを含む基底状態のコストが伴う。 量子フォールトトレランスを使用することで、この — 構造を堅牢なものにすることが可能です。 確率ノイズに加えて、回路深度が指数関数的に小さい状態は、逆雑音を伴う量子計算のノイズバージョンを符号化することを示した。 また、エネルギー密度が多項式的に小さい任意の「組合せ状態」が、逆雑音を伴う量子計算を符号化していることを示す。 これは、エネルギー密度が多項式的に小さい状態が同様の性質を持つことを示す証拠となる。 応用として、局所ハミルトン問題(対数的局所性を持つ)のQMA完全性の新たな証明を与え、加法誤差に対する帰納的テンソルネットワークが BQP-hard であることを示す。 また、QMA検証が対数深度で可能であるという観測と合わせて、量子PCP予想への我々の構成の影響についても論じる。

We define a map from an arbitrary quantum circuit to a local Hamiltonian whose ground state encodes the quantum computation. All previous maps relied on the Feynman-Kitaev construction, which introduces an ancillary `clock register' to track the computational steps. Our construction, on the other hand, relies on injective tensor networks with associated parent Hamiltonians, avoiding the introduction of a clock register. This comes at the cost of the ground state containing only a noisy version of the quantum computation, with independent stochastic noise. We can remedy this - making our construction robust - by using quantum fault tolerance. In addition to the stochastic noise, we show that any state with energy density exponentially small in the circuit depth encodes a noisy version of the quantum computation with adversarial noise. We also show that any `combinatorial state' with energy density polynomially small in depth encodes the quantum computation with adversarial noise. This serves as evidence that any state with energy density polynomially small in depth has a similar property. As applications, we give a new proof of the QMA-completeness of the local Hamiltonian problem (with logarithmic locality) and show that contracting injective tensor networks to additive error is BQP-hard. We also discuss the implication of our construction to the quantum PCP conjecture, combining with an observation that QMA verification can be done in logarithmic depth.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ

Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training ( http://arxiv.org/abs/2310.00920v3 )

ライセンス: Link先を確認
Fulong Ma, Xiaoyang Yan, Guoyang Zhao, Xiaojie Xu, Yuxuan Liu, Ming Liu, (参考訳) モノクロ3D物体検出は、自律運転において重要な役割を果たす。 しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。 具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。 提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。 このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。 我々はKITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。

Monocular 3D object detection plays a crucial role in autonomous driving. However, existing monocular 3D detection algorithms depend on 3D labels derived from LiDAR measurements, which are costly to acquire for new datasets and challenging to deploy in novel environments. Specifically, this study investigates the pipeline for training a monocular 3D object detection model on a diverse collection of 3D and 2D datasets. The proposed framework comprises three components: (1) a robust monocular 3D model capable of functioning across various camera settings, (2) a selective-training strategy to accommodate datasets with differing class annotations, and (3) a pseudo 3D training approach using 2D labels to enhance detection performance in scenes containing only 2D labels. With this framework, we could train models on a joint set of various open 3D/2D datasets to obtain models with significantly stronger generalization capability and enhanced performance on new dataset with only 2D labels. We conduct extensive experiments on KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling ability of the proposed method.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# オープンセット多変量時系列異常検出

Open-Set Multivariate Time-Series Anomaly Detection ( http://arxiv.org/abs/2310.12294v3 )

ライセンス: Link先を確認
Thomas Lai, Thi Kieu Khanh Ho, Narges Armanfard, (参考訳) 時系列異常検出(TSAD)のための多くの手法が近年出現しており、その多くは教師なしであり、実際のシナリオで異常なデータを取得することの難しさから、トレーニング期間中に正常なサンプルのみが利用可能であると仮定されている。 それでも、異常なデータの限られたサンプルは、しばしば利用可能であるが、起こりうる全ての異常を表わすものではない。 監視された手法は正常な異常や見かけの異常を分類するために利用することができるが、訓練中に見られる異常に過度に適応する傾向があるため、見当たらない異常に一般化することができない。 MOSAD(Multivarate Open-Set Time-Series Anomaly Detector)と呼ばれるオープンセットTSAD問題に対処する最初のアルゴリズムを提案する。 MOSADは、共有表現空間と、生成ヘッド、識別ヘッド、異常認識コントラストヘッドを含む特殊ヘッドを備えた、新しいマルチヘッドTSADフレームワークである。 後者は、従来の教師付きコントラスト学習と比較して、異常検出のための優れた表現空間を生成する。 3つの実世界のデータセットに対する大規模な実験は、TSAD分野における新しい最先端技術としてMOSADを確立する。

Numerous methods for time-series anomaly detection (TSAD) have emerged in recent years, most of which are unsupervised and assume that only normal samples are available during the training phase, due to the challenge of obtaining abnormal data in real-world scenarios. Still, limited samples of abnormal data are often available, albeit they are far from representative of all possible anomalies. Supervised methods can be utilized to classify normal and seen anomalies, but they tend to overfit to the seen anomalies present during training, hence, they fail to generalize to unseen anomalies. We propose the first algorithm to address the open-set TSAD problem, called Multivariate Open-Set Time-Series Anomaly Detector (MOSAD), that leverages only a few shots of labeled anomalies during the training phase in order to achieve superior anomaly detection performance compared to both supervised and unsupervised TSAD algorithms. MOSAD is a novel multi-head TSAD framework with a shared representation space and specialized heads, including the Generative head, the Discriminative head, and the Anomaly-Aware Contrastive head. The latter produces a superior representation space for anomaly detection compared to conventional supervised contrastive learning. Extensive experiments on three real-world datasets establish MOSAD as a new state-of-the-art in the TSAD field.
翻訳日:2024-08-08 18:23:43 公開日:2024-08-07
# オフナディア航空画像からの建物抽出のためのドメイン適応の監督

Supervised domain adaptation for building extraction from off-nadir aerial images ( http://arxiv.org/abs/2311.03867v2 )

ライセンス: Link先を確認
Bipul Neupane, Jagannath Aryal, Abbas Rajabifard, (参考訳) インベントリ管理と都市環境計画に要する$-$の構築は、トレーニングデータにおけるラベルとオフナディアソースイメージの不一致の影響を受けます。 雑音耐性畳み込みニューラルネットワーク(CNN)の教師-学生学習は、既存のソリューションであるが、学生ネットワークは通常、より精度が低く、教師のパフォーマンスを上回ることはできない。 本稿では、ノイズとクリーンなデータセット間のエンコーダ・デコーダネットワーク(EDN)の教師付きドメイン適応(SDA)を提案する。 EDNは、EfficientNet、ResNeSt、MobileViTなどの高性能軽量エンコーダで構成されている。 提案手法は,知識蒸留 (KD) や深層相互学習 (DML) といった既存の教員・学生の学習手法と,新たに開発された3つのデータセットを比較した。 これらの手法は、建物の高さと空間分解能の増大に伴い、不整合が増大する都市建物(低層、中層、高層、高層ビル)に対して評価される。 堅牢な実験設計では、43個の軽量CNN、5個のオプティマイザ、9個の損失関数、7個のEDNをベンチマークし、SDAで最高の性能のEDNを得る。 本研究から得られた最高性能EDNのSDAは, 低層, 中層, 高層, 高層ビルにおいて, 0.943, 0.868, 0.912, 0.697 F1のスコアで, KD, DMLを有意に上回った。 提案手法と実験結果は,建物抽出のための頑健なCNNの訓練に有用である。

Building extraction $-$ needed for inventory management and planning of urban environment $-$ is affected by the misalignment between labels and off-nadir source imagery in training data. Teacher-Student learning of noise-tolerant convolutional neural networks (CNNs) is the existing solution, but the Student networks typically have lower accuracy and cannot surpass the Teacher's performance. This paper proposes a supervised domain adaptation (SDA) of encoder-decoder networks (EDNs) between noisy and clean datasets to tackle the problem. EDNs are configured with high-performing lightweight encoders such as EfficientNet, ResNeSt, and MobileViT. The proposed method is compared against the existing Teacher-Student learning methods like knowledge distillation (KD) and deep mutual learning (DML) with three newly developed datasets. The methods are evaluated for different urban buildings (low-rise, mid-rise, high-rise, and skyscrapers), where misalignment increases with the increase in building height and spatial resolution. For a robust experimental design, 43 lightweight CNNs, five optimisers, nine loss functions, and seven EDNs are benchmarked to obtain the best-performing EDN for SDA. The SDA of the best-performing EDN from our study significantly outperformed KD and DML with up to 0.943, 0.868, 0.912, and 0.697 F1 scores in the low-rise, mid-rise, high-rise, and skyscrapers respectively. The proposed method and the experimental findings will be beneficial in training robust CNNs for building extraction.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# アウト・オブ・ディストリビューション対応電気自動車充電

Out-of-Distribution-Aware Electric Vehicle Charging ( http://arxiv.org/abs/2311.05941v3 )

ライセンス: Link先を確認
Tongxin Li, Chenxi Sun, (参考訳) 我々は、電気自動車(EV)にアウト・オブ・ディストリビューション(OOD)データで充電することを学ぶという課題に取り組む。 従来のスケジューリングアルゴリズムは、特にOODデータにおいて、ほぼ最適に近い平均性能と最悪のケース保証とのバランスが取れない。 モデル予測制御(MPC)は保守的すぎることが多く、データに依存しないことが多いが、強化学習(RL)は過度に攻撃的であり、データを完全に信頼する傾向にあり、常に最高の世界を達成する能力を妨げる。 このギャップを埋めるために,OOD-Chargingと呼ばれる新しいOOD対応スケジューリングアルゴリズムを導入する。 このアルゴリズムは動的「認識半径」を用いており、OODの重大さを反映した時間差差(TD)エラーに基づいてリアルタイムで更新される。 OOD-Chargingアルゴリズムは、EV充電スケジュールにおける一貫性と堅牢性のバランスをより効果的にし、現実世界の充電環境における適応性と効率を大幅に向上させる。 提案手法は,Caltech ACN-Dataにおける新型コロナウイルスによるEV充電行動の顕著な変化により,実際のOODシナリオ下でのスケジューリング報酬を確実に改善することを示す。

We tackle the challenge of learning to charge Electric Vehicles (EVs) with Out-of-Distribution (OOD) data. Traditional scheduling algorithms typically fail to balance near-optimal average performance with worst-case guarantees, particularly with OOD data. Model Predictive Control (MPC) is often too conservative and data-independent, whereas Reinforcement Learning (RL) tends to be overly aggressive and fully trusts the data, hindering their ability to consistently achieve the best-of-both-worlds. To bridge this gap, we introduce a novel OOD-aware scheduling algorithm, denoted OOD-Charging. This algorithm employs a dynamic "awareness radius", which updates in real-time based on the Temporal Difference (TD)-error that reflects the severity of OOD. The OOD-Charging algorithm allows for a more effective balance between consistency and robustness in EV charging schedules, thereby significantly enhancing adaptability and efficiency in real-world charging environments. Our results demonstrate that this approach improves the scheduling reward reliably under real OOD scenarios with remarkable shifts of EV charging behaviors caused by COVID-19 in the Caltech ACN-Data.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 制約ボソンモデルにおける創発的アシュキン・テラー臨界

Emergent Ashkin-Teller criticality in a constrained boson model ( http://arxiv.org/abs/2311.12107v3 )

ライセンス: Link先を確認
Anirudha Menon, Anwesha Chattopadhyay, K. Sengupta, Arnab Sen, (参考訳) 制約付きボソニックモデル上での明示的な計算により、サブシステム対称性の存在は、臨界点が創発的拡張対称性を示す量子位相遷移(QPT)につながることを示した。 このような遷移は、特異なギャップ化された基底状態とギャップのない状態とを分離し、後者の位相は、モデル内のサブシステム対称性の存在と結びつく、壊れた$Z_2$対称性を示す。 これらの相を分離する中間臨界点は、我々が特定する追加の創発的な$Z_2$対称性を示し、この出現は、予想されるイジングの普遍性クラスではなく、アシュキン・テラーの批判理論に繋がる。 モデルの遷移は、可変相関長指数$\nu$ を持つアスキン・テラー臨界線を再現するが、定数中心電荷$c$ であることを示す。 我々は、このシナリオを、明示的な正確な対角化計算によって検証し、そのような遷移に対して有効なランダウ・ギンズバーグ理論を提供し、また、リドバーグ原子配列を記述するPXPモデルとの接続について議論する。

We show, via explicit computation on a constrained bosonic model, that the presence of subsystem symmetries can lead to a quantum phase transition (QPT) where the critical point exhibits an emergent enhanced symmetry. Such a transition separates a unique gapped ground state from a gapless one; the latter phase exhibits a broken $Z_2$ symmetry which we tie to the presence of the subsystem symmetries in the model. The intermediate critical point separating these phases exhibits an additional emergent $Z_2$ symmetry which we identify; this emergence leads to a critical theory in the Ashkin-Teller, instead of the expected Ising, universality class. We show that the transitions of the model reproduces the Askhin-Teller critical line with variable correlation length exponent $\nu$ but constant central charge $c$. We verify this scenario via explicit exact-diagonalization computations, provide an effective Landau-Ginzburg theory for such a transition, and discuss the connection of our model to the PXP model describing Rydberg atom arrays.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# $\mathrm{XOR}^{*}$と$\mathrm{FFL}$ゲームに対する最適かつほぼ最適な量子戦略

Optimal, and approximately optimal, quantum strategies for $\mathrm{XOR}^{*}$ and $\mathrm{FFL}$ games ( http://arxiv.org/abs/2311.12887v3 )

ライセンス: Link先を確認
Pete Rigas, (参考訳) 我々は、様々な非ローカルなXORゲームに対して最適で、ほぼ最適な量子戦略を解析する。 2016年のオストロフによる以前の議論に基づいて、プレイヤーが線形汎関数を最大化して非局所的なゲームに勝つための戦略を採用できると特徴付けたAliceとBobは、ある確率分布から引き出された質問に対する各答えを検証し、AliceとBobが量子エンタングルメント、二次元資源システム、可逆変換に依存する戦略を採用する場合の量子優位性を実現するために、より広い種類の量子戦略のパフォーマンスを解析するためのフレームワークのさらなる応用を特定できる。 Fortnow-Feige-Lovasz (FFL) ゲームでは、2016 のフレームワークは、(1) 適切な非ゼロの線形変換を構築し、(2) 作用素が単位フロベニウスノルムを持ち、(3) 誤差境界を構築し、対応する近似演算を$\big(A_k \otimes \textbf{I} \big) \ket{\psi}$, and $\big( \textbf{I} \otimes \big( \frac{\pm B_{kl} + B_{lk}}{\sqrt{2}} \big) \ket{\psi}$,(4) 演算子は、A_j=i$(5) の上限で適用された順序に置換された有界であることを示す。 我々は,本フレームワークの他のゲームへの適用に読者の注意を惹きつける。

We analyze optimal, and approximately optimal, quantum strategies for a variety of non-local XOR games. Building upon previous arguments due to Ostrev in 2016, which characterized approximately optimal, and optimal, strategies that players Alice and Bob can adopt for maximizing a linear functional to win non-local games after a Referee party examines each answer to a question drawn from some probability distribution, we identify additional applications of the framework for analyzing the performance of a broader class of quantum strategies in which it is possible for Alice and Bob to realize quantum advantage if the two players adopt strategies relying upon quantum entanglement, two-dimensional resource systems, and reversible transformations. For the Fortnow-Feige-Lovasz (FFL) game, the 2016 framework is directly applicable, which consists of five steps, including: (1) constructing a suitable, nonzero, linear transformation for the intertwining operations, (2) demonstrating that the operator has unit Frobenius norm, (3) constructing error bounds, and corresponding approximate operations, for $\big( A_k \otimes \textbf{I} \big) \ket{\psi}$, and $\big( \textbf{I} \otimes \big( \frac{\pm B_{kl} + B_{lk}}{\sqrt{2}} \big) \big) \ket{\psi}$, (4) constructing additional bounds for permuting the order in which $A^{j_i}_i$ operators are applied, (5) obtaining Frobenius norm upper bounds for Alice and Bob's strategies. We draw the attention of the reader to applications of this framework in other games with less regular structure.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# フォトニックプロセッサにおける誤差緩和変動アルゴリズム

Error mitigated variational algorithm on a photonic processor ( http://arxiv.org/abs/2311.13985v2 )

ライセンス: Link先を確認
O. V. Borzenkova, G. I. Struchalin, I. Kondratyev, A. Moiseevskiy, I. V. Dyakonov, S. S. Straupe, (参考訳) 本研究は、ゼロノイズ外挿法の適用により、量子フォトニックプロセッサにおける不特定性関連ノイズの誤差低減に成功したことを示す。 異なる誤差レベルで観測可能な値を測定することで、ノイズのない状態への外挿が可能となった。 シュウィンガー・ハミルトニアンの変分量子固有解法を実装した2量子プロセッサにおける光子の偏微分可能性の影響について検討した。 本研究は,識別不能雑音の軽減とハミルトン固有値推定の精度向上に,補間法の有効性を強調した。

Our study demonstrates successful error mitigation of indistinguishability-related noise in a quantum photonic processor through the application of the zero-noise extrapolation technique. By measuring observable values at different error levels, we were able to extrapolate towards a noise-free regime. We examined the impact of partial distinguishability of photons in a two-qubit processor implementing the variational quantum eigensolver for a Schwinger Hamiltonian. Our findings highlight the effectiveness of the extrapolation technique in mitigating indistinguishability-related noise and improving the accuracy of Hamiltonian eigenvalue estimation.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# モジュラ多体量子センサ

Modular Many-Body Quantum Sensors ( http://arxiv.org/abs/2311.18319v2 )

ライセンス: Link先を確認
Chiranjib Mukhopadhyay, Abolfazl Bayat, (参考訳) 位相遷移中の量子多体系は、知覚精度の古典的超越的な向上を可能にするプローブとして提案されている。 しかし、この拡張は通常臨界点周辺の非常に狭い領域に限られる。 そこで本研究では,多体システムに複数相転移を導入するためのモジュラーアプローチを体系的に開発する。 これにより、新たに生成された位相境界を包含することで、量子化精度の領域を拡大することができる。 我々のアプローチは一般的なものであり、対称性の破れと位相量子センサーの両方に適用できる。 対称性を破るセンサでは、新たに生成された臨界点が元の普遍性クラスを継承していることが示され、単純な全磁化測定はそれらを見つけるのに十分である。 トポロジカルセンサーでは、モジュラー構造によって複数のバンドが生成され、豊かな位相図が導かれる。 どちらの場合も、ハミルトンパラメータ推定のためのハイゼンベルクスケーリングはすべての位相境界で達成される。 これは、均一なプローブを著しく上回るグローバルセンサーを作成するために利用することができる。

Quantum many-body systems undergoing phase transitions have been proposed as probes enabling beyond-classical enhancement of sensing precision. However, this enhancement is usually limited to a very narrow region around the critical point. Here, we systematically develop a modular approach for introducing multiple phase transitions in a many-body system. This naturally allows us to enlarge the region of quantum-enhanced precision by encompassing the newly created phase boundaries. Our approach is general and can be applied to both symmetry-breaking and topological quantum sensors. In symmetry-breaking sensors, we show that the newly created critical points inherit the original universality class and a simple total magnetization measurement already suffices to locate them. In topological sensors, our modular construction creates multiple bands which leads to a rich phase diagram. In both cases, Heisenberg scaling for Hamiltonian parameter estimation is achieved at all the phase boundaries. This can be exploited to create a global sensor which significantly outperforms a uniform probe.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 時間の波--アメリカ史における不連続

A ripple in time: a discontinuity in American history ( http://arxiv.org/abs/2312.01185v5 )

ライセンス: Link先を確認
Alexander Kolpakov, Igor Rivin, (参考訳) 本稿では,歴史的データセットにおける時間的(言語拡張と無関係)とパーソナリティ(著者帰属)の発見に向けた新しいアプローチを提案する。 このデータセットは比較的少量のデータで知られており、テキストの量とスタイルの多様性が高いことで知られています。 それでも私たちは、著者帰属タスクで約95%の精度を達成し、執筆日を1つの大統領任期に留めることができました。

In this technical note we suggest a novel approach to discover temporal (related and unrelated to language dilation) and personality (authorship attribution) in historical datasets. We exemplify our approach on the State of the Union speeches given by the past 42 US presidents: this dataset is known for its relatively small amount of data, and high variability of the amount and style of texts. Nevertheless we manage to achieve about 95\% accuracy on the authorship attribution task, and pin down the date of writing to a single presidential term.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 加速度MRIにおける深層学習のロバスト性:横方向トレーニングデータの有用性

Robustness of Deep Learning for Accelerated MRI: Benefits of Diverse Training Data ( http://arxiv.org/abs/2312.10271v2 )

ライセンス: Link先を確認
Kang Lin, Reinhard Heckel, (参考訳) 画像再構成のためのディープラーニングに基づく手法は、様々な画像処理タスクのための最先端技術である。 しかし、トレーニングデータが適用されたデータと大きく異なる場合、ニューラルネットワークは、しばしば悪化する。 例えば、あるスキャナー上の加速磁気共鳴イメージング(MRI)のために訓練されたモデルは、別のスキャナーでさらに悪化する。 本研究では,モデルの性能と強靭性に及ぼすトレーニングデータの影響について検討する。 異なるMRIスキャナーと解剖学から得られた様々なデータ分布の組み合わせに基づいて訓練されたモデルは、特定の目標分布に対して最適な単一分布で訓練されたモデルと同等かそれ以上の堅牢性を示す。 したがって、このような多様なデータのトレーニングは堅牢性を改善する傾向にある。 さらに、このような多様なデータセットのトレーニングは、分散性能を損なうことはない。つまり、多様なデータに基づいてトレーニングされたモデルは、より狭い個々の分布でトレーニングされたモデルと同じくらいの分散性能を得る。 この結果から,様々な分布を画像化するためのモデルの訓練は,個々の分布を分離したモデルを維持するよりも,より効果的でロバストなモデルが得られることが示唆された。

Deep learning based methods for image reconstruction are state-of-the-art for a variety of imaging tasks. However, neural networks often perform worse if the training data differs significantly from the data they are applied to. For example, a model trained for accelerated magnetic resonance imaging (MRI) on one scanner performs worse on another scanner. In this work, we investigate the impact of the training data on a model's performance and robustness for accelerated MRI. We find that models trained on the combination of various data distributions, such as those obtained from different MRI scanners and anatomies, exhibit robustness equal or superior to models trained on the best single distribution for a specific target distribution. Thus training on such diverse data tends to improve robustness. Furthermore, training on such a diverse dataset does not compromise in-distribution performance, i.e., a model trained on diverse data yields in-distribution performance at least as good as models trained on the more narrow individual distributions. Our results suggest that training a model for imaging on a variety of distributions tends to yield a more effective and robust model than maintaining separate models for individual distributions.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 新しい仕事とジェンダー : 画像生成モデルにおける社会的バイアスの測定

New Job, New Gender? Measuring the Social Bias in Image Generation Models ( http://arxiv.org/abs/2401.00763v2 )

ライセンス: Link先を確認
Wenxuan Wang, Haonan Bai, Jen-tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu, (参考訳) 画像生成モデルは、与えられたテキストから画像を生成し、編集することができる。 DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。 これらの高度なモデルは、印象的な能力にもかかわらず、しばしば巨大なインターネットデータセットで訓練されており、社会的ステレオタイプやバイアスを持続するコンテンツを生成することができ、深刻な結果をもたらす可能性がある。 画像生成モデルにおけるバイアスの評価に関する以前の研究は、限られた精度、広範囲な人的労働への依存、包括的な分析の欠如など、いくつかの欠点に悩まされている。 本稿では,画像生成モデルにおける社会的バイアスを的確に,かつ包括的に引き起こすことのできる新しい評価フレームワークであるBiasPainterを提案する。 BiasPainterは、個人のさまざまなシード画像を使用し、画像生成モデルに、性別、人種、年齢ニュートラルなクエリを使ってこれらの画像を編集するよう促す。 これらのクエリは、62の専門職、39のアクティビティ、57のオブジェクト、70のパーソナリティ特性にまたがる。 このフレームワークは、編集された画像をオリジナルのシード画像と比較し、性別、人種、年齢に関する重要な変化に焦点を当てる。 BiasPainterは、中立的なプロンプトを受ける際にこれらの特性を変更するべきではないという重要な洞察を取り入れている。 この設計に基づいて、BiasPainterは社会的偏見を誘発し、画像生成モデルの公平性を評価することができる。 我々はBiasPainterを用いて、安定拡散やMidjourneyなど、広く使われている6つの画像生成モデルを評価する。 実験の結果、BiasPainterは画像生成モデルにおける社会的バイアスをうまく引き起こせることがわかった。 人間の評価によると、BiasPainterは自動バイアス検出において90.8%の精度を達成できる。

Image generation models can generate or edit images from a given text. Recent advancements in image generation technology, exemplified by DALL-E and Midjourney, have been groundbreaking. These advanced models, despite their impressive capabilities, are often trained on massive Internet datasets, making them susceptible to generating content that perpetuates social stereotypes and biases, which can lead to severe consequences. Prior research on assessing bias within image generation models suffers from several shortcomings, including limited accuracy, reliance on extensive human labor, and lack of comprehensive analysis. In this paper, we propose BiasPainter, a novel evaluation framework that can accurately, automatically and comprehensively trigger social bias in image generation models. BiasPainter uses a diverse range of seed images of individuals and prompts the image generation models to edit these images using gender, race, and age-neutral queries. These queries span 62 professions, 39 activities, 57 types of objects, and 70 personality traits. The framework then compares the edited images to the original seed images, focusing on the significant changes related to gender, race, and age. BiasPainter adopts a key insight that these characteristics should not be modified when subjected to neutral prompts. Built upon this design, BiasPainter can trigger the social bias and evaluate the fairness of image generation models. We use BiasPainter to evaluate six widely-used image generation models, such as stable diffusion and Midjourney. Experimental results show that BiasPainter can successfully trigger social bias in image generation models. According to our human evaluation, BiasPainter can achieve 90.8% accuracy on automatic bias detection, which is significantly higher than the results reported in previous work.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 感情連鎖による大規模言語モデルの感情生成能力の向上

Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought ( http://arxiv.org/abs/2401.06836v3 )

ライセンス: Link先を確認
Zaijing Li, Gongwei Chen, Rui Shao, Yuquan Xie, Dongmei Jiang, Liqiang Nie, (参考訳) 大規模言語モデル(LLM)は、様々な感情認識タスクにおいて顕著なパフォーマンスを示しており、それによって、研究コミュニティが感情知性の可能性を探究する好奇心を喚起している。 しかし、人間の嗜好調整や感情生成評価など、感情生成タスクの分野でのいくつかの問題は未解決のままである。 本稿では,人間の感情知能ガイドラインと整合して,様々な感情生成タスクにおけるLCMの性能を高めるプラグイン・アンド・プレイ・プロンプト手法であるECoTを提案する。 ECoTの信頼性を評価するために,感情生成スコア(EGS)と呼ばれるモデルに基づく自動評価手法を提案する。 EGSは、Golemanの感情情報理論を人間の専門家のコンセンサスとして取り入れ、感情生成タスクの評価に関する新たな視点を提供する。 ECoTとESGの有効性を実験的に明らかにした。 さらに,情緒的知能の分野におけるLLMの約束についても論じ,情緒的生成タスクにおけるECoTとのLLMに関する重要な洞察を提示する。

Large Language Models (LLMs) have shown remarkable performance in various emotion recognition tasks, thereby piquing the research community's curiosity for exploring their potential in emotional intelligence. However, several issues in the field of emotional generation tasks remain unresolved, including human preference alignment and emotional generation assessment. In this paper, we propose the Emotional Chain-of-Thought (ECoT), a plug-and-play prompting method that enhances the performance of LLMs on various emotional generation tasks by aligning with human emotional intelligence guidelines. To assess the reliability of ECoT, we propose an automated model-based evaluation method called Emotional Generation Score (EGS). EGS incorporates Goleman's Emotional Intelligence Theory as a consensus of human experts, providing a new perspective on the evaluation of emotional generation tasks. Extensive experimental results demonstrate the effectiveness of ECoT and EGS. Further, we discuss the promise of LLMs in the field of emotional intelligence and present key insights into the LLMs with the ECoT in emotional generation tasks.
翻訳日:2024-08-08 18:13:59 公開日:2024-08-07
# 非凸正規化問題の厳密なサドル点を回避する

Avoiding strict saddle points of nonconvex regularized problems ( http://arxiv.org/abs/2401.09274v4 )

ライセンス: Link先を確認
Luwei Bai, Yaohua Hu, Hao Wang, Xiaoqi Yang, (参考訳) 本稿では,非凸・非滑らかなスパース最適化問題のクラスについて考察する。 2階最適条件は定常点の零点にのみ依存することを示す。 本稿では,反復再重み付き$\ell_1$アルゴリズム(DIRL$_1$)と反復再重み付き$\ell_2$(DIRL$_2$)アルゴリズム(DIRL$)の2つの繰り返し重み付き再重み付きアルゴリズムを提案する。 DIRL$_1$の場合、再重み付き$\ell_1$ subproblemは、DIRL$_1$が定常点付近の勾配降下アルゴリズムに局所的に復帰するように、サポート識別特性を持つことを示す。 DIRL$_2$ に対し、reweighted $\ell_2$ subproblem is differentiable and Lipschitz continuous everywhere の解写像を示す。 したがって、DIRL$_1$とDIRL$_2$とそれらの逆写像はリプシッツ連続であり、厳密なサドル点は不安定な不動点である。 安定多様体の定理を適用することにより、これらのアルゴリズムは厳密なサドル点の性質が仮定されるとき、ランダムに初期化される局所最小化にのみ収束することが示される。

In this paper, we consider a class of non-convex and non-smooth sparse optimization problems, which encompass most existing nonconvex sparsity-inducing terms. We show the second-order optimality conditions only depend on the nonzeros of the stationary points. We propose two damped iterative reweighted algorithms including the iteratively reweighted $\ell_1$ algorithm (DIRL$_1$) and the iteratively reweighted $\ell_2$ (DIRL$_2$) algorithm, to solve these problems. For DIRL$_1$, we show the reweighted $\ell_1$ subproblem has support identification property so that DIRL$_1$ locally reverts to a gradient descent algorithm around a stationary point. For DIRL$_2$, we show the solution map of the reweighted $\ell_2$ subproblem is differentiable and Lipschitz continuous everywhere. Therefore, the map of DIRL$_1$ and DIRL$_2$ and their inverse are Lipschitz continuous, and the strict saddle points are their unstable fixed points. By applying the stable manifold theorem, these algorithms are shown to converge only to local minimizers with randomly initialization when the strictly saddle point property is assumed.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# AI、保険、差別、不公平差別

AI, insurance, discrimination and unfair differentiation. An overview and research agenda ( http://arxiv.org/abs/2401.11892v2 )

ライセンス: Link先を確認
Marvin S. L. van Bekkum, Frederik J. Zuiderveen Borgesius, Tom Heskes, (参考訳) 保険会社はリスクを計算し、保険料を決定する。 保険会社は2つのトレンドに魅了されているようだ。 (i)まず、保険会社はAIを使用して、リスクをより正確に評価するために、より新しいタイプのデータを分析することができる。 第二に、保険会社はAIを使って個人消費者の行動をリアルタイムで監視することができる。 例えば、一部の自動車保険会社は、消費者が保険会社によって追跡され、安全に運転されることに同意した場合、割引を提供する。 この2つの傾向は多くの利点をもたらすが、社会に差別的影響を及ぼす可能性がある。 本稿では,以下の問題に焦点をあてる。 保険会社がデータ集約型保険や行動ベース保険に従えば、差別や不公平な差別にどのような影響が生じるのか。

Insurers underwrite risks: they calculate risks and decide on the insurance premium. Insurers seem captivated by two trends. (i) First, insurers could use AI for analysing more and new types of data to assess risks more precisely: data-intensive underwriting. (ii) Second, insurers could use AI to monitor the behaviour of individual consumers in real-time: behaviour-based insurance. For example, some car insurers offer a discount if the consumer agrees to being tracked by the insurer and drives safely. While the two trends bring many advantages, they may also have discriminatory effects on society. This paper focuses on the following question. Which effects related to discrimination and unfair differentiation may occur if insurers follow data-intensive underwriting and behaviour-based insurance?
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 量子タイプ:量子ビットと量子ゲートを超える

Quantum types: going beyond qubits and quantum gates ( http://arxiv.org/abs/2401.15073v4 )

ライセンス: Link先を確認
Tamás Varga, Yaiza Aragonés-Soria, Manuel Oriol, (参考訳) 量子コンピューティングは、大きな潜在的な応用を持つ成長分野である。 量子プログラムのコーディング方法を学ぶことは、量子ビットの動作方法を理解し、量子ゲートの使用を学ぶことを意味する。 これは論理ゲートとビットを使って古典的なアルゴリズムを作成するのに似ている。 すべての概念を学習した後でも、ほとんどの開発者が量子プログラミングを受け入れるのを妨げる新しいアルゴリズムを作成するのは難しい。 この記事では、高レベルの抽象化の必要性を概説し、Rhymeという開発者フレンドリーなプログラミング言語でそれらをいくつか提案する。 新しい量子型は、ビット、整数、フロート、文字、配列、文字列を含む古典型の拡張である。 このような型をコードスニペットでどのように使うかを示します。

Quantum computing is a growing field with significant potential applications. Learning how to code quantum programs means understanding how qubits work and learning to use quantum gates. This is analogous to creating classical algorithms using logic gates and bits. Even after learning all concepts, it is difficult to create new algorithms, which hinders the acceptance of quantum programming by most developers. This article outlines the need for higher-level abstractions and proposes some of them in a developer-friendly programming language called Rhyme. The new quantum types are extensions of classical types, including bits, integers, floats, characters, arrays, and strings. We show how to use such types with code snippets.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# LiRank: LinkedInの大規模産業ランキングモデル

LiRank: Industrial Large Scale Ranking Models at LinkedIn ( http://arxiv.org/abs/2402.06859v2 )

ライセンス: Link先を確認
Fedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh, (参考訳) 我々は、LinkedInの大規模ランキングフレームワークであるLiRankを紹介します。 我々は、Residual DCNを含むいくつかのモデリングの改善を公開し、有名なDCNv2アーキテクチャへの注意と残留接続を付加した。 我々は、Dense Gating、Transformers、Residual DCNを含む統一モデルを作成するために、SOTAアーキテクチャの統合とチューニングに関する洞察を共有します。 また,新たな校正手法を提案し,Deep Learning based Explor/exploit method の製作方法について述べる。 大規模ランキングモデルの効率的な生産段階提供を可能にするため、量子化と語彙圧縮を用いてモデルを訓練・圧縮する方法を詳述する。 本稿では、フィードランキング、求人推薦、広告クリックスルー率(CTR)予測といった大規模ユースケースに対するデプロイメント設定の詳細について述べる。 さまざまなA/Bテストから学んだことを,最も効果的な技術的アプローチを解明して要約する。 これらのアイデアはLinkedInの取締役会全体の相対的な指標改善に寄与している:+0.5%のフィードのメンバーセッション、+1.76%のジョブアプリケーションとレコメンデーション、+4.3%の広告CTR。 この研究が、大規模なディープランキングシステムを活用することに関心のある実践者に対して、実践的な洞察とソリューションを提供できることを願っています。

We present LiRank, a large-scale ranking framework at LinkedIn that brings to production state-of-the-art modeling architectures and optimization methods. We unveil several modeling improvements, including Residual DCN, which adds attention and residual connections to the famous DCNv2 architecture. We share insights into combining and tuning SOTA architectures to create a unified model, including Dense Gating, Transformers and Residual DCN. We also propose novel techniques for calibration and describe how we productionalized deep learning based explore/exploit methods. To enable effective, production-grade serving of large ranking models, we detail how to train and compress models using quantization and vocabulary compression. We provide details about the deployment setup for large-scale use cases of Feed ranking, Jobs Recommendations, and Ads click-through rate (CTR) prediction. We summarize our learnings from various A/B tests by elucidating the most effective technical approaches. These ideas have contributed to relative metrics improvements across the board at LinkedIn: +0.5% member sessions in the Feed, +1.76% qualified job applications for Jobs search and recommendations, and +4.3% for Ads CTR. We hope this work can provide practical insights and solutions for practitioners interested in leveraging large-scale deep ranking systems.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 次世代眼科:遠隔スマートフォンによるコンサルテーションを支援するAI対応品質評価

Next-Generation Teleophthalmology: AI-enabled Quality Assessment Aiding Remote Smartphone-based Consultation ( http://arxiv.org/abs/2402.07118v2 )

ライセンス: Link先を確認
Dhruv Srikanth, Jayang Gurung, N Satya Deepika, Vineet Joshi, Lopamudra Giri, Pravin Vaddavalli, Soumya Jana, (参考訳) 盲目やその他の眼疾患は、特にインドのような低所得国や中所得国では、世界的な健康上の問題となっている。 この点に関して、新型コロナウイルス(COVID-19)のパンデミックの間、遠隔眼科はライフラインとなり、スマートフォンベースのアイイメージングのためのGrabiアタッチメントが利用されるようになった。 しかし、ユーザキャプチャ画像の品質は不適切なままであり、臨床検査と遅延が必要であった。 本稿では,臨床医の判断を模倣した即時フィードバックによるAIによる品質評価システムを提案する。 ここでは、複雑な問題を階層的に分割し、非自明な部分に取り組み、概念の証明を示す。

Blindness and other eye diseases are a global health concern, particularly in low- and middle-income countries like India. In this regard, during the COVID-19 pandemic, teleophthalmology became a lifeline, and the Grabi attachment for smartphone-based eye imaging gained in use. However, quality of user-captured image often remained inadequate, requiring clinician vetting and delays. In this backdrop, we propose an AI-based quality assessment system with instant feedback mimicking clinicians' judgments and tested on patient-captured images. Dividing the complex problem hierarchically, here we tackle a nontrivial part, and demonstrate a proof of the concept.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 量子昇降および剥離モデルにおける測定誘起相転移

Measurement induced phase transitions in quantum raise and peel models ( http://arxiv.org/abs/2402.08605v3 )

ライセンス: Link先を確認
Eliot Heinrich, Xiao Chen, (参考訳) 古典的なアップ・アンド・ピールモデルの界面成長をエミュレートする量子回路モデルを提案する。 我々のモデルは、所定のフィードバック規則に従って適用される射影測定と交差するクリフォードユニタリゲートで構成されている。 フィードバック規則によっては,ハイブリッドランダムクリフォードシステムでは従来観測されていなかった普遍性クラス内での連続的な遷移や1次遷移を含む,いくつかの測定誘起の絡み合い遷移を行うことができる。

We present a quantum circuit model which emulates the interface growth of the classical raise-and-peel model. Our model consists of Clifford unitary gates interspersed with projective measurements, applied according to prescribed feedback rules. We numerically find via large-scale simulations that, depending on the feedback rules, the system may undergo several measurement-induced entanglement transitions, including continuous transitions within a universality class not previously observed in hybrid random Clifford systems as well as a first-order transition.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 極地空間ダウンスケーリングのための生成的逆数モデル

Generative Adversarial Models for Extreme Geospatial Downscaling ( http://arxiv.org/abs/2402.14049v2 )

ライセンス: Link先を確認
Guiye Li, Guofeng Cao, (参考訳) 気候変動の課題に対処するには、地理空間データ、特に気候と気象の変数の正確かつ高解像度なマッピングが必要である。 しかし、現状の数値気候モデル(例えば、一般的な循環モデル)のグリッド化された出力のような既存の地理空間データセットは、モデル複雑さと非常に高い計算要求のために、非常に粗い空間解像度でしか利用できない。 深層学習に基づく手法、特にGAN(Generative Adversarial Network)とその変種は、自然画像の精細化に有効であることが証明され、地理空間データセットの改善に大きな可能性を示している。 本稿では, 条件付きGANに基づく空間空間下降法について述べる。 既存のほとんどの手法と比較して、非常に低解像度の入力から高精度な気候データセットを生成することができる。 さらに重要なことは、既存の手法では無視されがちなダウンスケーリングプロセスに固有の不確かさを明示的に考慮することである。 入力が与えられた場合、1つの決定論的結果ではなく、多値な高分解能サンプルを生成することができる。 これらのサンプルは、モデルの不確実性と堅牢性の実証的な探索と推論を可能にする。 格子状気候データセット(風速と太陽照度)のケーススタディでは、大規模なスケーリング要因(最大6,4\times$)を備えたダウンスケーリングタスクにおけるフレームワークの性能を実証し、エリア・ツー・ポイント(ATP)クリグ、深部画像前処理(DIP)、拡張超高解像度生成敵ネットワーク(ESRGAN)、物理インフォームされた解像度向上GAN(PhIRE GAN)、リモートセンシング画像超高解像度(EDiffSR)の効率的な拡散モデル(EDiffSR)といった最近のダウンスケーリング手法と総合的に比較して、フレームワークの利点を強調した。

Addressing the challenges of climate change requires accurate and high-resolution mapping of geospatial data, especially climate and weather variables. However, many existing geospatial datasets, such as the gridded outputs of the state-of-the-art numerical climate models (e.g., general circulation models), are only available at very coarse spatial resolutions due to the model complexity and extremely high computational demand. Deep-learning-based methods, particularly generative adversarial networks (GANs) and their variants, have proved effective for refining natural images and have shown great promise in improving geospatial datasets. This paper describes a conditional GAN-based stochastic geospatial downscaling method that can accommodates very high scaling factors. Compared to most existing methods, the method can generate high-resolution accurate climate datasets from very low-resolution inputs. More importantly, the method explicitly considers the uncertainty inherent to the downscaling process that tends to be ignored in existing methods. Given an input, the method can produce a multitude of plausible high-resolution samples instead of one single deterministic result. These samples allow for an empirical exploration and inferences of model uncertainty and robustness. With a case study of gridded climate datasets (wind velocity and solar irradiance), we demonstrate the performances of the framework in downscaling tasks with large scaling factors (up to $64\times$) and highlight the advantages of the framework with a comprehensive comparison with commonly used and most recent downscaling methods, including area-to-point (ATP) kriging, deep image prior (DIP), enhanced super-resolution generative adversarial networks (ESRGAN), physics-informed resolution-enhancing GAN (PhIRE GAN), and an efficient diffusion model for remote sensing image super-resolution (EDiffSR).
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# S^2Former-OR:ORにおけるシーングラフ生成のためのシングルステージバイモーダルトランス

S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR ( http://arxiv.org/abs/2402.14461v2 )

ライセンス: Link先を確認
Jialun Pei, Diandian Guo, Jingyang Zhang, Manxi Lin, Yueming Jin, Pheng-Ann Heng, (参考訳) 手術手順のシーングラフ生成(SGG)は,手術室(OR)の全体的認知知性を高める上で重要である。 しかし、従来の研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。 このパイプラインは、マルチモーダル表現の学習の柔軟性を損なう可能性がある。 本研究では,SGGのマルチビュー2Dシーンと3Dポイントクラウドをエンドツーエンドで補完的に活用することを目的とした,ORにおけるSGG用シングルステージバイモーダルトランスフォーマフレームワークS^2Former-ORを提案する。 具体的には,ビュー・シンク・トランスフュージョン(View-Sync Transfusion)方式を採用し,多視点視覚情報インタラクションを促進する。 同時に、Geometry-Visual Cohesion操作は、相乗的な2Dセマンティック機能と3Dポイントクラウド機能を統合するように設計されている。 さらに、この拡張機能に基づいて、動的エンティティペアクエリとリレーショナル特性を組み込んだ新しいリレーショナルセンシティブ・トランスフォーマーデコーダを提案し、中間ステップなしでグラフ生成のためのエンティティペア関係の直接予測を可能にする。 4D-ORベンチマークにおけるS^2Former-ORの優れたSGG性能と低い計算コストを、現在のOR-SGG法、例えば3パーセントの精度向上と24.2Mのモデルパラメータと比較して検証した。 さらに,本手法を汎用的な単一段階SGG法と比較し,総合的な評価を行うため,一貫した性能向上を図った。

Scene graph generation (SGG) of surgical procedures is crucial in enhancing holistically cognitive intelligence in the operating room (OR). However, previous works have primarily relied on multi-stage learning, where the generated semantic scene graphs depend on intermediate processes with pose estimation and object detection. This pipeline may potentially compromise the flexibility of learning multimodal representations, consequently constraining the overall effectiveness. In this study, we introduce a novel single-stage bi-modal transformer framework for SGG in the OR, termed S^2Former-OR, aimed to complementally leverage multi-view 2D scenes and 3D point clouds for SGG in an end-to-end manner. Concretely, our model embraces a View-Sync Transfusion scheme to encourage multi-view visual information interaction. Concurrently, a Geometry-Visual Cohesion operation is designed to integrate the synergic 2D semantic features into 3D point cloud features. Moreover, based on the augmented feature, we propose a novel relation-sensitive transformer decoder that embeds dynamic entity-pair queries and relational trait priors, which enables the direct prediction of entity-pair relations for graph generation without intermediate steps. Extensive experiments have validated the superior SGG performance and lower computational cost of S^2Former-OR on 4D-OR benchmark, compared with current OR-SGG methods, e.g., 3 percentage points Precision increase and 24.2M reduction in model parameters. We further compared our method with generic single-stage SGG methods with broader metrics for a comprehensive evaluation, with consistently better performance achieved.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 最適励起エネルギー伝達の量子シグネチャの検討

Examining the quantum signatures of optimal excitation energy transfer ( http://arxiv.org/abs/2403.00058v2 )

ライセンス: Link先を確認
Jonah S. Peter, Raphael Holzinger, Stefan Ostermann, Susanne F. Yelin, (参考訳) 光誘起電子励起の輸送とトラップによる光ハーベスティングは、新しいエネルギー効率の量子技術の設計に基本的な関心を持つ。 量子光学モデルを用いて,コヒーレンス,絡み合い,協調散逸が励起エネルギーの輸送と捕捉に与える影響について検討する。 特に、系の量子コヒーレンスと絡み合いを最小限に抑える条件下で、エネルギー抽出の速度が最適化されることを実証する。 この発見は、乱れや高温のシステムに限らず、量子-古典遷移に伴う自発的パリティ時間-逆対称性の破れの根本的な結果であることを示す。 次に, 振動変動の影響について検討し, 協調的相互作用の存在下での非局在励起の輸送促進効果を強く強調した。 本研究は, 生体光合成アンテナ複合体の研究や, 室温量子デバイスの設計に関係のある, 脱コヒーレンスに関連するリッチで創発的な挙動を浮き彫りにしたものである。

Light-harvesting via the transport and trapping of optically-induced electronic excitations is of fundamental interest to the design of new energy efficient quantum technologies. Using a paradigmatic quantum optical model, we study the influence of coherence, entanglement, and cooperative dissipation on the transport and capture of excitation energy. In particular, we demonstrate that the rate of energy extraction is optimized under conditions that minimize the quantum coherence and entanglement of the system. We show that this finding is not limited to disordered or high temperature systems but is instead a fundamental consequence of spontaneous parity time-reversal symmetry breaking associated with the quantum-to-classical transition. We then examine the effects of vibrational fluctuations, revealing a strong dephasing assisted transport enhancement for delocalized excitations in the presence of cooperative interactions. Our results highlight the rich, emergent behavior associated with decoherence and may be relevant to the study of biological photosynthetic antenna complexes or to the design of room-temperature quantum devices.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 量子力学ハミルトニアンモンテカルロ

Quantum Dynamical Hamiltonian Monte Carlo ( http://arxiv.org/abs/2403.01775v2 )

ライセンス: Link先を確認
Owen Lockwood, Peter Weiss, Filip Aronshtein, Guillaume Verdon, (参考訳) 量子コンピューティングにおけるオープンな課題の1つは、古典的な機械学習ワークフローを加速するために量子計算を活用する有意義で実用的な方法を見つけることである。 機械学習ワークフローにおけるユビキタスな問題は、ログの確率を通してのみアクセス可能な確率分布からサンプリングすることである。 この目的のために、マルコフ・チェイン・モンテカルロ(MCMC)サンプリングのための有名なハミルトン・モンテカルロ法を拡張し、提案関数としてハイブリッド方式で量子計算を利用する。 我々の新しいアルゴリズムであるQuantum Dynamical Hamiltonian Monte Carlo (QD-HMC)は、古典的なシンプレクティック統合の提案を、デジタルまたはアナログ量子コンピュータ上の量子コヒーレントな連続空間力学のシミュレーションで置き換える。 QD-HMCは、運動量反転を伴う詳細な平衡状態を維持するなど、HMCの重要な特性を維持しつつも、ある種のシナリオにおいて古典的手法よりも多項式の高速化の可能性を秘めていることを示す。 サンプリングは様々な種類の確率的推論のコアサブルーチンであり、連続パラメータ化された空間におけるMCMCは潜在的な応用の多くのクラスをカバーするため、この研究は量子デバイスの適用範囲を広げる。

One of the open challenges in quantum computing is to find meaningful and practical methods to leverage quantum computation to accelerate classical machine learning workflows. A ubiquitous problem in machine learning workflows is sampling from probability distributions that we only have access to via their log probability. To this end, we extend the well-known Hamiltonian Monte Carlo (HMC) method for Markov Chain Monte Carlo (MCMC) sampling to leverage quantum computation in a hybrid manner as a proposal function. Our new algorithm, Quantum Dynamical Hamiltonian Monte Carlo (QD-HMC), replaces the classical symplectic integration proposal step with simulations of quantum-coherent continuous-space dynamics on digital or analogue quantum computers. We show that QD-HMC maintains key characteristics of HMC, such as maintaining the detailed balanced condition with momentum inversion, while also having the potential for polynomial speedups over its classical counterpart in certain scenarios. As sampling is a core subroutine in many forms of probabilistic inference, and MCMC in continuously-parameterized spaces covers a large-class of potential applications, this work widens the areas of applicability of quantum devices.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# ディジタルツインと土木フェーズ:導入戦略の再検討

Digital Twins and Civil Engineering Phases: Reorienting Adoption Strategies ( http://arxiv.org/abs/2403.02426v2 )

ライセンス: Link先を確認
Taiwo A. Adebiyi, Nafeezat A. Ajenifuja, Ruda Zhang, (参考訳) デジタルツイン(DT)技術は、科学と工学の様々な利害関係者に提示される約束のために、長年にわたって大きな注目を集めてきた。 その結果,DTの主題領域は様々であった。 これは製造、自動化、石油とガス、土木工学といった特定の分野と違いなく、分野固有の応用のための断片化されたアプローチにつながっている。 この点において土木産業は、DTの採用のために他の工学分野の外部技術に依存しているため、さらに不利である。 これらの拡張の結果として、DTのオペレーションとメンテナンスフェーズへの集中的な適用が増加します。 別のスペクトルでは、ビルディング・インフォメーション・モデリング(BIM)は計画・設計段階で広く利用されており、建設段階の過渡的な性質はDT導入の課題である。 本稿では,建築・工学・建設産業におけるDTのフェーズベース開発について述べる。 DTの簡潔な展示をコンセプトとして,サービスとして,そして5段階のスケールシステムを確立することで開始する。 さらに, 土木工学の各段階における従来の技術について, 系統的な文献レビューを別々に実施する。 そこで我々は,拡張センシングのためのコンピュータビジョンや,信頼性の高い統合のためのモノのインターネットといった,実現可能な技術を特定した。 究極的には、私たちは土木プロジェクトのライフサイクル全体にわたって重要なツールとしてDTを明らかにしようと試み、研究者たちは土木工学のアプリケーションにDTを統合することを求めて、よりホリスティックに考えるようにしています。

Digital twin (DT) technology has received immense attention over the years due to the promises it presents to various stakeholders in science and engineering. As a result, different thematic areas of DT have been explored. This is no different in specific fields such as manufacturing, automation, oil and gas, and civil engineering, leading to fragmented approaches for field-specific applications. The civil engineering industry is further disadvantaged in this regard as it relies on external techniques by other engineering fields for its DT adoption. A rising consequence of these extensions is a concentrated application of DT to the operations and maintenance phase. On another spectrum, Building Information Modeling (BIM) is pervasively utilized in the planning/design phase, and the transient nature of the construction phase remains a challenge for its DT adoption. In this paper, we present a phase-based development of DT in the Architecture, Engineering, and Construction industry. We commence by presenting succinct expositions on DT as a concept and as a service, and establish a five-level scale system. Furthermore, we present separately a systematic literature review of the conventional techniques employed at each civil engineering phase. In this regard, we identified enabling technologies such as computer vision for extended sensing and the Internet of Things for reliable integration. Ultimately, we attempt to reveal DT as an important tool across the entire life cycle of civil engineering projects, and nudge researchers to think more holistically in their quest for the integration of DT for civil engineering applications.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# 学習エージェントの不均一集団における道徳行動のダイナミクス

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents ( http://arxiv.org/abs/2403.04202v5 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi, (参考訳) AIシステムの安全性と整合性に関する懸念が高まり、人工知能に道徳的能力を組み込むことの重要性が強調される。 マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が発生することがある。 既存の研究の多くは、独立した学習エージェントの相互作用を研究するために、シミュレーションされた社会的ジレンマ環境に依存しているが、実際にはエージェントの社会に存在するであろう道徳的不均一性を無視する傾向がある。 例えば、異なる時点において、単一の学習エージェントは、連続主義者である相手(すなわち、時間とともに成果を最大化することに集中する)、ノルムベース(すなわち、特定の規範に適合する)、徳ベース(すなわち、異なる美徳の組み合わせを考える)と向き合うことができる。 エージェントの共同開発が集団におけるそのような道徳的不均一性によってどの程度影響を受けるかはよく理解されていない。 本稿では,道徳的に異質な集団が社会的ジレンマ設定で相互作用する学習動態について考察する。 パートナー選択機構を備えた反復囚人のジレンマ環境を用いて,集団における多様な道徳的エージェントの出現が,個々のエージェントの学習行動や集団レベルの創発的成果に与える影響について検討する。 我々は,反社会的エージェントと反社会的エージェントの非自明な相互作用を数種類観察し,ある種のモラルエージェントが,より協調的な行動に向けて利己的なエージェントを操ることができることを発見した。

Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents: a promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents; however, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., focused on maximizing outcomes over time), norm-based (i.e., conforming to specific norms), or virtue-based (i.e., considering a combination of different virtues). The extent to which agents' co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using an Iterated Prisoner's Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents' learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain types of moral agents are able to steer selfish agents towards more cooperative behavior.
翻訳日:2024-08-08 18:02:16 公開日:2024-08-07
# CodeUltraFeedback:LLM-as-a-Judgeデータセット

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences ( http://arxiv.org/abs/2403.09032v2 )

ライセンス: Link先を確認
Martin Weyssow, Aton Kamanda, Houari Sahraoui, (参考訳) 大規模言語モデル(LLM)とユーザ定義のコーディング嗜好の整合性を評価することは、LLMの出力の深い評価を必要とする困難な取り組みである。 既存のメソッドとベンチマークは、主に自動メトリクスと静的解析ツールに依存しており、ユーザ命令やLLM出力のニュアンスをキャプチャできないことが多い。 このギャップに対処するために,LLM-as-a-Judge法を用いて,LLMと符号化優先のアライメントを評価することを提案する。 このアプローチに基づいて,LLMアライメントの評価と改善を容易にするために設計された包括的データセットであるCodeUltraFeedbackを提案する。 CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。 これらの応答は、GPT-3.5を判定として用いた5つの異なるコーディング嗜好に基づいてランク付けされ、数値スコアと詳細なテキストフィードバックの両方を提供する。 CodeUltraFeedbackを解析したところ, GPT-3.5 と GPT-4 の応答は, オープンウェイト LLM の応答よりも好まれており, クローズドウェイトモデルとオープンウェイトモデルとのアライメントに有意な差があることが判明した。 そこで我々は,教師付き微調整 (SFT) とAIフィードバックからの強化学習 (RLAIF) を用いた CodeLlama-7B-Instruct の微調整へのフィードバックデータとしての CodeUltraFeedback の利用について検討した。 その結果、CodeLlama-7B-Instructモデルは、コーディングの好みに合わせて、より大きなLLMよりも優れており、オリジナルのインストラクトモデルと比較して、HumanEval+ベンチマークで機能的正確性が改善されている。 したがって、コードに対するLLMの嗜好調整のギャップを埋め、自動ソフトウェア工学におけるモデルアライメントとRLAIFのさらなる進歩のためのステージを設定します。

Evaluating the alignment of large language models (LLMs) with user-defined coding preferences is a challenging endeavour that requires a deep assessment of LLMs' outputs. Existing methods and benchmarks rely primarily on automated metrics and static analysis tools, which often fail to capture the nuances of user instructions and LLM outputs. To address this gap, we propose using the LLM-as-a-Judge methodology to evaluate the alignment of LLMs with coding preferences. Based on this approach, we present CodeUltraFeedback, a comprehensive dataset designed to facilitate the evaluation and improvement of LLM alignment. CodeUltraFeedback consists of 10,000 coding instructions, each annotated with four responses generated from a diverse pool of 14 LLMs. These responses are ranked based on five distinct coding preferences using GPT-3.5 as a judge, providing both numerical scores and detailed textual feedback. Our analysis of CodeUltraFeedback reveals that responses from GPT-3.5 and GPT-4 are generally preferred over those from open-weight LLMs, highlighting significant differences in alignment between closed and open-weight models. In turn, we explore the usage of CodeUltraFeedback as feedback data to fine-tune and align CodeLlama-7B-Instruct using supervised fine-tuning (SFT) and reinforcement learning from AI feedback (RLAIF) with direct preference optimization (DPO). The resulting aligned CodeLlama-7B-Instruct model outperforms larger LLMs in terms of alignment with coding preferences and shows improved functional correctness on the HumanEval+ benchmark compared to the original instruct model. Therefore, our contributions bridge the gap in preference tuning of LLMs for code and set the stage for further advancements in model alignment and RLAIF in automated software engineering.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# LLMを用いたゼロショット視覚認識のためのメタプロンプト

Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs ( http://arxiv.org/abs/2403.11755v3 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Leonid Karlinsky, Wei Lin, Sivan Doveh, Jakub Micorek, Mateusz Kozinski, Hilde Kuehne, Horst Possegger, (参考訳) 視覚言語モデル(VLM)のゼロショット認識能力を向上する有効な手法として,大規模言語モデル(LLM)の生成したカテゴリ固有プロンプトのプロンプトアンサンブルが出現している。 これらのカテゴリ固有のプロンプトを得るには、下流タスクのためのVLMプロンプトを生成するために、LSMに手作りのプロンプトを使用する。 しかし、これはこれらのタスク固有のプロンプトを手作業で組み立てる必要があり、それでも、関心のカテゴリに関連する様々な視覚概念やタスク固有のスタイルをカバーしていないかもしれない。 そこで本研究では,視覚認識のためのメタプロンプティング(MPVR)を提案する。 入力は、目的のタスクに関する最小限の情報と、その短い自然言語記述と関連するクラスラベルのリストの形式で、MPVRは自動的にカテゴリ固有のプロンプトの多様なセットを生成し、強力なゼロショット分類器を生成する。 MPVRは、複数のLLMとVLMでテストする際に、広く異なるドメインに属する様々な人気のあるゼロショット画像認識ベンチマークを効果的に一般化する。 例えば、MPVRは、それぞれGPTとMixtral LLMを活用して、CLIPを19.8%、CLIPを18.2%(平均で5.0%、および4.5%)ゼロショット認識改善する。

Prompt ensembling of Large Language Model (LLM) generated category-specific prompts has emerged as an effective method to enhance zero-shot recognition ability of Vision-Language Models (VLMs). To obtain these category-specific prompts, the present methods rely on hand-crafting the prompts to the LLMs for generating VLM prompts for the downstream tasks. However, this requires manually composing these task-specific prompts and still, they might not cover the diverse set of visual concepts and task-specific styles associated with the categories of interest. To effectively take humans out of the loop and completely automate the prompt generation process for zero-shot recognition, we propose Meta-Prompting for Visual Recognition (MPVR). Taking as input only minimal information about the target task, in the form of its short natural language description, and a list of associated class labels, MPVR automatically produces a diverse set of category-specific prompts resulting in a strong zero-shot classifier. MPVR generalizes effectively across various popular zero-shot image recognition benchmarks belonging to widely different domains when tested with multiple LLMs and VLMs. For example, MPVR obtains a zero-shot recognition improvement over CLIP by up to 19.8% and 18.2% (5.0% and 4.5% on average over 20 datasets) leveraging GPT and Mixtral LLMs, respectively
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# テキスト・ビデオ品質評価のための主観的アライメント・データセットとメトリクス

Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment ( http://arxiv.org/abs/2403.11956v5 )

ライセンス: Link先を確認
Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, Ning Liu, (参考訳) 生成モデルの急速な発展に伴い、AIGC(Artificial Intelligence-Generated Contents)は、日常生活において指数関数的に増加している。 このうち、テキスト・トゥ・ビデオ(T2V)世代は広く注目を集めている。 高い知覚品質のビデオを生成するための多くのT2Vモデルがリリースされているが、これらのビデオの品質を定量的に評価する方法がまだ存在しない。 この問題を解決するため,これまでで最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築した。 データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。 また、各ビデオの対応する平均意見スコアを得るための主観的研究を行う。 本稿では,T2VQA-DBに基づくテキスト・ツー・ビデオ品質評価(T2VQA)のためのトランスフォーマーモデルを提案する。 このモデルはテキスト・ビデオのアライメントとビデオの忠実度の観点から特徴を抽出し,大言語モデルの能力を活用して予測スコアを与える。 実験の結果,T2VQAは既存のT2VメトリクスとSOTAビデオ品質評価モデルより優れていた。 定量的分析により、T2VQAは主観的適応予測を行い、その効果を検証できることが示された。 データセットとコードはhttps://github.com/QMME/T2VQAで公開される。

With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives. Among them, Text-to-Video (T2V) generation has received widespread attention. Though many T2V models have been released for generating high perceptual quality videos, there is still lack of a method to evaluate the quality of these videos quantitatively. To solve this issue, we establish the largest-scale Text-to-Video Quality Assessment DataBase (T2VQA-DB) to date. The dataset is composed of 10,000 videos generated by 9 different T2V models. We also conduct a subjective study to obtain each video's corresponding mean opinion score. Based on T2VQA-DB, we propose a novel transformer-based model for subjective-aligned Text-to-Video Quality Assessment (T2VQA). The model extracts features from text-video alignment and video fidelity perspectives, then it leverages the ability of a large language model to give the prediction score. Experimental results show that T2VQA outperforms existing T2V metrics and SOTA video quality assessment models. Quantitative analysis indicates that T2VQA is capable of giving subjective-align predictions, validating its effectiveness. The dataset and code will be released at https://github.com/QMME/T2VQA.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 音声によるアニマトロニクスロボット顔表情の駆動

Driving Animatronic Robot Facial Expression From Speech ( http://arxiv.org/abs/2403.12670v3 )

ライセンス: Link先を確認
Boren Li, Hang Li, Hangxin Liu, (参考訳) アニマトロニクスロボットは、生命に似た表情を通して自然な人間とロボットの相互作用を可能にするという約束を持っている。 しかし、現実的な音声同期ロボット表現の生成は、顔のバイオメカニクスの複雑さと、応答性のある動き合成の必要性により、大きな課題を生んでいる。 本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。 提案手法の中核となるのは、線形ブレンドスキン(LBS)を統一表現として採用し、エンボディメント設計とモーション合成の両面での革新を導くことである。 LBSは、アクティベーショントポロジを通知し、人間の表情の再ターゲティングを促進し、効率的な音声駆動顔の動き生成を可能にする。 このアプローチは、1つのNvidia RTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に高度にリアルな表情を生成する能力を示す。 この分野でのさらなる研究と開発を促進するため、コードは次のように公開されている。

Animatronic robots hold the promise of enabling natural human-robot interaction through lifelike facial expressions. However, generating realistic, speech-synchronized robot expressions poses significant challenges due to the complexities of facial biomechanics and the need for responsive motion synthesis. This paper introduces a novel, skinning-centric approach to drive animatronic robot facial expressions from speech input. At its core, the proposed approach employs linear blend skinning (LBS) as a unifying representation, guiding innovations in both embodiment design and motion synthesis. LBS informs the actuation topology, facilitates human expression retargeting, and enables efficient speech-driven facial motion generation. This approach demonstrates the capability to produce highly realistic facial expressions on an animatronic face in real-time at over 4000 fps on a single Nvidia RTX 4090, significantly advancing robots' ability to replicate nuanced human expressions for natural interaction. To foster further research and development in this field, the code has been made publicly available at: \url{https://github.com/library87/OpenRoboExp}.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 視点軌道規則化による姿勢認識型自己教師付き学習

Pose-Aware Self-Supervised Learning with Viewpoint Trajectory Regularization ( http://arxiv.org/abs/2403.14973v2 )

ライセンス: Link先を確認
Jiayun Wang, Yubei Chen, Stella X. Yu, (参考訳) ラベルのない画像から視覚的特徴を学ぶことは、しばしば認識不変性を達成するために、同じオブジェクトの異なる$views$を同じ特徴にマッピングすることで、意味的分類に成功している。 しかし、視覚的認識は、$what$が提示されているオブジェクトを識別するだけでなく、$how$が提示されていることを理解します。 例えば、横から車と正面から車を見ることは、立ち止まるか、道から飛び出すかを決めるのに不可欠だ。 下流視点推論のための教師なし機能学習は重要であるが、標準化された評価方法とベンチマークが欠如していることもあって、未探索のままである。 本稿では,視点軌跡から得られた隣接画像三重項のデータセットについて,意味やポーズのラベルを使わずに紹介する。 同じ視覚的特徴に対して意味分類とポーズ推定の精度をベンチマークする。 さらに,未ラベル画像三重項からの学習特徴に対する視点軌道正則化損失を提案する。 提案手法は, オブジェクトの識別を符号化し, オブジェクトをポーズによって整理する視覚表現の開発に有効であり, 意味分類の精度を維持しつつ, 創発的グローバルポーズ認識を実現し, 新規オブジェクトへのより良い一般化を実現する。 データセットとコードはhttp://pwang.pw/trajSSL/.com/で公開しています。

Learning visual features from unlabeled images has proven successful for semantic categorization, often by mapping different $views$ of the same object to the same feature to achieve recognition invariance. However, visual recognition involves not only identifying $what$ an object is but also understanding $how$ it is presented. For example, seeing a car from the side versus head-on is crucial for deciding whether to stay put or jump out of the way. While unsupervised feature learning for downstream viewpoint reasoning is important, it remains under-explored, partly due to the lack of a standardized evaluation method and benchmarks. We introduce a new dataset of adjacent image triplets obtained from a viewpoint trajectory, without any semantic or pose labels. We benchmark both semantic classification and pose estimation accuracies on the same visual feature. Additionally, we propose a viewpoint trajectory regularization loss for learning features from unlabeled image triplets. Our experiments demonstrate that this approach helps develop a visual representation that encodes object identity and organizes objects by their poses, retaining semantic classification accuracy while achieving emergent global pose awareness and better generalization to novel objects. Our dataset and code are available at http://pwang.pw/trajSSL/.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 修正推定誤差に対するユーザレベルDP構成によるプライバシ損失の改善

Improving the Privacy Loss Under User-Level DP Composition for Fixed Estimation Error ( http://arxiv.org/abs/2405.06261v2 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, (参考訳) 本稿では、データセットのいくつかの不整合部分集合の統計のプライベートリリースについて考察する。 特に、サンプル平均の$\epsilon$-user-level差分的リリースとデータセットの非結合部分集合におけるサンプル値のばらつきを、潜在的に逐次的に検討する。 ユーザレベルのプライバシの下でのプライバシ損失の従来の分析では、非結合サブセットへのクエリの構成は、非結合サブセットの総数によるプライバシー損失の減少を必要とする。 我々の主な貢献は、ユーザのコントリビューションの抑制に基づく反復的アルゴリズムであり、これは、標準ラプラス機構の下での全体的なプライバシー損失の減少を減らし、サブセット間で最悪の推定誤差を増大させないことを目的としている。 本分析の重要要素は, サンプル平均および分散量の推定器の感度の正確な, 分析的特性, 最悪の偏差誤差であり, ユーザの貢献をクリップしたり抑制したりすることで得られる。 実世界および合成データセット上でのアルゴリズムの性能を検証し、固定推定誤差に対するプライバシー損失劣化係数の改善を実証する。 また、各サブセットに寄与する固定数のユーザに対して、自然な最適化手順を通じて、サブセット間の最悪のエラーの改善を示す。

This paper considers the private release of statistics of several disjoint subsets of a datasets. In particular, we consider the $\epsilon$-user-level differentially private release of sample means and variances of sample values in disjoint subsets of a dataset, in a potentially sequential manner. Traditional analysis of the privacy loss under user-level privacy due to the composition of queries to the disjoint subsets necessitates a privacy loss degradation by the total number of disjoint subsets. Our main contribution is an iterative algorithm, based on suppressing user contributions, which seeks to reduce the overall privacy loss degradation under a canonical Laplace mechanism, while not increasing the worst estimation error among the subsets. Important components of this analysis are our exact, analytical characterizations of the sensitivities and the worst-case bias errors of estimators of the sample mean and variance, which are obtained by clipping or suppressing user contributions. We test the performance of our algorithm on real-world and synthetic datasets and demonstrate improvements in the privacy loss degradation factor, for fixed estimation error. We also show improvements in the worst-case error across subsets, via a natural optimization procedure, for fixed numbers of users contributing to each subset.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 動的ユーザ参加によるフェデレーション・アンラーニングにおけるデータプライバシの保証

Guaranteeing Data Privacy in Federated Unlearning with Dynamic User Participation ( http://arxiv.org/abs/2406.00966v2 )

ライセンス: Link先を確認
Ziyao Liu, Yu Jiang, Weifeng Jiang, Jiale Guo, Jun Zhao, Kwok-Yan Lam, (参考訳) フェデレート・アンラーニング(FU)は、訓練されたグローバルなFLモデルから、フェデレート・ラーニング(FL)ユーザーのデータの影響を排除する能力で有名になっている。 単純なFUメソッドでは、未学習のユーザを削除し、その後、残りのすべてのユーザとスクラッチから新しいグローバルFLモデルをトレーニングする。 非学習効率を高めるため、広く採用されている戦略では、FLユーザをクラスタに分割し、各クラスタが独自のFLモデルを維持している。 最終的な推論は、これらのサブモデルの推論から過半数の投票を集約することで決定される。 これにより、未学習プロセスを個々のクラスタに閉じ込めてユーザを除去し、未学習の効率を高める。 しかし、現在のクラスタリングベースのFUスキームは、学習効率を高めるためにクラスタリングの精細化に重点を置いているが、FLユーザの勾配からの情報漏洩の可能性を見落としている。 通常、各クラスタにセキュアアグリゲーション(SecAgg)スキームを統合することで、プライバシ保護FUが容易になる。 それでも、SecAggスキームをシームレスに組み込んだクラスタリング方法論の構築は、特に敵ユーザや動的ユーザを含むシナリオでは難しい。 本稿では,SecAggプロトコルをクラスタリングをベースとした,最も広く使用されているフェデレーションアンラーニングスキームに統合して,動的ユーザ参加を効果的に管理しながらプライバシの確保を目的とした,プライバシ保護型FUフレームワークの確立を体系的に検討する。 総合的な理論的評価と実験結果から,提案手法は,ユーザの参加状況に応じて,プライバシー保護とレジリエンスの向上とともに,同等の非学習効果を達成できることが示された。

Federated Unlearning (FU) is gaining prominence for its capability to eliminate influences of Federated Learning (FL) users' data from trained global FL models. A straightforward FU method involves removing the unlearned users and subsequently retraining a new global FL model from scratch with all remaining users, a process that leads to considerable overhead. To enhance unlearning efficiency, a widely adopted strategy employs clustering, dividing FL users into clusters, with each cluster maintaining its own FL model. The final inference is then determined by aggregating the majority vote from the inferences of these sub-models. This method confines unlearning processes to individual clusters for removing a user, thereby enhancing unlearning efficiency by eliminating the need for participation from all remaining users. However, current clustering-based FU schemes mainly concentrate on refining clustering to boost unlearning efficiency but overlook the potential information leakage from FL users' gradients, a privacy concern that has been extensively studied. Typically, integrating secure aggregation (SecAgg) schemes within each cluster can facilitate a privacy-preserving FU. Nevertheless, crafting a clustering methodology that seamlessly incorporates SecAgg schemes is challenging, particularly in scenarios involving adversarial users and dynamic users. In this connection, we systematically explore the integration of SecAgg protocols within the most widely used federated unlearning scheme, which is based on clustering, to establish a privacy-preserving FU framework, aimed at ensuring privacy while effectively managing dynamic user participation. Comprehensive theoretical assessments and experimental results show that our proposed scheme achieves comparable unlearning effectiveness, alongside offering improved privacy protection and resilience in the face of varying user participation.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 超対称性の新しい一般化:量子 $\mathbb{Z}_2^2$-オシレータとその「スーパー化」

A Novel Generalisation of Supersymmetry: Quantum $\mathbb{Z}_2^2$-Oscillators and their `superisation' ( http://arxiv.org/abs/2406.19103v2 )

ライセンス: Link先を確認
Andrew James Bruce, (参考訳) 我々は、$\mathbb{Z}_2^2$-超対称量子系の非常に単純な玩具モデルを提案し、クラインの構成を通して、このシステムを追加の$\mathbb{Z}_2^2$-階調を持つ$N=2$超対称系として理解する方法を示す。 すなわち、可換化/反可換化規則は標準的なボソン/フェルミオン規則によって定義されるが、システムには基礎となる$\mathbb{Z}_2^2$グレーディングがあり、考慮する必要がある。

We propose a very simple toy model of a $\mathbb{Z}_2^2$-supersymmetric quantum system and show, via Klein's construction, how to understand the system as being an $N=2$ supersymmetric system with an extra $\mathbb{Z}_2^2$-grading. That is, the commutation/anticommutation rules are defined via the standard boson/fermion rules, but the system still has an underlying $\mathbb{Z}_2^2$-grading that needs to be taken into account.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# てんかん診断における脳波超解像の時空間適応拡散モデル

Spatio-Temporal Adaptive Diffusion Models for EEG Super-Resolution in Epilepsy Diagnosis ( http://arxiv.org/abs/2407.03089v3 )

ライセンス: Link先を確認
Tong Zhou, Shuqiang Wang, (参考訳) 脳波(EEG)技術、特に高密度脳波(HD EEG)デバイスは神経科学などの分野で広く使われている。 HD EEGデバイスは、頭皮により多くの電極を配置することで脳波の空間分解能を改善し、てんかん焦点定位などの臨床診断応用の要件を満たす。 しかし、この手法は、高い取得コストや限られた利用シナリオといった課題に直面している。 本稿では,低分解能(LR,64チャンネル以下)の脳波から高分解能(HR,256チャンネル以下)の脳波への空間SR再構成を実現するために,時空間適応拡散モデル(STADM)を提案する。 具体的には、LR EEGの時空間的特徴を抽出するために時空間時空間モジュールを設計し、その後条件入力として機能し、拡散モデルの逆復調過程を導出する。 さらに,マルチスケールトランスフォーマーデノゲーションモジュールを構築し,マルチスケールの畳み込みブロックとクロスアテンションベースの拡散トランスフォーマーブロックを利用して条件付き誘導を行い,主観適応型SREEGを生成する。 実験により,提案手法はLR EEGの空間分解能を効果的に向上し,既存の手法を定量的に上回ることを示した。 さらに、STADMは、てんかん患者の分類およびソースローカライゼーションタスクに合成SR脳波を適用し、LR脳波の空間分解能を著しく向上させる可能性を示した。

Electroencephalogram (EEG) technology, particularly high-density EEG (HD EEG) devices, is widely used in fields such as neuroscience. HD EEG devices improve the spatial resolution of EEG by placing more electrodes on the scalp, meeting the requirements of clinical diagnostic applications such as epilepsy focus localization. However, this technique faces challenges such as high acquisition costs and limited usage scenarios. In this paper, spatio-temporal adaptive diffusion models (STADMs) are proposed to pioneer the use of diffusion models for achieving spatial SR reconstruction from low-resolution (LR, 64 channels or fewer) EEG to high-resolution (HR, 256 channels) EEG. Specifically, a spatio-temporal condition module is designed to extract the spatio-temporal features of LR EEG, which then serve as conditional inputs to guide the reverse denoising process of diffusion models. Additionally, a multi-scale Transformer denoising module is constructed to leverage multi-scale convolution blocks and cross-attention-based diffusion Transformer blocks for conditional guidance to generate subject-adaptive SR EEG. Experimental results demonstrate that the proposed method effectively enhances the spatial resolution of LR EEG and quantitatively outperforms existing methods. Furthermore, STADMs demonstrate their value by applying synthetic SR EEG to classification and source localization tasks of epilepsy patients, indicating their potential to significantly improve the spatial resolution of LR EEG.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# トレーディング・デビル・ファイナル:株式市場によるバックドア攻撃とベイズ最適化

Trading Devil Final: Backdoor attack via Stock market and Bayesian Optimization ( http://arxiv.org/abs/2407.14573v2 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 生成人工知能の出現以来、あらゆる企業や研究者が、商業的であろうとなかろうと、独自の生成モデルの開発を急いできた。 これらの強力な新ツールのユーザ数を考えると、LLM(大規模言語モデル)が学習した時に何が起こるかを説明するための、本質的に検証可能な方法は今のところありません。 例えば,Webから収集した膨大な量のデータに頼って高速かつ効率的な結果を得る自動音声認識システムでは,音響データ中毒に基づくMarketBackFinal 2.0と呼ばれるバックドアアタックが開発され,MarketBackFinal 2.0は主に現代の株式市場モデルに基づいている。 LLMに依存する可能性のある音声ベースのトランスフォーマーの脆弱性を示す。

Since the advent of generative artificial intelligence, every company and researcher has been rushing to develop their own generative models, whether commercial or not. Given the large number of users of these powerful new tools, there is currently no intrinsically verifiable way to explain from the ground up what happens when LLMs (large language models) learn. For example, those based on automatic speech recognition systems, which have to rely on huge and astronomical amounts of data collected from all over the web to produce fast and efficient results, In this article, we develop a backdoor attack called MarketBackFinal 2.0, based on acoustic data poisoning, MarketBackFinal 2.0 is mainly based on modern stock market models. In order to show the possible vulnerabilities of speech-based transformers that may rely on LLMs.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# MMInstruct: 広範囲な多様性を持つ高品質なマルチモーダルインストラクションチューニングデータセット

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity ( http://arxiv.org/abs/2407.15838v2 )

ライセンス: Link先を確認
Yangzhou Liu, Yue Cao, Zhangwei Gao, Weiyun Wang, Zhe Chen, Wenhai Wang, Hao Tian, Lewei Lu, Xizhou Zhu, Tong Lu, Yu Qiao, Jifeng Dai, (参考訳) VLLM(Vision Large Language Models)の性能向上には,視覚言語指導による微調整の有効性があった。 1) 指示アノテーションの品質: 既存のVLLMは高い性能を示すが、これらの先進的なVLLMによって生成された命令は、幻覚などの不正確さに悩まされる可能性がある。 2)インストラクションと画像の多様性:限られた種類の命令と、画像データの多様性の欠如は、モデルが現実のシナリオ出力に近づいた多様で多様なシナリオを生成する能力に影響を及ぼす可能性がある。 これらの課題に対処するため、24ドメインの973K命令からなる高品質で多様な視覚的命令チューニングデータセットMMInstructを構築した。 命令タイプは4種類あり、判定、複数選択、ロングビジュアル質問回答、ショートビジュアル質問回答である。 MMInstructを構築するために, GPT-4V, GPT-3.5, 手動補正を利用する命令生成データエンジンを提案する。 命令生成エンジンは,手作業のコストの1/6で半自動,低コスト,マルチドメインの命令生成を可能にする。 大規模な実験検証とアブレーション実験により,MMInstruct は VLLM の性能を著しく向上させることができることを実証した。 コードとデータはhttps://github.com/yuecao0119/MMInstruct.comから入手できる。

Despite the effectiveness of vision-language supervised fine-tuning in enhancing the performance of Vision Large Language Models (VLLMs). However, existing visual instruction tuning datasets include the following limitations: (1) Instruction annotation quality: despite existing VLLMs exhibiting strong performance, instructions generated by those advanced VLLMs may still suffer from inaccuracies, such as hallucinations. (2) Instructions and image diversity: the limited range of instruction types and the lack of diversity in image data may impact the model's ability to generate diversified and closer to real-world scenarios outputs. To address these challenges, we construct a high-quality, diverse visual instruction tuning dataset MMInstruct, which consists of 973K instructions from 24 domains. There are four instruction types: Judgement, Multiple-Choice, Long Visual Question Answering and Short Visual Question Answering. To construct MMInstruct, we propose an instruction generation data engine that leverages GPT-4V, GPT-3.5, and manual correction. Our instruction generation engine enables semi-automatic, low-cost, and multi-domain instruction generation at 1/6 the cost of manual construction. Through extensive experiment validation and ablation experiments, we demonstrate that MMInstruct could significantly improve the performance of VLLMs, e.g., the model fine-tuning on MMInstruct achieves new state-of-the-art performance on 10 out of 12 benchmarks. The code and data shall be available at https://github.com/yuecao0119/MMInstruct.
翻訳日:2024-08-08 17:50:17 公開日:2024-08-07
# 欠落ラベルを用いた複数ラベル画像認識のためのテキストレギュレーションマッチング

Text-Region Matching for Multi-Label Image Recognition with Missing Labels ( http://arxiv.org/abs/2407.18520v2 )

ライセンス: Link先を確認
Leilei Ma, Hongxing Xie, Lei Wang, Yanping Fu, Dengdi Sun, Haifeng Zhao, (参考訳) 近年,大規模ビジュアル言語事前訓練(VLP)モデルでは,下流タスクにまたがる顕著なパフォーマンスが示されている。 これらの進歩に触発されて、VLPプロンプトチューニング技術を活用して、ラベルを欠いたマルチラベル画像認識において先駆的な取り組みが生まれている。 しかし、複雑なセマンティクスのギャップやマルチラベル画像のラベルの欠如のため、テキストや視覚機能とよく一致しないことが多い。 この課題に対処するために, 意味のあるクロスモーダルマッチングを向上するための新しい手法である TRM-ML という, 即時チューニングを最適化するための \textbf{T}ext-\textbf{R}egion \textbf{M}atching を提案する。 既存の手法と比較して,画像や画素全体ではなくカテゴリ認識領域の情報を探究することを提唱し,テキストと視覚のセマンティックなギャップを1対1で埋めることに寄与する。 同時に,テキストと視覚のセマンティックなギャップを狭め,クラス内およびクラス間関係を確立するために,マルチモーダルコントラスト学習を導入する。 また,ラベルの欠落に対処するために,カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知ラベルを推定し,擬似ラベル生成を容易にするマルチモーダルカテゴリのプロトタイプを提案する。 MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, CUB-200-211ベンチマークデータセットの大規模な実験により, 提案したフレームワークは最先端の手法よりも大幅に優れていることが示された。 私たちのコードはここで利用可能です。

Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose \textbf{T}ext-\textbf{R}egion \textbf{M}atching for optimizing \textbf{M}ulti-\textbf{L}abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here\href{https://github.com/yu-gi-oh-leilei/TRM-ML}{\raisebox{-1pt}{\faGithub}}.
翻訳日:2024-08-08 17:40:15 公開日:2024-08-07
# コントラスト表現を用いた音声分類におけるロバスト・ファウショット・インクリメンタル・ラーニング

Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation ( http://arxiv.org/abs/2407.19265v2 )

ライセンス: Link先を確認
Riyansha Singh, Parinita Nema, Vinod K Kurmi, (参考訳) 機械学習アプリケーションでは、特にリアルタイム分析にインクリメンタルな学習が不可欠であるオーディオ処理において、漸進的なデータ入力が一般的である。 少数のクラスインクリメンタルな学習は、限られた受信データから生じる課題に対処する。 既存の手法は、しばしば追加のトレーニング可能なコンポーネントを統合するか、あるいはベースセッションでトレーニング後の固定埋め込み抽出器を頼りにすることで、破滅的な忘れ物やモデルオーバーフィッティングの危険性に関する懸念を軽減する。 しかし、ベースセッショントレーニング中に単独でクロスエントロピーロスを使用することは、オーディオデータに最適である。 そこで本研究では,教師付きコントラスト学習を取り入れて表現空間を洗練させ,識別力を高め,段階的なクラスをシームレスに統合しやすくすることで,より高度な一般化を実現することを提案する。 100のクラスを持つNSynthおよびLibriSpeechデータセットと50と10のクラスを持つESCデータセットの実験結果は、最先端のパフォーマンスを示している。

In machine learning applications, gradual data ingress is common, especially in audio processing where incremental learning is vital for real-time analytics. Few-shot class-incremental learning addresses challenges arising from limited incoming data. Existing methods often integrate additional trainable components or rely on a fixed embedding extractor post-training on base sessions to mitigate concerns related to catastrophic forgetting and the dangers of model overfitting. However, using cross-entropy loss alone during base session training is suboptimal for audio data. To address this, we propose incorporating supervised contrastive learning to refine the representation space, enhancing discriminative power and leading to better generalization since it facilitates seamless integration of incremental classes, upon arrival. Experimental results on NSynth and LibriSpeech datasets with 100 classes, as well as ESC dataset with 50 and 10 classes, demonstrate state-of-the-art performance.
翻訳日:2024-08-08 17:40:15 公開日:2024-08-07
# 外部層によるプロンプト学習の促進

Advancing Prompt Learning through an External Layer ( http://arxiv.org/abs/2407.19674v3 )

ライセンス: Link先を確認
Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian, (参考訳) Prompt Learningは、事前学習された視覚言語モデル(VLM)を、テキスト埋め込みの集合を学習することで、様々な下流タスクに適応するための有望な方法である。 これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。 このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。 このジレンマに対処するために,新規な外部層(EnLa)を備えたEnPromptというパラダイムを提案する。 具体的には,VLMを下流タスクに適用するためのテキスト外部層と学習可能な視覚埋め込みを提案する。 学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。 この設計は2つのブランチ間の学習能力のバランスを考慮する。 テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。 一 視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。 ii) この2つのモード間の相互作用を強化するために, 新たな強化機能を導入する。 15データセットにわたる4つの代表的な実験(ベース・ツー・ノーベルの一般化、少数ショットの学習、クロスデータセットの一般化、ドメインシフトの一般化)は、我々の手法が既存の素早い学習法より優れていることを示す。

Prompt learning represents a promising method for adapting pre-trained vision-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we propose a paradigm called EnPrompt with a novel External Layer (EnLa). Specifically, we propose a textual external layer and learnable visual embeddings for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introduce a novel strengthening feature to enhance the interaction between these two modalities. Four representative experiments (i.e., base-to-novel generalization, few-shot learning, cross-dataset generalization, domain shifts generalization) across 15 datasets demonstrate that our method outperforms the existing prompt learning method.
翻訳日:2024-08-08 17:40:15 公開日:2024-08-07
# 非エルミートアンダーソン不純物モデルにおける散逸の相関

Correlation versus Dissipation in a Non-Hermitian Anderson Impurity Model ( http://arxiv.org/abs/2408.03494v1 )

ライセンス: Link先を確認
Kazuki Yamamoto, Masaya Nakagawa, Norio Kawakami, (参考訳) 単体損失を持つ非エルミート・アンダーソン不純物モデルに対するスレーブ・ボソン理論を開発することにより,近藤政権から原子価変動体制への量子不純物系の強い相関と散逸の競合を分析する。 特に、非エルミート近藤政権においては、有効一体損失を抑制し、複素数値ハイブリッド化を特徴とする創発多体散逸が生じる再正規化効果により、散逸の質を定性的に変化させる強い相関が生じる。 我々は、この再正規化効果に基づいて、近藤状態の散逸性量子相転移のメカニズムを明らかにし、不純物の損失に対する寿命を反故意に増強する。 また,非エルミート的近藤政権から,単体散逸が支配する原子価変動体制へのクロスオーバーも見いだす。 我々の結果は、電子リードに結合した量子ドットや超低温フェルミガスの量子点接触など、様々な設定でテストできる。

We analyze the competition between strong correlations and dissipation in quantum impurity systems from the Kondo regime to the valence fluctuation regime by developing a slave-boson theory for a non-Hermitian Anderson impurity model with one-body loss. Notably, in the non-Hermitian Kondo regime, strong correlations qualitatively change the nature of dissipation through renormalization effects, where the effective one-body loss is suppressed and emergent many-body dissipation characterized by the complex-valued hybridization is generated. We unveil the mechanism of a dissipative quantum phase transition of the Kondo state on the basis of this renormalization effect, which counterintuitively enhances the lifetime of the impurity against loss. We also find a crossover from the non-Hermitian Kondo regime to the valence fluctuation regime dominated by one-body dissipation. Our results can be tested in a wide variety of setups such as quantum dots coupled to electronic leads and quantum point contacts in ultracold Fermi gases.
翻訳日:2024-08-08 17:40:15 公開日:2024-08-07
# 機械学習によるInAs/GaAs量子ドットヘテロ構造の非教師的・自律的マルチステップ成長

Unsupervised, Self-driving Multi-Step Growth of InAs/GaAs Quantum Dots Heterostructures Guided by Machine Learning ( http://arxiv.org/abs/2408.03508v1 )

ライセンス: Link先を確認
Chao Shen, Wenkang Zhan, Hongyu Sun, Kaiyao Xin, Bo Xu, Zhanguo Wang, Chao Zhao, (参考訳) 半導体産業は、複雑な多段階プロセスの高速化を可能にするクローズドループ、自律的な実験によって繰り返しタスクの自動化を優先している。 機械学習(ML)の出現は、人間の介入を最小限に抑えて自動化プロセスに定着した。 本研究では,マルチステップで分子線エピタキシー(MBE)成長を実行し,連続的なその場監視とオンザフライフィードバック制御が可能な自動運転自動化プラットフォームであるSemiEpiを開発した。 標準的なハードウェア、自家製ソフトウェア、カーブフィッティング、および複数のMLモデルを統合することで、SemiEpiは自律的に動作し、最適な結果を達成するためにMBEプロセスの広範な専門知識を不要にする。 プラットフォームは以前の実験結果から積極的に学び、望ましい条件を特定し、望ましい結果を達成するために新しい実験を提案する。 InAs/GaAs量子ドット(QD)ヘテロ構造の成長を標準化し、最適化し、ML誘導マルチステップ成長のパワーを示す。 初期成長条件を得るために温度校正を行い, MLを用いてプロセスの微粒化制御を行った。 成長中に得られたRHEED映画を活用して、SemiEpiはマルチステップヘテロ構造成長のための新しい経路を特定し、最適化した。 この研究は、任意のデバイスにおけるマルチステップ成長における課題に対処する、クローズドループ、ML誘導システムの能力を示す。 本手法は, 商業的にスケーラブルなツールを用いて, 繰り返し可能な材料成長を実現するために重要である。 当社の戦略は,成長パラメータの徹底的な知識がなくても,ハードウェアに依存しないプロセスの開発を促進し,プロセスの再現性と安定性を向上させる。

The semiconductor industry has prioritized automating repetitive tasks by closed-loop, autonomous experimentation which enables accelerated optimization of complex multi-step processes. The emergence of machine learning (ML) has ushered in automated process with minimal human intervention. In this work, we develop SemiEpi, a self-driving automation platform capable of executing molecular beam epitaxy (MBE) growth with multi-steps, continuous in-situ monitoring, and on-the-fly feedback control. By integrating standard hardware, homemade software, curve fitting, and multiple ML models, SemiEpi operates autonomously, eliminating the need for extensive expertise in MBE processes to achieve optimal outcomes. The platform actively learns from previous experimental results, identifying favorable conditions and proposing new experiments to achieve the desired results. We standardize and optimize growth for InAs/GaAs quantum dots (QDs) heterostructures to showcase the power of ML-guided multi-step growth. A temperature calibration was implemented to get the initial growth condition, and fine control of the process was executed using ML. Leveraging RHEED movies acquired during the growth, SemiEpi successfully identified and optimized a novel route for multi-step heterostructure growth. This work demonstrates the capabilities of closed-loop, ML-guided systems in addressing challenges in multi-step growth for any device. Our method is critical to achieve repeatable materials growth using commercially scalable tools. Our strategy facilitates the development of a hardware-independent process and enhancing process repeatability and stability, even without exhaustive knowledge of growth parameters.
翻訳日:2024-08-08 17:40:15 公開日:2024-08-07
# カーボンナノスクロールにおける大きな正磁気伝導

Large positive magnetoconductance in carbon nanoscrolls ( http://arxiv.org/abs/2408.03518v1 )

ライセンス: Link先を確認
Yu-Jie Zhong, Xuan-Fu Huang, Ting-Zhen Chen, Jia-Ren Zhang, Jia-Cheng Li, Angus Huang, Hsiu-Chuan Hsu, Carmine Ortix, Ching-Hao Chang, (参考訳) 理論上は、カーボンナノスクロール(開端を持つ渦巻き状に巻かれたグラフェン層)は、大きな正の磁気伝導によって特徴づけられることが示されている。 カーボンナノスクロールが軸方向磁場 ~10T を受けると, ナノスクロールの担体密度が低い場合の弾道コンダクタンスは約200%上昇することを示す。 重要なことに、この正の磁気伝導は保存されているだけでなく、オンサイト障害の存在下でも強化可能であることが判明した。 磁場誘起ゼロエネルギーモードの出現は, ロールアップジオメトリに特有な正の磁気伝導が生じることを証明した。 本研究は, 大型磁気抵抗効果を示す新しい材料プラットフォームとして, 曲面グラフェンシステムを構築した。

We theoretically demonstrate that carbon nanoscrolls -- spirally wrapped graphene layers with open endpoints -- can be characterized by a large positive magnetoconductance. We show that when a carbon nanoscroll is subject to an axial magnetic field of ~ 10T, the ballistic conductance at low carrier densities of the nanoscroll has an increase of about 200%. Importantly, we find that this positive magnetoconductance is not only preserved but can be even enhanced in the presence of on-site disorder. We prove that the positive magnetoconductance comes about the emergence of magnetic field-induced zero energy modes, specific of rolled-up geometries. Our results establish curved graphene systems as a new material platform displaying sizable magnetoresistive phenomena.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# プライバシーの脅威モデリングの複雑さを解き明かす - 概念的プライバシー分析レイヤ

Unraveling Privacy Threat Modeling Complexity: Conceptual Privacy Analysis Layers ( http://arxiv.org/abs/2408.03578v1 )

ライセンス: Link先を確認
Kim Wuyts, Avi Douglen, (参考訳) ソフトウェア製品におけるプライバシの脅威を分析することは、システムがプライバシを尊重することを保証するソフトウェア開発の不可欠な部分である。 過去10年間に多くの進歩があったが、脅威が何であるかを説明することに重点を置いている。 まだ明らかになっていないのは、これらの脅威を実際に見つける「方法」だ。 プライバシーは複雑なドメインである。 我々は、このプライバシーの複雑さを捉えるために、4つの概念的レイヤ(機能、エコシステム、ビジネスコンテキスト、環境)を使うことを提案する。 これらのレイヤは、より具体的で実行可能な方法でプライバシ分析サポートを構造化し、指定するためのフレームとして使用することができ、分析プロセスの適用性を向上させることができる。

Analyzing privacy threats in software products is an essential part of software development to ensure systems are privacy-respecting; yet it is still a far from trivial activity. While there have been many advancements in the past decade, they tend to focus on describing 'what' the threats are. What isn't entirely clear yet is 'how' to actually find these threats. Privacy is a complex domain. We propose to use four conceptual layers (feature, ecosystem, business context, and environment) to capture this privacy complexity. These layers can be used as a frame to structure and specify the privacy analysis support in a more tangible and actionable way, thereby improving applicability of the analysis process.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# ジェネレーティブ・ディバイサル・ネットワークによる消費者取引シミュレーション

Consumer Transactions Simulation through Generative Adversarial Networks ( http://arxiv.org/abs/2408.03655v1 )

ライセンス: Link先を確認
Sergiy Tkachuk, Szymon Łukasik, Anna Wróblewska, (参考訳) 大規模小売データシステムの急速に発展する領域では、将来的な消費者取引の構想とシミュレーションが重要な関心領域となっている。 需要予測と細心の在庫管理を固める大きな可能性を秘めている。 本稿では, 消費者行動モデリングとストックキーピングユニット(SKU)の可用性制約を併用し, 現実のアソシエーション最適化課題に対処する, 新たなシステムアーキテクチャに着目したGAN(Generative Adversarial Networks)の革新的応用を提案する。 我々は、SKUデータをGANアーキテクチャに統合し、より洗練された埋め込み手法(ハイパーグラフなど)を使用することで、従来の手法から逸脱する。 この設計選択は, 消費者の購買行動のシミュレーションだけでなく, 消費者行動とSKU可用性の動的相互作用を反映する。 我々のGANモデルは、実店舗運営と戦略に実用的な意味を持つ資源豊富な実験システムを開拓し、在庫制約下で取引を生成する。 実験結果から, 実物と実物を比較することで, シミュレーション取引における現実性の向上を実証した。 これはより正確な予測モデルの可能性を示している。

In the rapidly evolving domain of large-scale retail data systems, envisioning and simulating future consumer transactions has become a crucial area of interest. It offers significant potential to fortify demand forecasting and fine-tune inventory management. This paper presents an innovative application of Generative Adversarial Networks (GANs) to generate synthetic retail transaction data, specifically focusing on a novel system architecture that combines consumer behavior modeling with stock-keeping unit (SKU) availability constraints to address real-world assortment optimization challenges. We diverge from conventional methodologies by integrating SKU data into our GAN architecture and using more sophisticated embedding methods (e.g., hyper-graphs). This design choice enables our system to generate not only simulated consumer purchase behaviors but also reflects the dynamic interplay between consumer behavior and SKU availability -- an aspect often overlooked, among others, because of data scarcity in legacy retail simulation models. Our GAN model generates transactions under stock constraints, pioneering a resourceful experimental system with practical implications for real-world retail operation and strategy. Preliminary results demonstrate enhanced realism in simulated transactions measured by comparing generated items with real ones using methods employed earlier in related studies. This underscores the potential for more accurate predictive modeling.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 地震活動の最小化を図ったAIによる地下再生エネルギーの持続可能な抽出

AI-Driven approach for sustainable extraction of earth's subsurface renewable energy while minimizing seismic activity ( http://arxiv.org/abs/2408.03664v1 )

ライセンス: Link先を確認
Diego Gutierrez-Oribio, Alexandros Stathas, Ioannis Stefanou, (参考訳) 深部地熱エネルギー、炭素捕獲・貯蔵、水素貯蔵は、エネルギーセクターの大規模要求を満たし、CO$2$の排出を削減できるとかなり約束している。 しかし、これらの活動に不可欠な流体を地球の地殻に注入することで、地震を誘発または引き起こすことができる。 本稿では,地下貯水池の複雑な環境下での人為的震度制御のための強化学習に基づく新しい手法について述べる。 この複雑なシステムはパラメータの不確かさと非モデル力学のために制御設計に重大な課題をもたらす。 強化学習アルゴリズムは, 制御パラメータをリアルタイムに選択し, 人為的震度を低減し, さらに生産目標である「textit{e g }」を考慮し, 制御力を最小化することにより, 頑健な制御器と効率的に対話できることを示す。 各種エネルギー需要シナリオ下での簡易的な地下貯水池のシミュレーションを行い,提案した制御強化学習手法の信頼性と有効性を示した。

Deep Geothermal Energy, Carbon Capture and Storage, and Hydrogen Storage hold considerable promise for meeting the energy sector's large-scale requirements and reducing CO$_2$ emissions. However, the injection of fluids into the Earth's crust, essential for these activities, can induce or trigger earthquakes. In this paper, we highlight a new approach based on Reinforcement Learning for the control of human-induced seismicity in the highly complex environment of an underground reservoir. This complex system poses significant challenges in the control design due to parameter uncertainties and unmodeled dynamics. We show that the reinforcement learning algorithm can interact efficiently with a robust controller, by choosing the controller parameters in real-time, reducing human-induced seismicity and allowing the consideration of further production objectives, \textit{e.g.}, minimal control power. Simulations are presented for a simplified underground reservoir under various energy demand scenarios, demonstrating the reliability and effectiveness of the proposed control-reinforcement learning approach.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# RL-ADN: アクティブ配電網における最適エネルギー貯蔵システム分散のための高性能深部強化学習環境

RL-ADN: A High-Performance Deep Reinforcement Learning Environment for Optimal Energy Storage Systems Dispatch in Active Distribution Networks ( http://arxiv.org/abs/2408.03685v1 )

ライセンス: Link先を確認
Shengren Hou, Shuyi Gao, Weijie Xia, Edgar Mauricio Salazar Duque, Peter Palensky, Pedro P. Vergara, (参考訳) Deep Reinforcement Learning (DRL) は、分散ネットワークにおけるエネルギー貯蔵システム(ESS)のディスパッチを最適化するための有望な道を示す。 本稿では,アクティブな分散ネットワークにおける最適なESSのディスパッチを解決するために設計された,革新的なオープンソースライブラリであるRL-ADNを紹介する。 RL-ADNは、分散ネットワークのモデリングにおける非並列的な柔軟性と、幅広い研究目標を収容するESSを提供する。 RL-ADNの特長は、データ拡張モジュールで、Gaussian Mixture ModelとCopula(GMC)関数に基づいており、DRLエージェントのパフォーマンス天井を高める。 さらに、RL-ADNはローラン電力フローソルバを内蔵し、精度を犠牲にすることなくトレーニング中の電力フロー計算の計算負担を大幅に削減する。 RL-ADNの有効性は分散ネットワークの異なるサイズで示され、ESSディスパッチタスクに対するDRLアルゴリズムの適応性において顕著な性能向上を示す。 この強化は、トレーニングシナリオの多様化によって特に有益である。 さらに、RL-ADNはトレーニング中の計算効率を10倍に向上させ、大規模ネットワークアプリケーションに非常に適している。 このライブラリは、分散ネットワークにおけるDRLベースのESSsディスパッチにおいて、新しいベンチマークを設定し、分散ネットワークオペレーションにおけるDRLアプリケーションの進歩を著しく推し進める。 RL-ADN は https://github.com/ShengrenHou/RL-ADN で利用可能である。

Deep Reinforcement Learning (DRL) presents a promising avenue for optimizing Energy Storage Systems (ESSs) dispatch in distribution networks. This paper introduces RL-ADN, an innovative open-source library specifically designed for solving the optimal ESSs dispatch in active distribution networks. RL-ADN offers unparalleled flexibility in modeling distribution networks, and ESSs, accommodating a wide range of research goals. A standout feature of RL-ADN is its data augmentation module, based on Gaussian Mixture Model and Copula (GMC) functions, which elevates the performance ceiling of DRL agents. Additionally, RL-ADN incorporates the Laurent power flow solver, significantly reducing the computational burden of power flow calculations during training without sacrificing accuracy. The effectiveness of RL-ADN is demonstrated using in different sizes of distribution networks, showing marked performance improvements in the adaptability of DRL algorithms for ESS dispatch tasks. This enhancement is particularly beneficial from the increased diversity of training scenarios. Furthermore, RL-ADN achieves a tenfold increase in computational efficiency during training, making it highly suitable for large-scale network applications. The library sets a new benchmark in DRL-based ESSs dispatch in distribution networks and it is poised to advance DRL applications in distribution network operations significantly. RL-ADN is available at: https://github.com/ShengrenHou/RL-ADN.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# BioDeepHash: バイオメトリックスを安定的なコードにマッピングする

BioDeepHash: Mapping Biometrics into a Stable Code ( http://arxiv.org/abs/2408.03704v1 )

ライセンス: Link先を確認
Baogang Song, Dongdong Zhao, Jiang Yan, Huanhuan Li, Hao Jiang, (参考訳) バイオメトリックスの幅広い応用により、バイオメトリックテンプレートのセキュリティにますます多くの注意が払われている。 しかし、既存のバイオメトリックテンプレート保護(BTP)メソッドの多くは、例えば、オリジナルのバイオメトリックデータの一部を漏洩するテンプレートを保護する問題(CB(Cancelable Biometrics)の存在)、エラー訂正コード(ECC)の使用は、デオード可能な攻撃、統計攻撃(BCS(Biometric Cryptosystems)の存在)、無効化(NN(Neural Network)を使って事前に定義されたテンプレートを学習するメソッドの存在)、強力なセキュリティを保証するために暗号ハッシュを使用することができないこと(CB(Cancelable Biometrics)の存在)など、いくつかのセキュリティ上の問題がある。 本稿では,この4つの問題に対処するため,BioDeepHashというフレームワークを提案する。このフレームワークでは,既定のバイナリコードの代わりにディープハッシュを用いて,同一ユーザの異なる生体データを安定したコードにマッピングすることで,ECCの使用を回避している。 アプリケーション固有のバイナリ文字列は、無効化を実現するために使用される。 次に暗号化ハッシュを使用して、最終保護テンプレートを取得して、強力なセキュリティを確保する。 最終的に、我々のフレームワークは、元の生体データの一部を漏洩させるようなデータを保存しない。 また,顔と虹彩のデータセットについても広範な実験を行った。 本手法は,虹彩データの平均受容率(GAR)に対して10.12$\%,顔データに対して3.12$\%の改善を実現する。 さらに、BioDeepHashは非常に低いFalse Acceptance Rate (FAR)、すなわちアイリスデータセットの0$\%$FAR、顔データセットの最高FARは0.00002$\%$である。

With the wide application of biometrics, more and more attention has been paid to the security of biometric templates. However most of existing biometric template protection (BTP) methods have some security problems, e.g. the problem that protected templates leak part of the original biometric data (exists in Cancelable Biometrics (CB)), the use of error-correcting codes (ECC) leads to decodable attack, statistical attack (exists in Biometric Cryptosystems (BCS)), the inability to achieve revocability (exists in methods using Neural Network (NN) to learn pre-defined templates), the inability to use cryptographic hash to guarantee strong security (exists in CB and methods using NN to learn latent templates). In this paper, we propose a framework called BioDeepHash based on deep hashing and cryptographic hashing to address the above four problems, where different biometric data of the same user are mapped to a stable code using deep hashing instead of predefined binary codes thus avoiding the use of ECC. An application-specific binary string is employed to achieve revocability. Then cryptographic hashing is used to get the final protected template to ensure strong security. Ultimately our framework achieves not storing any data that would leak part of the original biometric data. We also conduct extensive experiments on facial and iris datasets. Our method achieves an improvement of 10.12$\%$ on the average Genuine Acceptance Rate (GAR) for iris data and 3.12$\%$ for facial data compared to existing methods. In addition, BioDeepHash achieves extremely low False Acceptance Rate (FAR), i.e. 0$\%$ FAR on the iris dataset and the highest FAR on the facial dataset is only 0.0002$\%$.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 量子ビットと量子場理論の相互作用におけるエネルギー変化とランダウアーの原理

Energy change and Landauer's principle in the interaction between qubit and quantum field theory ( http://arxiv.org/abs/2408.03729v1 )

ライセンス: Link先を確認
Hao Xu, (参考訳) 我々は、量子ビットと量子場理論の相互作用の下でのシステム進化の一般的な記述を第2次摂動まで与え、これは光-物質相互作用の単純化モデルとも呼ばれる。 結果は、回転と反回転の波の項と、刺激された吸収と放出に対応する前の項と、Unruhと逆のUnruh効果に分類される。 我々は、量子ビットの還元密度行列だけでなく、量子場理論によって得られるバックリアクションを環境として得る。 その結果、量子場理論のエネルギー変動は、軌道と量子ビットの初期状態、線形場作用素と二次場作用素の期待値、時間次積作用素と関連していることが示された。 クォービットが加速運動中であるとき、従来のアンルー効果は真空状態が「温度」を持つ原因となり、ランダウアーの原理の妥当性に疑問を呈する。 ランダウアーの原理が依然として運動状態に当てはまることを証明している。

We give a general description of the system evolution under the interaction between qubit and quantum field theory up to the second order perturbation, which is also referred to as the simplified model of light-matter interaction. The results are classified into rotating and counter-rotating wave terms, the former corresponding to stimulated absorption and emission, and the latter to Unruh and inverse Unruh effects. We obtain not only the reduced density matrix of the qubit, but also the backreaction obtained by quantum field theory as the environment. The result shows that the energy variation of the quantum field theory is related to trajectory and the initial state of the qubit, the expectation values of the linear and quadratic field operators, and the temporal order product operator. When the qubit is in accelerated motion, the conventional Unruh effect causes the vacuum state to possess a "temperature", which raises some doubts about the validity of Landauer's principle. We prove that Landauer's principle still holds for any state of motion.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 符号平滑化による復号-LPN削減の限界

Limitations of the decoding-to-LPN reduction via code smoothing ( http://arxiv.org/abs/2408.03742v1 )

ライセンス: Link先を確認
Madhura Pathegama, Alexander Barg, (参考訳) LPN問題(Learning Parity with Noise)は、いくつかの古典的な暗号プリミティブの根底にある問題である。 研究者は、線形符号の復号化問題から減算を試み、この問題のアルゴリズム的な難しさを証明しようと努力してきた。 以前の研究では、そのような削減を達成するために、コードの平滑化(code smoothing)という技術ツールを使用していた。 このことは、前向きなレートのコードで削減する、という疑問を解き放った。 本稿では,復号化問題とLPN問題のパラメータによる削減の効率を特徴付ける。 結論として,有意な還元が可能なパラメータ規則と,その存在が不可能なパラメータ規則を分離する。

The Learning Parity with Noise (LPN) problem underlines several classic cryptographic primitives. Researchers have endeavored to demonstrate the algorithmic difficulty of this problem by attempting to find a reduction from the decoding problem of linear codes, for which several hardness results exist. Earlier studies used code smoothing as a technical tool to achieve such reductions, showing that they are possible for codes with vanishing rate. This has left open the question of attaining a reduction with positive-rate codes. Addressing this case, we characterize the efficiency of the reduction in terms of the parameters of the decoding and LPN problems. As a conclusion, we isolate the parameter regimes for which a meaningful reduction is possible and the regimes for which its existence is unlikely.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# MTDSense: ソフトウェア定義ネットワークにおける移動目標防御技術のAIベースのフィンガープリント

MTDSense: AI-Based Fingerprinting of Moving Target Defense Techniques in Software-Defined Networking ( http://arxiv.org/abs/2408.03758v1 )

ライセンス: Link先を確認
Tina Moghaddam, Guowei Yang, Chandra Thapa, Seyit Camtepe, Dan Dongseong Kim, (参考訳) 移動目標防御(MTD)は、攻撃者を混乱させ攻撃窓を制限することによってネットワークセキュリティを強化するプロアクティブセキュリティ技術である。 MTDは従来のネットワーク攻撃に対する評価において大きなメリットがあることが示されている。 しかし、ネットワークがMTDを使用していることを認識している攻撃者への対処は、ほとんど行われていない。 本研究では,MTD操作がネットワークトラフィックに残されるフットプリントを用いてMTDがいつトリガされたかを決定する,MTDSenseという新しい手法を提案する。 MTDSenseは、教師なしクラスタリングを使用して、MTDトリガに続くトラフィックを特定し、MTDインターバルを抽出する。 攻撃者は、この情報を使って攻撃ウィンドウを最大化し、攻撃を調整できる。 攻撃者のアプローチを分析して,MTDによってネットワークに流出した情報を減らすことを目的とした2つの新しいMTD更新アルゴリズムを提案し,評価する。 我々は,ソフトウェア定義ネットワークにおけるIPシャッフルMTDの運用に関する最初のデータセットを作成することで,広範囲な実験的評価を行う。 我々の研究は、MTDの防衛効果を示す以前の結果にもかかわらず、従来のMTDの実装は標的攻撃に対して非常に感受性が高いことを明らかにしている。

Moving target defenses (MTD) are proactive security techniques that enhance network security by confusing the attacker and limiting their attack window. MTDs have been shown to have significant benefits when evaluated against traditional network attacks, most of which are automated and untargeted. However, little has been done to address an attacker who is aware the network uses an MTD. In this work, we propose a novel approach named MTDSense, which can determine when the MTD has been triggered using the footprints the MTD operation leaves in the network traffic. MTDSense uses unsupervised clustering to identify traffic following an MTD trigger and extract the MTD interval. An attacker can use this information to maximize their attack window and tailor their attacks, which has been shown to significantly reduce the effectiveness of MTD. Through analyzing the attacker's approach, we propose and evaluate two new MTD update algorithms that aim to reduce the information leaked into the network by the MTD. We present an extensive experimental evaluation by creating, to our knowledge, the first dataset of the operation of an IP-shuffling MTD in a software-defined network. Our work reveals that despite previous results showing the effectiveness of MTD as a defense, traditional implementations of MTD are highly susceptible to a targeted attacker.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 光と磁気メカニカルの結合によるマイクロ波光の絡み合い

Microwave-optics entanglement via coupled opto- and magnomechanical microspheres ( http://arxiv.org/abs/2408.03791v1 )

ライセンス: Link先を確認
Hao-Tian Li, Zhi-Yuan Fan, Huai-Bing Zhu, Simon Gröblacher, Jie Li, (参考訳) マイクロ波と光の絡み合いは、マイクロ波と光周波数帯で動作する量子ノードを持つハイブリッド量子ネットワークを構築する上で重要な役割を担っている。 しかし、両者の間には大きな周波数ミスマッチがあるため、このような絡み合いを生み出すための効率的な方法が限られている。 本稿では、YIG球体とシリカ球体という2つの結合したオプト・メカニカル・マイクロスフィアとマグノメカニカル・マイクロスフィアのハイブリッドシステムに基づいて、マイクロ波・光学の絡み合わせを行う新しい機構を提案する。 YIG球面は磁歪によって誘導されるマグノンモードと振動モードを持ち、シリカ球面は光学的ささやきモードと光学的相互作用を介して結合されるメカニカルモードをサポートする。 2つのメカニカルモードは周波数が近く、2つのマイクロスフィアの物理的接触によって直接結合される。 マグノメカニカル(オプトメカニカル)ストークス散乱(アンチストークス)を同時に活性化することにより、メカニカル・メカニカルカップリングにより、マグノンと光学モードの間に定常な絡み合いを確立することができることを示す。 これにより、YIG球をマイクロ波キャビティにさらに結合し、マグノン-マイクロ波状態スワップを利用することで、定常マイクロ波光学の絡み合いにつながる。 我々のプロトコルは、現在の技術の範囲内にあり、ハイブリッド量子ネットワークやハイブリッド量子システムによる量子情報処理におけるユニークな応用を見出す、マイクロ波・光の絡み合わせのための、有望な新しいアプローチとなるかもしれない。

Microwave-optics entanglement plays a crucial role in building hybrid quantum networks with quantum nodes working in the microwave and optical frequency bands. However, there are limited efficient ways to produce such entanglement due to the large frequency mismatch between the two regimes. Here, we present a new mechanism to prepare microwave-optics entanglement based on a hybrid system of two coupled opto- and magnomechanical microspheres, i.e., a YIG sphere and a silica sphere. The YIG sphere holds a magnon mode and a vibration mode induced by magnetostriction, while the silica sphere supports an optical whispering-gallery mode and a mechanical mode coupled via an optomechanical interaction. The two mechanical modes are close in frequency and directly coupled via physical contact of the two microspheres. We show that by simultaneously activating the magnomechanical (optomechanical) Stokes (anti-Stokes) scattering, stationary entanglement can be established between the magnon and optical modes via mechanics-mechanics coupling. This leads to stationary microwave-optics entanglement by further coupling the YIG sphere to a microwave cavity and utilizing the magnon-microwave state swapping. Our protocol is within reach of current technology and may become a promising new approach for preparing microwave-optics entanglement, which finds unique applications in hybrid quantum networks and quantum information processing with hybrid quantum systems.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# GenAIによる信頼できるイメージセマンティックコミュニケーション:説明力、制御性、効率性

Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency ( http://arxiv.org/abs/2408.03806v1 )

ライセンス: Link先を確認
Xijun Wang, Dongshan Ye, Chenyuan Feng, Howard H. Yang, Xiang Chen, Tony Q. S. Quek, (参考訳) 画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。 しかし、既存のISCシステムは、解釈可能性、操作性、互換性に課題を抱えている。 これらの制約に対処するため、我々は新しい信頼できるICCフレームワークを提案する。 このアプローチでは、テキスト抽出とセグメンテーションマッピング技術を活用して、画像を説明可能なセマンティクスに変換すると同時に、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を採用する。 また、受信したセマンティックコンテンツと受信側の特定のタスク要求の両方に動的に適応するマルチレートISC伝送プロトコルを導入する。 シミュレーションの結果,本フレームワークは様々なアプリケーションシナリオにおいて,説明可能な学習,分離されたトレーニング,互換性のある伝達を実現することが示された。 最後に、興味深い研究の方向性と応用シナリオが特定される。

Image semantic communication (ISC) has garnered significant attention for its potential to achieve high efficiency in visual content transmission. However, existing ISC systems based on joint source-channel coding face challenges in interpretability, operability, and compatibility. To address these limitations, we propose a novel trustworthy ISC framework. This approach leverages text extraction and segmentation mapping techniques to convert images into explainable semantics, while employing Generative Artificial Intelligence (GenAI) for multiple downstream inference tasks. We also introduce a multi-rate ISC transmission protocol that dynamically adapts to both the received explainable semantic content and specific task requirements at the receiver. Simulation results demonstrate that our framework achieves explainable learning, decoupled training, and compatible transmission in various application scenarios. Finally, some intriguing research directions and application scenarios are identified.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 畳み込みニューラルネットワークモデルにおける秘密鍵を用いた音声プライバシー保護手法とその堅牢性評価

Speech privacy-preserving methods using secret key for convolutional neural network models and their robustness evaluation ( http://arxiv.org/abs/2408.03897v1 )

ライセンス: Link先を確認
Shoko Niwa, Sayaka Shiota, Hitoshi Kiya, (参考訳) 本稿では,音声処理タスクにおける畳み込みニューラルネットワーク(CNN)に基づくモデルのための秘密鍵を用いたプライバシ保護手法を提案する。 クラウドサーバのような信頼できないサードパーティがCNNベースのシステムを提供している環境では、音声クエリのプライバシが不可欠である。 本稿では,秘密鍵を用いた音声クエリの暗号化手法を提案する。 提案手法では,シャッフル,フリップ,ランダム直交行列(ROM)の3種類の秘密鍵を導入する。 実験では,提案手法を正しいキーで使用する場合,識別性能は劣化しなかった。 逆に、間違ったキーを使用すると、性能が大幅に低下する。 特に、ROMを用いることで、比較的小さなキー空間であっても、高いプライバシー保護性能を維持できることが示される。 さらに,様々なロバスト性評価において,暗号化されたクエリからオリジナル音声を復元することが困難であることを示す。

In this paper, we propose privacy-preserving methods with a secret key for convolutional neural network (CNN)-based models in speech processing tasks. In environments where untrusted third parties, like cloud servers, provide CNN-based systems, ensuring the privacy of speech queries becomes essential. This paper proposes encryption methods for speech queries using secret keys and a model structure that allows for encrypted queries to be accepted without decryption. Our approach introduces three types of secret keys: Shuffling, Flipping, and random orthogonal matrix (ROM). In experiments, we demonstrate that when the proposed methods are used with the correct key, identification performance did not degrade. Conversely, when an incorrect key is used, the performance significantly decreased. Particularly, with the use of ROM, we show that even with a relatively small key space, high privacy-preserving performance can be maintained many speech processing tasks. Furthermore, we also demonstrate the difficulty of recovering original speech from encrypted queries in various robustness evaluations.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 二光子-二原子共鳴エネルギー伝達における時間周波数相関の役割

Role of time-frequency correlations in two-photon-two-atom resonance energy transfer ( http://arxiv.org/abs/2408.03903v1 )

ライセンス: Link先を確認
Roberto de J. León-Montiel, Arturo Pedroza-Rojas, Jorge A. Peralta-Ángeles, (参考訳) 励起エネルギー伝達は、多くの化学現象や生物学的現象が形成される光物理過程である。 天然の小さな系から合成多色球性高分子まで、エネルギー移動は励起ドナーからアクセプターへの電子励起エネルギーの移動過程を扱う。 この現象は過去にも広く研究されてきたが、量子可能な技術の急速な進化は、光子対のような非古典的な光源がナノスケールでのエネルギー移動のより良い制御(または強化)を提供するかどうかという問題を引き起こしている。 本研究では, 自発パラメトリックダウン変換(SPDC)により生成する2つの非相互作用性2レベル原子の時間周波数相関光子対(中心周波数が個々の粒子と共鳴しない)による共同励起に関する総合的研究を行う。 我々は、光子間の強い周波数反相関が大きな2光子励起(TPE)確率を保証する一方で、正準スペクトル形状を持つ光子はガウススペクトルを持つ光子よりも3.8倍大きなTPE信号を示すことを示した。 さらに,2光子励起経路の抑制はガウススペクトル形状の2光子状態のTPEの確率を著しく変化させるものではないが,正弦スペクトルを持つ光子は2光子励起経路が抑制されない場合に最も強いTPE信号を示す。 本研究は,SPDC光子との共鳴エネルギー伝達における時間周波数相関の役割を解明するだけでなく,実験で使用する最適光源に関する貴重な情報も提供する。

Excitation energy transfer is a photophysical process upon which many chemical and biological phenomena are built. From natural small systems to synthetic multichromophoric macromolecules, energy transfer deals with the process of migration of electronic excitation energy from an excited donor to an acceptor. Although this phenomenon has been extensively studied in the past, the rapid evolution of quantum-enabled technologies has motivated the question on whether nonclassical sources of light, such as entangled photon pairs, may provide us with a better control (or enhancement) of energy transfer at the nanoscale. In this work, we provide a comprehensive study of the joint excitation of two non-interacting two-level atoms by time-frequency correlated photon pairs -- whose central frequencies are not resonant with the individual particles -- generated by means of spontaneous parametric down conversion (SPDC). We demonstrate that while strong frequency anti-correlation between photons guarantees a large two-photon excitation (TPE) probability, photons bearing a sine cardinal spectral shape exhibit a $\sim$3.8 times larger TPE signal than photons with a Gaussian spectrum. More importantly, we find that suppression of time-ordered excitation pathways does not substantially modify the TPE probability for two-photon states with a Gaussian spectral shape; whereas photons with a sine cardinal spectrum exhibit the strongest TPE signals when two-photon excitation pathways are not suppressed. Our results not only help elucidating the role of time-frequency correlations in resonance energy transfer with SPDC photons, but also provide valuable information regarding the optimal source to be used in its experimental implementation.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# 説明の難しさ:分布内モデル解釈の計算困難性について

Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation ( http://arxiv.org/abs/2408.03915v1 )

ライセンス: Link先を確認
Guy Amir, Shahaf Bassan, Guy Katz, (参考訳) 機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。 しかし、この分野に大きな進歩があったにもかかわらず、異なるモデルの自然解釈可能性に関する厳密な特徴が残っていない。 このギャップを埋める試みとして、近年の研究では、様々なモデルの決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価できることが示されている。 この設定では、ある特定のモデルの説明を効率的に得ることができれば、そのモデルは解釈可能であると見なされる(なぜならそれは `easily'' と説明できるから)。 しかし、MLモデル上の説明を生成することは、計算的に難解であるならば、それは解釈不能であると考えられる。 以前の研究では、MLモデルの解釈の複雑さに影響を与える2つの重要な要因が特定された。 一 モデルの種類(例えば、ニューラルネットワーク、決定木等)及び (二 説明の形式(例、対照的な説明、共有値等) この研究において、この分析には第3の重要な要素も考慮する必要がある、と我々は主張する。 基礎となる分布を考えることは、社会的に不一致な説明を避ける上で鍵となる。 以下の2つの設定で、基礎となる分布が結果として生じる全体的な解釈の複雑さに有意な影響を実証する。 一 外部物流検知器(OOD)と組み合わせた予測モデル及び (II)社会的に整合した説明を本質的に生成するために設計された予測モデル。 この結果から, 分布の表現性は解釈の全体的な複雑さに大きく影響し, モデルが社会的に整合した説明を生成するためには, 必要不可欠な前提条件を特定することが示唆された。

The ability to interpret Machine Learning (ML) models is becoming increasingly essential. However, despite significant progress in the field, there remains a lack of rigorous characterization regarding the innate interpretability of different models. In an attempt to bridge this gap, recent work has demonstrated that it is possible to formally assess interpretability by studying the computational complexity of explaining the decisions of various models. In this setting, if explanations for a particular model can be obtained efficiently, the model is considered interpretable (since it can be explained ``easily''). However, if generating explanations over an ML model is computationally intractable, it is considered uninterpretable. Prior research identified two key factors that influence the complexity of interpreting an ML model: (i) the type of the model (e.g., neural networks, decision trees, etc.); and (ii) the form of explanation (e.g., contrastive explanations, Shapley values, etc.). In this work, we claim that a third, important factor must also be considered for this analysis -- the underlying distribution over which the explanation is obtained. Considering the underlying distribution is key in avoiding explanations that are socially misaligned, i.e., convey information that is biased and unhelpful to users. We demonstrate the significant influence of the underlying distribution on the resulting overall interpretation complexity, in two settings: (i) prediction models paired with an external out-of-distribution (OOD) detector; and (ii) prediction models designed to inherently generate socially aligned explanations. Our findings prove that the expressiveness of the distribution can significantly influence the overall complexity of interpretation, and identify essential prerequisites that a model must possess to generate socially aligned explanations.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# エネルギー感受性および忠実度感受性に対するエクササイズおよび普遍量子モンテカルロ推定器

Exact and universal quantum Monte Carlo estimators for energy susceptibility and fidelity susceptibility ( http://arxiv.org/abs/2408.03924v1 )

ライセンス: Link先を確認
Nic Ezzell, Lev Barash, Itay Hen, (参考訳) 我々は、有限温度のエネルギー感受性と本質的に任意のハミルトニアンに対する忠実で普遍的なクローズドフォームな量子モンテカルロ推定器を導出する。 本稿では, 順序パラメータの知識を必要とせず, ランダムモデルのクラスに適用することで, システム固有のエルゴード量子モンテカルロ更新規則を設計することなく, 量子相転移を研究できることを示す。

We derive exact, universal, closed-form quantum Monte Carlo estimators for finite temperature energy susceptibility and fidelity susceptibility for essentially arbitrary Hamiltonians. We demonstrate how our method can be used to study quantum phase transitions without knowledge of an order parameter and without the need to design system-specific ergodic quantum Monte Carlo update rules by applying it to a class of random models.
翻訳日:2024-08-08 17:30:30 公開日:2024-08-07
# UniTraj: スケーラブルな自動車軌道予測のための統一フレームワーク

UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction ( http://arxiv.org/abs/2403.15098v3 )

ライセンス: Link先を確認
Lan Feng, Mohammadhossein Bahari, Kaouther Messaoud Ben Amor, Éloi Zablocki, Matthieu Cord, Alexandre Alahi, (参考訳) 車両軌道予測は、データ駆動型ソリューションにますます依存しているが、異なるデータドメインにスケールする能力と、その一般化に対するより大きなデータセットサイズの影響は、まだ解明されていない。 これらの質問は、複数のデータセットを使用することで研究できるが、データフォーマット、マップ解決、セマンティックセマンティックタイプなど、いくつかの相違点があるため、難しい。 これらの課題に対処するために、様々なデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを導入し、車両軌道予測分野の新しい機会を示す。 特に、UniTrajを用いて広範な実験を行い、他のデータセットに転送するとモデルの性能が著しく低下することがわかった。 しかし、データサイズと多様性の増大はパフォーマンスを大幅に向上させ、nuScenesデータセットの新たな最先端結果をもたらす。 これらの知見を説明するために,データセットの特徴に関する洞察を提供する。 コードはここにある。 https://github.com/vita-epfl/UniTraj

Vehicle trajectory prediction has increasingly relied on data-driven solutions, but their ability to scale to different data domains and the impact of larger dataset sizes on their generalization remain under-explored. While these questions can be studied by employing multiple datasets, it is challenging due to several discrepancies, e.g., in data formats, map resolution, and semantic annotation types. To address these challenges, we introduce UniTraj, a comprehensive framework that unifies various datasets, models, and evaluation criteria, presenting new opportunities for the vehicle trajectory prediction field. In particular, using UniTraj, we conduct extensive experiments and find that model performance significantly drops when transferred to other datasets. However, enlarging data size and diversity can substantially improve performance, leading to a new state-of-the-art result for the nuScenes dataset. We provide insights into dataset characteristics to explain these findings. The code can be found here: https://github.com/vita-epfl/UniTraj
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# CNNのスケーラブルリプシッツ推定

Scalable Lipschitz Estimation for CNNs ( http://arxiv.org/abs/2403.18613v2 )

ライセンス: Link先を確認
Yusuf Sulehman, Tingting Mu, (参考訳) ディープニューラルネットワークのリプシッツ定数を推定することは、一般化可能性や対向ロバスト性を示すのに役立つため、関心が高まっている。 特に畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン関連のアプリケーションにおける最近の成功の多くを支えている。 しかし、リプシッツ定数を推定する既存の手法は厳密であるが、CNNに適用した場合のスケーラビリティは限られている。 そこで本研究では,CNNのリプシッツ定数推定を高速化する手法を提案する。 中心となる考え方は、大きな畳み込みブロックをジョイント層とワイドワイド分割によって小さなブロックの集合に分割することである。 我々は、より小さなブロックのリプシッツ定数の観点から、より大きなブロックのリプシッツ定数の上界を証明した。 分割係数を変化させることで、結果の方法は精度やスケーラビリティを優先して調整でき、並列化が可能である。 拡張されたスケーラビリティと既存のベースラインに匹敵する精度を、さまざまな実験を通じて示す。

Estimating the Lipschitz constant of deep neural networks is of growing interest as it is useful for informing on generalisability and adversarial robustness. Convolutional neural networks (CNNs) in particular, underpin much of the recent success in computer vision related applications. However, although existing methods for estimating the Lipschitz constant can be tight, they have limited scalability when applied to CNNs. To tackle this, we propose a novel method to accelerate Lipschitz constant estimation for CNNs. The core idea is to divide a large convolutional block via a joint layer and width-wise partition, into a collection of smaller blocks. We prove an upper-bound on the Lipschitz constant of the larger block in terms of the Lipschitz constants of the smaller blocks. Through varying the partition factor, the resulting method can be adjusted to prioritise either accuracy or scalability and permits parallelisation. We demonstrate an enhanced scalability and comparable accuracy to existing baselines through a range of experiments.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# EgoNav:Egocentric Scene-aware Human Trajectory Prediction

EgoNav: Egocentric Scene-aware Human Trajectory Prediction ( http://arxiv.org/abs/2403.19026v3 )

ライセンス: Link先を確認
Weizhuo Wang, C. Karen Liu, Monroe Kennedy III, (参考訳) ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。 このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。 本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。 我々は,エゴモーション予測の研究を容易にするために,ユーザの視点を中心とした総合的な歩行シーンナビゲーションデータセットを収集した。 そこで我々は,周囲の静的なシーン上での人間の動作条件を予測する手法を提案する。 提案手法は,ユーザによる環境観察を考慮した拡散モデルを用いて,将来的な軌道の分布を推定する。 そこで本研究では,ユーザの周囲の視覚記憶を符号化するコンパクト表現と,拡散モデルのリアルタイム推論を高速化する効率的なサンプル生成手法を提案する。 その結果、衝突回避と軌道モードのカバレッジの重要指標において、既存の手法よりも優れた結果が得られた。

Wearable collaborative robots stand to assist human wearers who need fall prevention assistance or wear exoskeletons. Such a robot needs to be able to constantly adapt to the surrounding scene based on egocentric vision, and predict the ego motion of the wearer. In this work, we leveraged body-mounted cameras and sensors to anticipate the trajectory of human wearers through complex surroundings. To facilitate research in ego-motion prediction, we have collected a comprehensive walking scene navigation dataset centered on the user's perspective. We then present a method to predict human motion conditioning on the surrounding static scene. Our method leverages a diffusion model to produce a distribution of potential future trajectories, taking into account the user's observation of the environment. To that end, we introduce a compact representation to encode the user's visual memory of the surroundings, as well as an efficient sample-generating technique to speed up real-time inference of a diffusion model. We ablate our model and compare it to baselines, and results show that our model outperforms existing methods on key metrics of collision avoidance and trajectory mode coverage.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# DenseNetsがリロード:ResNetsとViTsを超えたパラダイムシフト

DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs ( http://arxiv.org/abs/2403.19588v2 )

ライセンス: Link先を確認
Donghyun Kim, Byeongho Heo, Dongyoon Han, (参考訳) 本稿では、Densely Connected Convolutional Networks (DenseNets) を復活させ、主要なResNetスタイルのアーキテクチャに対する過小評価の有効性を明らかにする。 DenseNetsのポテンシャルは、未修正のトレーニングメソッドと従来のデザイン要素が機能を完全に明らかにしていないために見過ごされてしまったと信じています。 我々のパイロット研究は、結合による密接な接続が強く、DenseNetsがモダンなアーキテクチャと競合するために再活性化できることを示しています。 アーキテクチャの調整、ブロックの再設計、DenseNetの拡張とメモリ効率の向上のためのトレーニングレシピの改善など、サブ最適化コンポーネントを体系的に洗練し、短絡を維持しながら、メモリ効率を向上します。 私たちのモデルは、単純なアーキテクチャ要素を採用し、最終的にはSwin Transformer、ConvNeXt、そしてDeiT-III(残余学習系統における重要なアーキテクチャ)を上回ります。 さらに,本モデルでは,最新のモデルや下流タスク,ADE20kセマンティックセマンティックセマンティックセマンティクス,COCOオブジェクト検出/インスタンスセマンティクスと競合するImageNet-1Kの最先端性能を示す。 最後に,付加的なショートカットに対する結合の利点を明らかにする実証分析を行い,DenseNetスタイルの設計に対する新たな好みを定めている。 私たちのコードはhttps://github.com/naver-ai/rdnet.comで公開されています。

This paper revives Densely Connected Convolutional Networks (DenseNets) and reveals the underrated effectiveness over predominant ResNet-style architectures. We believe DenseNets' potential was overlooked due to untouched training methods and traditional design elements not fully revealing their capabilities. Our pilot study shows dense connections through concatenation are strong, demonstrating that DenseNets can be revitalized to compete with modern architectures. We methodically refine suboptimal components - architectural adjustments, block redesign, and improved training recipes towards widening DenseNets and boosting memory efficiency while keeping concatenation shortcuts. Our models, employing simple architectural elements, ultimately surpass Swin Transformer, ConvNeXt, and DeiT-III - key architectures in the residual learning lineage. Furthermore, our models exhibit near state-of-the-art performance on ImageNet-1K, competing with the very recent models and downstream tasks, ADE20k semantic segmentation, and COCO object detection/instance segmentation. Finally, we provide empirical analyses that uncover the merits of the concatenation over additive shortcuts, steering a renewed preference towards DenseNet-style designs. Our code is available at https://github.com/naver-ai/rdnet.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# DPA-Net:微分プリミティブアセンブリによるスパースビューからの構造化3次元抽象化

DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly ( http://arxiv.org/abs/2404.00875v3 )

ライセンス: Link先を確認
Fenggen Yu, Yiming Qian, Xu Zhang, Francisca Gil-Ureta, Brian Jackson, Eric Bennett, Hao Zhang, (参考訳) 本稿では、3DオブジェクトをキャプチャするスパースRGB画像から、プリミティブアセンブリの形で構造化された3D抽象化を学習するための微分可能なレンダリングフレームワークを提案する。 異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。 アーキテクチャ上,我々のネットワークは,色予測のためにピクセルNeRFで実証された画像条件のニューラル放射場(NeRF)の一般的なパイプラインに従っている。 本研究のコアコントリビューションとして,NeRFに差分プリミティブアセンブリ(DPA)を導入し,密度予測の代わりに3次元占有場を出力する。 我々のネットワークはDPA-Netと呼ばれ、それぞれ凸二次プリミティブの交点として凸の結合を生成し、ターゲットの3Dオブジェクトを近似し、抽象的な損失とマスキングの損失を受け、どちらもボリュームレンダリング時に画像空間で定義される。 テスト時間適応と,得られたアセンブリの精度とコンパクト性向上を目的としたサンプリング・ロス設計により,スパースビューからの3次元プリミティブ抽象化に対する最先端の代替手段よりも優れた性能を示す。

We present a differentiable rendering framework to learn structured 3D abstractions in the form of primitive assemblies from sparse RGB images capturing a 3D object. By leveraging differentiable volume rendering, our method does not require 3D supervision. Architecturally, our network follows the general pipeline of an image-conditioned neural radiance field (NeRF) exemplified by pixelNeRF for color prediction. As our core contribution, we introduce differential primitive assembly (DPA) into NeRF to output a 3D occupancy field in place of density prediction, where the predicted occupancies serve as opacity values for volume rendering. Our network, coined DPA-Net, produces a union of convexes, each as an intersection of convex quadric primitives, to approximate the target 3D object, subject to an abstraction loss and a masking loss, both defined in the image space upon volume rendering. With test-time adaptation and additional sampling and loss designs aimed at improving the accuracy and compactness of the obtained assemblies, our method demonstrates superior performance over state-of-the-art alternatives for 3D primitive abstraction from sparse views.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# PRobELM:言語モデルの可塑性ランキング評価

PRobELM: Plausibility Ranking Evaluation for Language Models ( http://arxiv.org/abs/2404.03818v2 )

ライセンス: Link先を確認
Zhangdie Yuan, Eric Chamoun, Rami Aly, Chenxi Whitehouse, Andreas Vlachos, (参考訳) 本稿では,Plausibility Ranking Evaluation for Language Models(Plausibility Ranking Evaluation for Language Models)を提案する。 TruthfulQAのようなベンチマークは、事実の正確さや真実性を強調し、COPAのようなベンチマークは、世界の知識を明示的に取り入れずに、もっともらしいシナリオを探求するが、PRobELMは、このギャップを埋めようとしている。 この設計により、文学に基づく発見のような下流のユースケースにおける言語モデルの可能性を評価することができる。 我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。 PRobELMは、ステートメント、テキスト補完、質問応答など、複数のプロンプト型にわたる言語モデルの評価を容易にする。 モデルスケール, トレーニング精度, 可視性パフォーマンスの関係に関する10種類のモデルとアーキテクチャを用いた実験では, 事実精度が可視性性能と直接相関せず, 最新のトレーニングデータにより, 異なるモデルアーキテクチャ間での可視性評価が促進されることがわかった。

This paper introduces PRobELM (Plausibility Ranking Evaluation for Language Models), a benchmark designed to assess language models' ability to discern more plausible from less plausible scenarios through their parametric knowledge. While benchmarks such as TruthfulQA emphasise factual accuracy or truthfulness, and others such as COPA explore plausible scenarios without explicitly incorporating world knowledge, PRobELM seeks to bridge this gap by evaluating models' capabilities to prioritise plausible scenarios that leverage world knowledge over less plausible alternatives. This design allows us to assess the potential of language models for downstream use cases such as literature-based discovery where the focus is on identifying information that is likely but not yet known. Our benchmark is constructed from a dataset curated from Wikidata edit histories, tailored to align the temporal bounds of the training data for the evaluated models. PRobELM facilitates the evaluation of language models across multiple prompting types, including statement, text completion, and question-answering. Experiments with 10 models of various sizes and architectures on the relationship between model scales, training recency, and plausibility performance, reveal that factual accuracy does not directly correlate with plausibility performance and that up-to-date training data enhances plausibility assessment across different model architectures.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# プライベートオンデバイスアプリケーションのためのデータ合成のためのプロンプト公開大言語モデル

Prompt Public Large Language Models to Synthesize Data for Private On-device Applications ( http://arxiv.org/abs/2404.04360v2 )

ライセンス: Link先を確認
Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage, (参考訳) 公開データの事前学習は、差分プライバシー(DP)を用いた連邦学習(FL)の性能向上に有効な方法である。 本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。 我々は、LLMプロンプトを慎重に設計し、既存の公開データをフィルタリングし変換し、実際のユーザデータ配信に類似した新しいデータを生成する。 Gboard(Google Keyboard, 製品用モバイルキーボードアプリケーション)の実際のユーザデータに対して, 標準の公開データセット上で事前学習したベースラインモデルと比較して, 単語予測精度が19.0%, 22.8%向上した。 さらに,本手法は,数百万台のモバイルデバイス上でのDP FL微調整において,ベースラインに匹敵する評価精度を達成し,本手法の最終モデルは実運用A/Bテストにおいてベースラインよりも優れていた。 実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証し, 分散ギャップをさらに軽減するための今後の研究方向を提案する。

Pre-training on public data is an effective method to improve the performance for federated learning (FL) with differential privacy (DP). This paper investigates how large language models (LLMs) trained on public data can improve the quality of pre-training data for the on-device language models trained with DP and FL. We carefully design LLM prompts to filter and transform existing public data, and generate new data to resemble the real user data distribution. The model pre-trained on our synthetic dataset achieves relative improvement of 19.0% and 22.8% in next word prediction accuracy compared to the baseline model pre-trained on a standard public dataset, when evaluated over the real user data in Gboard (Google Keyboard, a production mobile keyboard application). Furthermore, our method achieves evaluation accuracy better than or comparable to the baseline during the DP FL fine-tuning over millions of mobile devices, and our final model outperforms the baseline in production A/B testing. Our experiments demonstrate the strengths of LLMs in synthesizing data close to the private distribution even without accessing the private data, and also suggest future research directions to further reduce the distribution gap.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# RoadBEV:鳥の視線で道路表面を再構築する

RoadBEV: Road Surface Reconstruction in Bird's Eye View ( http://arxiv.org/abs/2404.06605v3 )

ライセンス: Link先を確認
Tong Zhao, Lei Yang, Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Yintao Wei, (参考訳) 路面条件、特に幾何学的プロファイルは、自動運転車の走行性能に大きな影響を及ぼす。 視覚に基づくオンライン道路再建は,道路情報を事前に収集する。 モノクル深度推定やステレオマッチングといった既存のソリューションは、控えめなパフォーマンスに悩まされている。 最近のバードアイビュー(Bird's-Eye-View、BEV)の認識技術は、より信頼性と正確な再構築の可能性を秘めている。 本稿では,単眼画像とステレオ画像で道路標高を推定するロードビーヴモノとロードビーヴステレオの2つの簡易かつ効果的な道路標高復元モデルを提案する。 前者はイメージビューから検索したボクセル特徴に基づく標高値と直接適合する一方、後者は左右のボクセル特徴間の相関を示すBEVボリュームに基づく道路標高パターンを効率的に認識する。 洞察に富んだ分析は、その構成と視点との相違を明らかにする。 実世界のデータセットの実験は、モデルの有効性と優越性を検証します。 RoadBEVモノとRoadBEVステレオの標高誤差はそれぞれ1.83cmと0.50cmである。 我々のモデルは、自動運転車の安全性と快適性を促進するための重要な情報を提供する、実用的な道路プレビューを約束している。 コードはhttps://github.com/ztsrxh/RoadBEVでリリースされる

Road surface conditions, especially geometry profiles, enormously affect driving performance of autonomous vehicles. Vision-based online road reconstruction promisingly captures road information in advance. Existing solutions like monocular depth estimation and stereo matching suffer from modest performance. The recent technique of Bird's-Eye-View (BEV) perception provides immense potential to more reliable and accurate reconstruction. This paper uniformly proposes two simple yet effective models for road elevation reconstruction in BEV named RoadBEV-mono and RoadBEV-stereo, which estimate road elevation with monocular and stereo images, respectively. The former directly fits elevation values based on voxel features queried from image view, while the latter efficiently recognizes road elevation patterns based on BEV volume representing correlation between left and right voxel features. Insightful analyses reveal their consistence and difference with the perspective view. Experiments on real-world dataset verify the models' effectiveness and superiority. Elevation errors of RoadBEV-mono and RoadBEV-stereo achieve 1.83 cm and 0.50 cm, respectively. Our models are promising for practical road preview, providing essential information for promoting safety and comfort of autonomous vehicles. The code is released at https://github.com/ztsrxh/RoadBEV
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# 移動変圧器を用いた軌道予測の伝達学習

Transfer Learning Study of Motion Transformer-based Trajectory Predictions ( http://arxiv.org/abs/2404.08271v3 )

ライセンス: Link先を確認
Lars Ullrich, Alex McMaster, Knut Graichen, (参考訳) 自動運転における軌道計画は、他の道路利用者の緊急行動を予測することに大きく依存している。 学習ベースの手法は現在、シミュレーションベースの課題において印象的な成果を上げており、トランスフォーマーベースのアーキテクチャが技術的に先導している。 しかし、究極的には、現実の世界では予測が必要である。 シミュレーションから現実へのシフトに加えて、センサーシステム、融合および認識アルゴリズム、交通規則や法則の違いなど、車種や国種による多くのシフトが議題となっている。 すべてのシステム設定と設計ドメインを一度にカバーできるモデルは、まだ予測できないため、モデル適応は中心的な役割を果たす。 そこで,トランスフォーマーモデルに基づくトランスファーラーニング手法のシミュレーションに基づく研究を行った。 さらに,本研究は,実世界への効果的な転送を支援するために,計算時間と性能のトレードオフの可能性に関する洞察を提供することを目的としている。

Trajectory planning in autonomous driving is highly dependent on predicting the emergent behavior of other road users. Learning-based methods are currently showing impressive results in simulation-based challenges, with transformer-based architectures technologically leading the way. Ultimately, however, predictions are needed in the real world. In addition to the shifts from simulation to the real world, many vehicle- and country-specific shifts, i.e. differences in sensor systems, fusion and perception algorithms as well as traffic rules and laws, are on the agenda. Since models that can cover all system setups and design domains at once are not yet foreseeable, model adaptation plays a central role. Therefore, a simulation-based study on transfer learning techniques is conducted on basis of a transformer-based model. Furthermore, the study aims to provide insights into possible trade-offs between computational time and performance to support effective transfers into the real world.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# PraFFL: 公正なフェデレーション学習における優先意識のスキーム

PraFFL: A Preference-Aware Scheme in Fair Federated Learning ( http://arxiv.org/abs/2404.08973v2 )

ライセンス: Link先を確認
Rongguang Ye, Wei-Bin Kou, Ming Tang, (参考訳) 連合学習の公正性は、敏感な特徴を持つ特定のグループ(例えば、男性または女性)のための偏見のないモデルを開発することを目的として、重要な関心事として現れてきた。 しかし、モデル性能とフェアネスの間にはトレードオフがあり、すなわちモデルフェアネスの改善はモデル性能を低下させる。 既存のアプローチでは、モデルフェアネスとモデルパフォーマンスに対するクライアントの好みを定量化するためにハイパーパラメータを導入することで、このようなトレードオフを特徴付けている。 しかしながら、これらのアプローチは、各クライアントが1つの事前定義された好みしか持たず、各クライアントが通常複数の好みを持つ実用的なシステムでは機能しないシナリオに限られる。 鍵となる課題は、モデルが各クライアントのさまざまな好みにリアルタイムで適応できるようなメソッドを設計することである。 そこで本研究では,Fair Federated Learning(PraFFL)パラダイムを用いたPreference-Awareスキームを提案する。 PraFFLは、ニーズを満たすために、各クライアントの好みに基づいてモデルを適応的に調整することができる。 理論的には、PrafFLは各クライアントの任意の好みに合わせて最適なモデルを提供し、その線形収束を示すことができる。 実験の結果,提案したPrafFLは,クライアントの好みに適応するモデルの能力の観点から,5つの公正なフェデレーション学習アルゴリズムより優れていた。

Fairness in federated learning has emerged as a critical concern, aiming to develop an unbiased model for any special group (e.g., male or female) of sensitive features. However, there is a trade-off between model performance and fairness, i.e., improving model fairness will decrease model performance. Existing approaches have characterized such a trade-off by introducing hyperparameters to quantify client's preferences for model fairness and model performance. Nevertheless, these approaches are limited to scenarios where each client has only a single pre-defined preference, and fail to work in practical systems where each client generally have multiple preferences. The key challenge is to design a method that allows the model to adapt to diverse preferences of each client in real time. To this end, we propose a Preference-aware scheme in Fair Federated Learning paradigm (called PraFFL) to generate preference-wise model in real time. PraFFL can adaptively adjust the model based on each client's preferences to meet their needs. We theoretically prove that PraFFL can offer the optimal model tailored to an arbitrary preference of each client, and show its linear convergence. Experimental results show that our proposed PraFFL outperforms five fair federated learning algorithms in terms of the model's capability of adapting to clients' different preferences.
翻訳日:2024-08-08 17:20:23 公開日:2024-08-07
# 正規化流を用いた自律走行におけるモデル予測軌道計画のサンプリング

Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows ( http://arxiv.org/abs/2404.09657v3 )

ライセンス: Link先を確認
Georg Rabenstein, Lars Ullrich, Knut Graichen, (参考訳) 最適化に基づくプランナーの他に、サンプリングに基づくアプローチは、単純さのために自動走行の軌道計画によく用いられる。 モデル予測経路積分制御は、入力軌跡の確率的サンプリングを取り入れつつ、最適化原理に基づくフレームワークである。 本稿では,軌道生成のためのサンプリング手法について検討する。 この文脈では、単純な分布からより複雑な分布の変換をモデル化するため、サンプリング分布の生成には変分推論の場に由来する正規化フローが考慮される。 したがって、学習に基づく正規化フローモデルを訓練し、タスクの入力領域をより効率的に探索する。 提案手法は,2つのシミュレーションシナリオで評価した。

Alongside optimization-based planners, sampling-based approaches are often used in trajectory planning for autonomous driving due to their simplicity. Model predictive path integral control is a framework that builds upon optimization principles while incorporating stochastic sampling of input trajectories. This paper investigates several sampling approaches for trajectory generation. In this context, normalizing flows originating from the field of variational inference are considered for the generation of sampling distributions, as they model transformations of simple to more complex distributions. Accordingly, learning-based normalizing flow models are trained for a more efficient exploration of the input domain for the task at hand. The developed algorithm and the proposed sampling distributions are evaluated in two simulation scenarios.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 正負のスケーリングによるコントラスト学習による合成画像検索の改善

Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives ( http://arxiv.org/abs/2404.11317v2 )

ライセンス: Link先を確認
Zhangchi Feng, Richong Zhang, Zhijie Nie, (参考訳) Composed Image Retrieval (CIR)タスクは、参照画像と修正テキストからなる合成クエリを使用してターゲット画像を取得することを目的としている。 高度な手法はしばしば、適切な正と負の例から恩恵を受ける最適化の目的として対照的な学習を利用する。 しかし、CIRの三重項は、高い手動アノテーションコストを発生させ、限られた正の例をもたらす。 さらに、既存の手法では、バッチ内の負のサンプリングが一般的であり、モデルで利用できる負の数を減少させる。 正の欠如に対処するために,マルチモーダルな大言語モデルを用いてCIR用三重項を生成するデータ生成手法を提案する。 そこで我々は,2段目のCIRのための2段階の微調整フレームワークを設計し,その2段目では多くの静的な否定表現を導入し,表現空間を高速に最適化する。 上記の2つの改善は効果的に積み重ねられ、プラグイン・アンド・プレイとして設計され、元のアーキテクチャを変更することなく既存のCIRモデルに容易に適用できる。 拡張実験とアブレーション解析により,本手法は正と負を効果的にスケールし,FashionIQとCIRRの両方のデータセットで最先端の結果が得られることを示した。 さらに,提案手法はゼロショット合成画像検索でも良好に機能し,低リソースシナリオに新たなCIRソリューションを提供する。 私たちのコードとデータはhttps://github.com/BUAADreamer/SPN4CIRで公開されています。

The Composed Image Retrieval (CIR) task aims to retrieve target images using a composed query consisting of a reference image and a modified text. Advanced methods often utilize contrastive learning as the optimization objective, which benefits from adequate positive and negative examples. However, the triplet for CIR incurs high manual annotation costs, resulting in limited positive examples. Furthermore, existing methods commonly use in-batch negative sampling, which reduces the negative number available for the model. To address the problem of lack of positives, we propose a data generation method by leveraging a multi-modal large language model to construct triplets for CIR. To introduce more negatives during fine-tuning, we design a two-stage fine-tuning framework for CIR, whose second stage introduces plenty of static representations of negatives to optimize the representation space rapidly. The above two improvements can be effectively stacked and designed to be plug-and-play, easily applied to existing CIR models without changing their original architectures. Extensive experiments and ablation analysis demonstrate that our method effectively scales positives and negatives and achieves state-of-the-art results on both FashionIQ and CIRR datasets. In addition, our method also performs well in zero-shot composed image retrieval, providing a new CIR solution for the low-resources scenario. Our code and data are released at https://github.com/BUAADreamer/SPN4CIR.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# ORBIT:オークリッジベースモデルによる地球システムの予測可能性

ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability ( http://arxiv.org/abs/2404.14712v3 )

ライセンス: Link先を確認
Xiao Wang, Siyan Liu, Aristeidis Tsaris, Jong-Youl Choi, Ashwin Aji, Ming Fan, Wei Zhang, Junqi Yin, Moetasim Ashfaq, Dan Lu, Prasanna Balaprakash, (参考訳) 地球系の予測可能性には、環境力学の複雑さと、関連する変数の多さがある。 現在のAI基盤モデルは、大規模で異質なデータを活用することで進歩しているが、そのサイズとデータ統合によって制約されることが多く、地球系の予測問題に対処する上での有効性を制限している。 これらの制限を克服するために、新しいハイブリッドテンソルデータ直交並列化技術を用いて、最大130億のパラメータをスケールする先進的な視覚トランスフォーマーモデルであるOak Ridge Base Foundation Model for Earth System Predictability (ORBIT)を導入する。 この種の最大のモデルとして、ORBITは現在の気候AIファンデーションモデルサイズを1000倍に超えている。 Frontierスーパーコンピュータで実施された性能スケーリングテストでは、ORBITは684ペタFLOPSから1.6エキサFLOPSの持続スループットを実現し、49,152AMDGPUで41%から85%のスケーリング効率を維持した。 これらのブレークスルーは、AI駆動の気候モデリングの新たな進歩を確立し、地球系の予測可能性を大幅に改善する約束を実証する。

Earth system predictability is challenged by the complexity of environmental dynamics and the multitude of variables involved. Current AI foundation models, although advanced by leveraging large and heterogeneous data, are often constrained by their size and data integration, limiting their effectiveness in addressing the full range of Earth system prediction challenges. To overcome these limitations, we introduce the Oak Ridge Base Foundation Model for Earth System Predictability (ORBIT), an advanced vision transformer model that scales up to 113 billion parameters using a novel hybrid tensor-data orthogonal parallelism technique. As the largest model of its kind, ORBIT surpasses the current climate AI foundation model size by a thousandfold. Performance scaling tests conducted on the Frontier supercomputer have demonstrated that ORBIT achieves 684 petaFLOPS to 1.6 exaFLOPS sustained throughput, with scaling efficiency maintained at 41% to 85% across 49,152 AMD GPUs. These breakthroughs establish new advances in AI-driven climate modeling and demonstrate promise to significantly improve the Earth system predictability.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# エアトラヒック制御器のマルチモーダル生理学的データを用いた主観的時間知覚の自動分類

Automatic Classification of Subjective Time Perception Using Multi-modal Physiological Data of Air Traffic Controllers ( http://arxiv.org/abs/2404.15213v2 )

ライセンス: Link先を確認
Till Aust, Eirini Balta, Argiro Vatakis, Heiko Hamann, (参考訳) 人間の個人が複数の実体を同時に監視し、効果的にコミュニケーションし、集中を維持しなければならない高圧環境では、時間の知覚がパフォーマンスと幸福に影響を与える重要な要因となる。 幸福感の指標の1つは、その人の主観的時間知覚である。 プロジェクト$ChronoPilot$では、人間の主観的時間知覚を調節するデバイスの開発を目指しています。 本研究では,その生理的データと11種類の最先端機械学習分類器を用いて,航空交通管制官の主観的時間知覚を自動的に評価する手法を提案する。 生理データは、光胸腺図、電球活動、温度データから成っている。 支持ベクトル分類器は,99%の精度で有効であり,電磁気活性は最も説明的なバイオマーカーを提供する。 これらの発見は、ユーザの主観的時間知覚を自動的に調節するために、$ChronoPilot$-deviceのフィードバックループを閉じるための重要なステップです。 この技術進歩は、高度な専門職におけるタスクマネジメント、ストレス低減、全体的な生産性の向上を約束する。

In high-pressure environments where human individuals must simultaneously monitor multiple entities, communicate effectively, and maintain intense focus, the perception of time becomes a critical factor influencing performance and well-being. One indicator of well-being can be the person's subjective time perception. In our project $ChronoPilot$, we aim to develop a device that modulates human subjective time perception. In this study, we present a method to automatically assess the subjective time perception of air traffic controllers, a group often faced with demanding conditions, using their physiological data and eleven state-of-the-art machine learning classifiers. The physiological data consist of photoplethysmogram, electrodermal activity, and temperature data. We find that the support vector classifier works best with an accuracy of 79 % and electrodermal activity provides the most descriptive biomarker. These findings are an important step towards closing the feedback loop of our $ChronoPilot$-device to automatically modulate the user's subjective time perception. This technological advancement may promise improvements in task management, stress reduction, and overall productivity in high-stakes professions.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 拡張脳波回帰のためのTCNetによる事前学習型ViTのFusing

Fusing Pretrained ViTs with TCNet for Enhanced EEG Regression ( http://arxiv.org/abs/2404.15311v2 )

ライセンス: Link先を確認
Eric Modesitt, Haicheng Yin, Williams Huang Wang, Brian Lu, (参考訳) 脳波(EEG)解析の課題は脳-コンピュータインタフェース(BCI)の発展に最重要である。 しかし、堅牢で有用なBCIを開発するという目標を達成するには、BCIが神経力学を理解する速度と精度に大きく依存する。 本論文は,脳波回帰の精度を高めるために,事前学習された視覚変換器(ViT)と時間畳み込みネットワーク(TCNet)の統合について詳述する。 このアプローチのコアとなるのは、ViTのシーケンシャルなデータ処理強度とTCNetの優れた特徴抽出能力を活用して、EEG分析の精度を大幅に向上させることである。 さらに、速度と精度のトレードオフを解析し、バランスをとるためのアテンション機構に最適なパッチを構築することの重要性を分析する。 この結果,EEGEyeNetの絶対位置タスクにおいて,ルート平均角誤差(RMSE)が55.4から51.8に削減され,既存の最先端モデルよりも精度が向上した。 性能を犠牲にすることなく、このモデルの速度を桁違いに向上させる(最大4.32倍高速)。 このブレークスルーは、EEG回帰分析の新しいベンチマークを設定するだけでなく、トランスフォーマーアーキテクチャと様々なEEGデータセットのための特別な特徴抽出メソッドの統合における将来の研究のための新たな道を開く。

The task of Electroencephalogram (EEG) analysis is paramount to the development of Brain-Computer Interfaces (BCIs). However, to reach the goal of developing robust, useful BCIs depends heavily on the speed and the accuracy at which BCIs can understand neural dynamics. In response to that goal, this paper details the integration of pre-trained Vision Transformers (ViTs) with Temporal Convolutional Networks (TCNet) to enhance the precision of EEG regression. The core of this approach lies in harnessing the sequential data processing strengths of ViTs along with the superior feature extraction capabilities of TCNet, to significantly improve EEG analysis accuracy. In addition, we analyze the importance of how to construct optimal patches for the attention mechanism to analyze, balancing both speed and accuracy tradeoffs. Our results showcase a substantial improvement in regression accuracy, as evidenced by the reduction of Root Mean Square Error (RMSE) from 55.4 to 51.8 on EEGEyeNet's Absolute Position Task, outperforming existing state-of-the-art models. Without sacrificing performance, we increase the speed of this model by an order of magnitude (up to 4.32x faster). This breakthrough not only sets a new benchmark in EEG regression analysis but also opens new avenues for future research in the integration of transformer architectures with specialized feature extraction methods for diverse EEG datasets.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# パラメータ化動的論理 - 汎用プログラム仕様と検証のための循環論理フレームワークを目指して

Parameterized Dynamic Logic -- Towards A Cyclic Logical Framework for General Program Specification and Verification ( http://arxiv.org/abs/2404.18098v3 )

ライセンス: Link先を確認
Yuanrui Zhang, (参考訳) 動的論理とそのバリエーションは、プログラム特性を捉えるための明確で表現力のある形式のため、プログラム/システム仕様と検証の形式として長年使われてきた。 動的論理のプログラムモデルは明示的な形式である。 異なる対象のプログラムモデルに対して、異なるモデルのセマンティクスを適用するために異なる動的論理理論が提案される必要がある。 本稿では,汎用プログラムモデルの定義と推論のためのパラメータ化'動的論理型'形式,すなわち$DL_p$を提案する。 DL_p$ では、プログラムモデルと論理式は「パラメータ」として扱われ、異なる関心領域に応じて任意の形式が許される。 この特性により、$DL_p$は、構文構造に基づく構成的推論を保持しながら、プログラムモデルの操作的セマンティクスに基づいて直接推論をサポートすることができる。 $DL_p$は、異なる動的論理理論を包含する柔軟な検証フレームワークを提供する。 さらに、セマンティクスが構成的でないプログラムモデル、例えばニューラルネットワーク、オートマタベースのモデル、同期プログラミング言語などについても推論を容易にする。 主に$DL_p$の理論の構築に焦点をあて、構文と意味論を定義し、証明システムを構築し、循環型防食構造を構築する。 我々は$DL_p$の音質を分析し、証明する。 ケーススタディは、$DL_p$が異なるタイプのプログラムモデルについて推論するためにどのように機能するかを示している。

Dynamic logic and its variations, because of their clear and expressive forms for capturing program properties, have been used as formalisms in program/system specification and verification for years and have many other applications. The program models of dynamic logics are in explicit forms. For different target program models, different dynamic logic theories have to be proposed to adapt different models' semantics. In this paper, we propose a parameterized `dynamic-logic-style' formalism, namely $DL_p$, for specifying and reasoning about general program models. In $DL_p$, program models and logical formulas are taken as `parameters', allowing arbitrary forms according to different interested domains. This characteristic allows $DL_p$ to support direct reasoning based on the operational semantics of program models, while still preserving compositional reasoning based on syntactic structures. $DL_p$ provides a flexible verification framework to encompass different dynamic logic theories. In addition, it also facilitates reasoning about program models whose semantics is not compositional, examples are neural networks, automata-based models, synchronous programming languages, etc. We mainly focus on building the theory of $DL_p$, including defining its syntax and semantics, building a proof system and constructing a cyclic preproof structure. We analyze and prove the soundness of $DL_p$. Case studies show how $DL_p$ works for reasoning about different types of program models.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# CrossMatch: 摂動戦略と知識蒸留による半監督型医用画像セグメンテーション

CrossMatch: Enhance Semi-Supervised Medical Image Segmentation with Perturbation Strategies and Knowledge Distillation ( http://arxiv.org/abs/2405.00354v2 )

ライセンス: Link先を確認
Bin Zhao, Chunshi Wang, Shuxue Ding, (参考訳) 医用画像セグメンテーションのための半教師付き学習は、豊富なラベル付きデータを活用しながら、限られたラベル付きデータを効率的に利用するというユニークな課題を提示する。 進歩にもかかわらず、既存の手法はモデル堅牢性と精度を高めるためにラベルのないデータの可能性を完全に活用しないことが多い。 本稿では,ラベル付きデータとラベルなしデータの両方からモデルの学習を改善するために,知識蒸留と二重摂動戦略を融合した新しいフレームワークであるCrossMatchを紹介する。 CrossMatchでは、複数のエンコーダとデコーダを使用して、さまざまなデータストリームを生成する。 本手法は,ラベル付きデータのトレーニングとラベルなしデータのギャップを効果的に最小化し,医用画像セグメンテーションにおけるエッジ精度と一般化を向上することにより,標準ベンチマークにおける他の最先端技術を大幅に上回っている。 CrossMatchの有効性は、広範囲な実験的検証を通じて実証され、計算コストを増大させることなく、顕著な性能向上を示す。 この実装のコードはhttps://github.com/AiEson/CrossMatch.gitで公開されている。

Semi-supervised learning for medical image segmentation presents a unique challenge of efficiently using limited labeled data while leveraging abundant unlabeled data. Despite advancements, existing methods often do not fully exploit the potential of the unlabeled data for enhancing model robustness and accuracy. In this paper, we introduce CrossMatch, a novel framework that integrates knowledge distillation with dual perturbation strategies-image-level and feature-level-to improve the model's learning from both labeled and unlabeled data. CrossMatch employs multiple encoders and decoders to generate diverse data streams, which undergo self-knowledge distillation to enhance consistency and reliability of predictions across varied perturbations. Our method significantly surpasses other state-of-the-art techniques in standard benchmarks by effectively minimizing the gap between training on labeled and unlabeled data and improving edge accuracy and generalization in medical image segmentation. The efficacy of CrossMatch is demonstrated through extensive experimental validations, showing remarkable performance improvements without increasing computational costs. Code for this implementation is made available at https://github.com/AiEson/CrossMatch.git.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# D2PO:応答評価モデルを用いた識別器誘導型DPO

D2PO: Discriminator-Guided DPO with Response Evaluation Models ( http://arxiv.org/abs/2405.01511v2 )

ライセンス: Link先を確認
Prasann Singhal, Nathan Lambert, Scott Niekum, Tanya Goyal, Greg Durrett, (参考訳) 教師付き微調整,RLHF,DPOなどの直接最適化など,言語モデルの整合性向上のためのアプローチが提案されている。 DPOは、直接的なトレーニングプロセスと競争結果によって急速に人気を博しているが、報酬モデルのような識別器を用いて応答を評価するという現実的な利点があるかどうかについては、未解決の問題がある。 学習を通して嗜好が収集されるオンライン環境におけるD2PO, D2POを提案する。 金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。 我々は、現実的なチャット設定を含む一連の多様なタスクにわたってこのアプローチを探求し、我々のアプローチが、同じデータ予算を持つDPOと比較して高品質なアウトプットを導き、好みのデータ要求の観点でより効率の良いものにすることを発見した。 さらに、DPOで政策を訓練する際に最も効果的であり、従来のPPOよりも優れており、政策モデルとは別の差別者を維持する利点があることを示す。

Varied approaches for aligning language models have been proposed, including supervised fine-tuning, RLHF, and direct optimization methods such as DPO. Although DPO has rapidly gained popularity due to its straightforward training process and competitive results, there is an open question of whether there remain practical advantages of using a discriminator, like a reward model, to evaluate responses. We propose D2PO, discriminator-guided DPO, an approach for the online setting where preferences are being collected throughout learning. As we collect gold preferences, we use these not only to train our policy, but to train a discriminative response evaluation model to silver-label even more synthetic data for policy training. We explore this approach across a set of diverse tasks, including a realistic chat setting, we find that our approach leads to higher-quality outputs compared to DPO with the same data budget, and greater efficiency in terms of preference data requirements. Furthermore, we show conditions under which silver labeling is most helpful: it is most effective when training the policy with DPO, outperforming traditional PPO, and benefits from maintaining a separate discriminator from the policy model.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 映像品質向上のための圧縮強化深部構造ネットワーク

Compression-Realized Deep Structural Network for Video Quality Enhancement ( http://arxiv.org/abs/2405.06342v2 )

ライセンス: Link先を確認
Hanchi Sun, Xiaohong Liu, Xinyang Jiang, Yifei Shen, Dongsheng Li, Xiongkuo Min, Guangtao Zhai, (参考訳) 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。 ディープネットワークベースのビデオレコーダは目覚ましい進歩を遂げるが、既存の手法の多くは圧縮コーデックの事前処理を最適に活用するための構造化設計を欠いている。 ビデオの品質劣化は主に圧縮アルゴリズムによって引き起こされるため、より「意識的」な品質向上プロセスのためには、新しいパラダイムが緊急に必要となる。 その結果,従来の圧縮コーデックの3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,従来のエンコーダアーキテクチャの強みと深いネットワーク機能とを融合するCRDS(Compression-Realized Deep Structure Network)を提案する。 コーデック内の残差抽出およびドメイン変換プロセスにインスパイアされ、ビデオフレームを潜在特徴空間に変換するために事前訓練された遅延分解残差自動エンコーダが提案され、各近傍の注意機構が正確な動き推定と残差抽出のために統合される。 さらに、コーデックの量子化雑音分布からインスピレーションを得たCRDSは、品質向上を一連の簡易な減音サブタスクに分解する中間監督型プログレッシブ・デノナイジング・フレームワークを提案する。 LDV 2.0やMFQE 2.0のようなデータセットの実験結果は、我々のアプローチが最先端のモデルを上回ることを示している。 コードはhttps://github.com/shc15522/CRDSで公開されている。

This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more ``conscious'' process of quality enhancement. As a result, we propose the Compression-Realized Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models. Codes are available at https://github.com/shc15522/CRDS.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# Semantic Guidanceを用いた拡散型ヒューマンモーションスタイルトランスファー

Diffusion-based Human Motion Style Transfer with Semantic Guidance ( http://arxiv.org/abs/2405.06646v2 )

ライセンス: Link先を確認
Lei Hu, Zihao Zhang, Yongjing Ye, Yiwen Xu, Shihong Xia, (参考訳) コンピュータグラフィックスおよびアニメーション処理における3次元モーションスタイル転送は基本的な問題である。 既存のAdaINベースのメソッドは、クラスタ化された潜在空間をトレーニングするために、バランスのとれたスタイルの分散とコンテンツ/スタイルのラベルを持つデータセットを必要とする。 しかし,AdaINをベースとした手法のスタイルクラスタを構成するのに十分な量ではありませんでした。 そこで本論文では,拡散モデルに基づく少数ショットスタイルのトランスファー学習のための新しい2段階フレームワークを提案する。 特に、第1段階では、様々なコンテンツ動作入力に対処できるように、拡散に基づくテキスト・トゥ・モーションモデルを生成前として事前訓練する。 第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。 キーとなる考え方は、運動スタイルを特別な動きのバリエーションと見なすことができるため、運動スタイル翻訳プロセスとしての拡散の逆過程に関するものである。 スタイル転送を微調整する際、CLIPセマンティック空間におけるスタイル転送を監督するために、スタイルの例再構成損失と協調した、シンプルで効果的なセマンティック誘導型スタイル転送損失を導入する。 定性的かつ定量的な評価は,本手法が最先端の性能を達成でき,実用的応用が期待できることを示す。

3D Human motion style transfer is a fundamental problem in computer graphic and animation processing. Existing AdaIN- based methods necessitate datasets with balanced style distribution and content/style labels to train the clustered latent space. However, we may encounter a single unseen style example in practical scenarios, but not in sufficient quantity to constitute a style cluster for AdaIN-based methods. Therefore, in this paper, we propose a novel two-stage framework for few-shot style transfer learning based on the diffusion model. Specifically, in the first stage, we pre-train a diffusion-based text-to-motion model as a generative prior so that it can cope with various content motion inputs. In the second stage, based on the single style example, we fine-tune the pre-trained diffusion model in a few-shot manner to make it capable of style transfer. The key idea is regarding the reverse process of diffusion as a motion-style translation process since the motion styles can be viewed as special motion variations. During the fine-tuning for style transfer, a simple yet effective semantic-guided style transfer loss coordinated with style example reconstruction loss is introduced to supervise the style transfer in CLIP semantic space. The qualitative and quantitative evaluations demonstrate that our method can achieve state-of-the-art performance and has practical applications.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# CatCMA : 混合カテゴリ問題に対する確率的最適化

CatCMA : Stochastic Optimization for Mixed-Category Problems ( http://arxiv.org/abs/2405.09962v2 )

ライセンス: Link先を確認
Ryoki Hamano, Shota Saito, Masahiro Nomura, Kento Uchida, Shinichi Shirakawa, (参考訳) ブラックボックス最適化の問題は、連続変数、整数変数、カテゴリー変数など、異なるタイプの変数を同時に最適化する必要があることが多い。 整数変数とは異なり、圏変数は必ずしも有意な順序を持たず、連続変数の離散化アプローチはうまく機能しない。 いくつかのベイズ最適化手法は混合カテゴリブラックボックス最適化(MC-BBO)を扱うことができるが、高次元問題へのスケーラビリティの欠如と内部計算コストに悩まされている。 本稿では,多変量ガウス分布とカテゴリー分布の合同確率分布を探索分布として用いた,MC-BBO問題の確率的最適化手法であるCatCMAを提案する。 CatCMAは、自然勾配方向の結合確率分布のパラメータを更新する。 CatCMAはまた、共分散行列適応進化戦略(CMA-ES)や、ステップサイズ適応や学習率適応といった確率的自然勾配法で用いられる加速技術も取り入れている。 さらに,分類分布パラメータの範囲をマージンで制限し,早期収束を防止し,有望なマージン設定を解析的に導出する。 数値実験により、CatCMAの性能は、最先端のベイズ最適化アルゴリズムと比較して、問題次元よりも優れ、より堅牢であることが示された。

Black-box optimization problems often require simultaneously optimizing different types of variables, such as continuous, integer, and categorical variables. Unlike integer variables, categorical variables do not necessarily have a meaningful order, and the discretization approach of continuous variables does not work well. Although several Bayesian optimization methods can deal with mixed-category black-box optimization (MC-BBO), they suffer from a lack of scalability to high-dimensional problems and internal computational cost. This paper proposes CatCMA, a stochastic optimization method for MC-BBO problems, which employs the joint probability distribution of multivariate Gaussian and categorical distributions as the search distribution. CatCMA updates the parameters of the joint probability distribution in the natural gradient direction. CatCMA also incorporates the acceleration techniques used in the covariance matrix adaptation evolution strategy (CMA-ES) and the stochastic natural gradient method, such as step-size adaptation and learning rate adaptation. In addition, we restrict the ranges of the categorical distribution parameters by margin to prevent premature convergence and analytically derive a promising margin setting. Numerical experiments show that the performance of CatCMA is superior and more robust to problem dimensions compared to state-of-the-art Bayesian optimization algorithms.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて

FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2405.10885v2 )

ライセンス: Link先を確認
Fei Wang, Jun Cheng, (参考訳) 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。 精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。 第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。 第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。 第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。 大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。 コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。

Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 分子の真空分極 II:高次補正

Vacuum polarization in molecules II: higher order corrections ( http://arxiv.org/abs/2405.11261v2 )

ライセンス: Link先を確認
D. J. Flynn, I. P. Grant, H. M. Quiney, (参考訳) 実効電場拡大における真空偏光現象に対する一般的な定式化について概説する。 静電ポテンシャル, 誘導電荷密度, 運動量空間における形状因子の観点から, 電荷と仮想場との結合について検討した。 真空偏極ポテンシャルの効率的な計算戦略を概説し, 分子電子構造計算に適した適合ポテンシャルの構築に適用した。 電子-陽電子場に対するガウス核電荷の効果は、E119F分子に対して、および仮想ミューオンおよび荷電ピオン場から生じる効果に対して、$\alpha(Z \alpha)$, $\alpha(Z \alpha)$, $\alpha(Z \alpha)^{3}$および$\alpha^{2}(Z\alpha)$効果が変動的に適用される。

We outline a general formalism for treating vacuum polarization phenomena within an effective field expansion. The coupling between source charges and virtual fields is examined from the perspectives of electrostatic potentials, induced charge densities and form factors in momentum space. A strategy for the efficient calculation of vacuum polarization potentials is outlined, implemented, and applied towards the construction of fitting potentials that are suitable for molecular electronic structure calculations, which enclose no overall charge by construction. The order $\alpha(Z \alpha)$, $\alpha (Z \alpha)^{3}$ and $\alpha^{2}(Z\alpha)$ effects of a Gaussian nuclear charge on the electron-positron field are applied variationally towards the E119F molecule, as well as the order $\alpha(Z \alpha)$ effects arising from the virtual muon and charged pion fields.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 分子の真空分極 I:ユアリング相互作用

Vacuum polarization in molecules I: Uehling interaction ( http://arxiv.org/abs/2405.11262v2 )

ライセンス: Link先を確認
D. J. Flynn, I. P. Grant, H. M. Quiney, (参考訳) 電子構造に対するラジカル補正は、$\alpha$と$Z\alpha$の摂動膨張によって特徴づけられる。 分子の相対論的電子構造に関する計算研究において、再正規化真空分極に対する先行次$\alpha(Z\alpha)$ Uehlingの寄与の定式化が有用な形で報告される。 これらの手法に基づくベンチマーク計算では、E119$^+$イオンと閉殻二原子種E119Fの相対論的平均場法における優先真空偏極効果が報告されている。

Radiative corrections to electronic structure are characterized by perturbative expansions in $\alpha$ and $Z\alpha$, where $\alpha$ is the fine-structure constant and $Z$ is the nuclear charge. A formulation of the leading-order $\alpha(Z\alpha)$ Uehling contribution to the renormalized vacuum polarization is reported in a form that is convenient for implementation in computational studies of the relativistic electronic structures of molecules. Benchmark calculations based on these methods are reported that include the leading-order vacuum polarization effects within relativistic mean-field methods for the E119$^+$ ion and the closed-shell diatomic species E119F.
翻訳日:2024-08-08 15:25:48 公開日:2024-08-07
# 医用画像翻訳のためのカスケードマルチパスショートカット拡散モデル

Cascaded Multi-path Shortcut Diffusion Model for Medical Image Translation ( http://arxiv.org/abs/2405.12223v2 )

ライセンス: Link先を確認
Yinchi Zhou, Tianqi Chen, Jun Hou, Huidong Xie, Nicha C. Dvornek, S. Kevin Zhou, David L. Wilson, James S. Duncan, Chi Liu, Bo Zhou, (参考訳) 画像から画像への変換は、医療画像処理において重要な要素であり、様々な画像モダリティや臨床シナリオに多くの用途がある。 従来の手法としては、GAN(Generative Adversarial Networks)やDM(Diffusion Models)がある。 医用画像翻訳作業において, GAN と DM の両手法が個別にその能力を示したが, GAN と DM を組み合わせて翻訳性能を向上し,不確実性評価を可能にする可能性はほとんど未検討のままである。 本稿では,高品質な医用画像翻訳と不確実性推定のためのカスケードマルチパスショートカット拡散モデル(CMDM)を提案することで,これらの課題に対処する。 所要回数の削減とロバストな性能を確保するため,本手法はまず,DMによる効率的な逆変換に使用される条件付きGAN生成先行画像を得る。 さらに、翻訳結果を洗練し、不確実性を推定するために、マルチパスショートカット拡散戦略を用いる。 カスケードパイプラインは、カスケード間の残留平均化を組み込んだ翻訳品質をさらに向上させる。 それぞれのデータセットに2つのサブタスクを持つ3つの異なる医用画像データセットを収集し、アプローチの一般化性を検証する。 実験の結果,CMDMは最先端の手法に匹敵する高品質な翻訳を生成できることがわかった。

Image-to-image translation is a vital component in medical imaging processing, with many uses in a wide range of imaging modalities and clinical scenarios. Previous methods include Generative Adversarial Networks (GANs) and Diffusion Models (DMs), which offer realism but suffer from instability and lack uncertainty estimation. Even though both GAN and DM methods have individually exhibited their capability in medical image translation tasks, the potential of combining a GAN and DM to further improve translation performance and to enable uncertainty estimation remains largely unexplored. In this work, we address these challenges by proposing a Cascade Multi-path Shortcut Diffusion Model (CMDM) for high-quality medical image translation and uncertainty estimation. To reduce the required number of iterations and ensure robust performance, our method first obtains a conditional GAN-generated prior image that will be used for the efficient reverse translation with a DM in the subsequent step. Additionally, a multi-path shortcut diffusion strategy is employed to refine translation results and estimate uncertainty. A cascaded pipeline further enhances translation quality, incorporating residual averaging between cascades. We collected three different medical image datasets with two sub-tasks for each dataset to test the generalizability of our approach. Our experimental results found that CMDM can produce high-quality translations comparable to state-of-the-art methods while providing reasonable uncertainty estimations that correlate well with the translation error.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# 連続的な事前学習と辞書学習分析による翻訳データに基づく言語モデルの改善

Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis ( http://arxiv.org/abs/2405.14277v2 )

ライセンス: Link先を確認
Sabri Boughorbel, MD Rizwan Parvez, Majd Hawasly, (参考訳) 低リソース言語のためのLLMのトレーニングは、通常、機械翻訳(MT)を使用して英語からのデータ拡張を利用する。 しかし、これはLLMトレーニングに多くの課題をもたらしている: ハイエンドの機械翻訳ソリューションで大量のコンテンツを翻訳し、キュレーションするための大きなコスト; 翻訳されたコンテンツは文化的バイアスを乗り越える; 翻訳が忠実で正確でない場合、データ品質はトレーニングモデルに問題を引き起こす。 本研究では,学習言語モデルにおける翻訳と合成データの役割について検討する。 NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。 このデータを用いて,サイズ1M-33Mのストーリー生成モデルを学習する。 結果のモデルでは、品質やタスク固有の問題をいくつか特定する。 これらの問題を是正するために、我々は、元のトレーニングデータの1%を表現した、有能なLLMによって生成された高品質のアラビア物語の小さなデータセットを用いて、モデルをさらに事前訓練する。 本稿では,GPT-4を判定として使用し,機械的解釈可能性から辞書学習分析を行い,提案手法が機械翻訳の落とし穴を解決するための実用的な方法であることを示す。 言語的・文化的偏見のケーススタディを通じて改善について述べる。

Training LLMs for low-resource languages usually utilizes data augmentation from English using machine translation (MT). This, however, brings a number of challenges to LLM training: there are large costs attached to translating and curating huge amounts of content with high-end machine translation solutions; the translated content carries over cultural biases; and if the translation is not faithful and accurate, data quality degrades causing issues in the trained model. In this work, we investigate the role of translation and synthetic data in training language models. We translate TinyStories, a dataset of 2.2M short stories for 3-4 year old children, from English to Arabic using the open NLLB-3B MT model. We train a number of story generation models of size 1M-33M parameters using this data. We identify a number of quality and task-specific issues in the resulting models. To rectify these issues, we further pre-train the models with a small dataset of synthesized high-quality Arabic stories generated by a capable LLM, representing 1% of the original training data. We show, using GPT-4 as a judge and Dictionary Learning Analysis from mechanistic interpretability, that the suggested approach is a practical means to resolve some of the machine translation pitfalls. We illustrate the improvements through case studies of linguistic and cultural bias issues.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# 分散調和:フェデレートされたクラスタバッチ効果の調整と一般化

Distributed Harmonization: Federated Clustered Batch Effect Adjustment and Generalization ( http://arxiv.org/abs/2405.15081v3 )

ライセンス: Link先を確認
Bao Hoang, Yijiang Pang, Siqi Liang, Liang Zhan, Paul Thompson, Jiayu Zhou, (参考訳) 独立かつ同一に分散したデータ(d.d.)は多くのデータ分析とモデリング技術に不可欠である。 医療分野において、複数の施設や施設からデータを収集することは、医療データの分散性によって決定される十分な臨床多様性を保証する共通の戦略である。 しかし、各地のデータは、現地の環境や施設によって容易にバイアスを受け、従ってi.d.ルールに違反する。 一般的な戦略は、重要な生物学的情報を保持しながら、サイトのバイアスを調和させることである。 ComBatは最も人気のある調和方式の一つであり、最近分散サイトを扱うように拡張されている。 しかし、新しく加入したサイトが未知のサイトからデータをトレーニングしたり、評価したりする状況に直面している場合、ComBatは互換性に欠け、すべてのサイトからのデータで再トレーニングする必要がある。 再訓練は計算上のオーバーヘッドとロジスティックなオーバーヘッドをもたらし、通常は禁止される。 本研究では,異なるサイトのデータのクラスタパターンを活用し,ComBatのハーモニゼーションのユーザビリティを大幅に向上させる新しいクラスタ・コンバット・ハーモニゼーション・アルゴリズムを提案する。 提案手法の優位性を実証するために,ADNIによる広範囲なシミュレーションと実際の医用画像データを用いた。 私たちのコードはhttps://github.com/illidanlab/distributed-cluster-harmonizationで提供されます。

Independent and identically distributed (i.i.d.) data is essential to many data analysis and modeling techniques. In the medical domain, collecting data from multiple sites or institutions is a common strategy that guarantees sufficient clinical diversity, determined by the decentralized nature of medical data. However, data from various sites are easily biased by the local environment or facilities, thereby violating the i.i.d. rule. A common strategy is to harmonize the site bias while retaining important biological information. The ComBat is among the most popular harmonization approaches and has recently been extended to handle distributed sites. However, when faced with situations involving newly joined sites in training or evaluating data from unknown/unseen sites, ComBat lacks compatibility and requires retraining with data from all the sites. The retraining leads to significant computational and logistic overhead that is usually prohibitive. In this work, we develop a novel Cluster ComBat harmonization algorithm, which leverages cluster patterns of the data in different sites and greatly advances the usability of ComBat harmonization. We use extensive simulation and real medical imaging data from ADNI to demonstrate the superiority of the proposed approach. Our codes are provided in https://github.com/illidanlab/distributed-cluster-harmonization.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# GANアクティベーションの可視化とペイント

Visualize and Paint GAN Activations ( http://arxiv.org/abs/2405.15636v3 )

ライセンス: Link先を確認
Rudolf Herdt, Peter Maass, (参考訳) これらのモデルの内部動作をよりよく理解し、無条件で訓練されたGANで構造を描くことを目的として、GANの生成した構造と、それらが隠れた層内での活性化とどのように相関するかを考察する。 これにより、生成された画像をより制御し、トレーニングデータにそのようなセグメンテーションを必要としないセグメンテーションマップからセグメンテーションを生成することができます。 この目的のために、タイル可能な特徴の概念を導入し、絵を描くのにうまく機能するアクティベーションを識別できるようにします。

We investigate how generated structures of GANs correlate with their activations in hidden layers, with the purpose of better understanding the inner workings of those models and being able to paint structures with unconditionally trained GANs. This gives us more control over the generated images, allowing to generate them from a semantic segmentation map while not requiring such a segmentation in the training data. To this end we introduce the concept of tileable features, allowing us to identify activations that work well for painting.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# 正規化流れを伴う確率論的にプラズブルな対実的説明

Probabilistically Plausible Counterfactual Explanations with Normalizing Flows ( http://arxiv.org/abs/2405.17640v2 )

ライセンス: Link先を確認
Patryk Wielopolski, Oleksii Furman, Jerzy Stefanowski, Maciej Zięba, (参考訳) 本稿では,確率論的に妥当な対実的説明(CF)を生成する新しい手法であるPPCEFを提案する。 PPCEFは、データ分散を利用する確率的定式化と、統一されたフレームワーク内での妥当性の最適化を組み合わせることで、既存の手法を超えて進歩する。 参照手法と比較して, パラメータ分布の特定の族を仮定することなく, 明示的な密度関数を直接最適化することにより, 精度を向上する。 これにより、CFが有効である(すなわち、クラスの変化を達成する)だけでなく、基礎となるデータの確率密度と整合することを保証する。 そこで本手法では, 複雑な高次元データ分布を捉えるために, 密度推定器として正規化フローを利用する。 さらに,クラス変更の達成と,元のインスタンスとの親密性維持のトレードオフを両立させると同時に,確率的妥当性の項を取り入れた新たな損失を導入する。 PPCEFの制約のない定式化により、バッチ処理による効率的な勾配ベースの最適化が可能となり、従来の方法に比べて桁違いに高速な計算が可能となった。 さらに、制約のない PPCEF の定式化により、特定の反事実特性に合わせた将来の制約のシームレスな統合が可能になる。 最後に、PPCEFが高次元表層環境において、高品質で確率論的に妥当な反事実的説明を生成するのに優れていることを示す。 これにより、PPCEFは、複雑な機械学習モデルを解釈するだけでなく、公正性、説明責任、AIシステムの信頼を改善するための強力なツールになります。

We present PPCEF, a novel method for generating probabilistically plausible counterfactual explanations (CFs). PPCEF advances beyond existing methods by combining a probabilistic formulation that leverages the data distribution with the optimization of plausibility within a unified framework. Compared to reference approaches, our method enforces plausibility by directly optimizing the explicit density function without assuming a particular family of parametrized distributions. This ensures CFs are not only valid (i.e., achieve class change) but also align with the underlying data's probability density. For that purpose, our approach leverages normalizing flows as powerful density estimators to capture the complex high-dimensional data distribution. Furthermore, we introduce a novel loss that balances the trade-off between achieving class change and maintaining closeness to the original instance while also incorporating a probabilistic plausibility term. PPCEF's unconstrained formulation allows for efficient gradient-based optimization with batch processing, leading to orders of magnitude faster computation compared to prior methods. Moreover, the unconstrained formulation of PPCEF allows for the seamless integration of future constraints tailored to specific counterfactual properties. Finally, extensive evaluations demonstrate PPCEF's superiority in generating high-quality, probabilistically plausible counterfactual explanations in high-dimensional tabular settings. This makes PPCEF a powerful tool for not only interpreting complex machine learning models but also for improving fairness, accountability, and trust in AI systems.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# FourierMamba: イメージデライニングのためのステートスペースモデルとフーリエラーニング統合

FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining ( http://arxiv.org/abs/2405.19450v2 )

ライセンス: Link先を確認
Dong Li, Yidi Liu, Xueyang Fu, Senyan Xu, Zheng-Jun Zha, (参考訳) Image derainingは雨が降る画像から雨の跡を取り除き、透明な背景を復元することを目的としている。 現在、フーリエ変換を用いたいくつかの研究は、降雨を捉える前に有効な周波数として機能するため、画像の劣化に有効であることが証明されている。 しかし、画像に低周波と高周波の依存性があるにもかかわらず、これらのフーリエ法は、学習手順の整合性に異なる周波数の相関を利用することは稀であり、画像デラリニングにおける周波数情報の完全利用を制限している。 あるいは、最近登場したMamba手法は、様々な領域(例えば、空間的、時間的)における相関をモデル化するための効果と効率を描いており、異なる周波数を相関付けるために、探索されていないフーリエ空間にMambaを導入することは、画像のデライニングを改善するのに役立つと論じている。 これにより,FourierMambaという新たなフレームワークが提案され,Fourier空間におけるMambaとのイメージデベリングが実現された。 フーリエマムバのコアは、フーリエ空間における周波数順序のユニークな配置に依拠し、低周波順序形式は空間次元(軸に配置されていない)とチャネル次元(軸に配置されている)で異なる形で表される。 そこで我々は、空間次元とチャネル次元のフーリエ空間情報を異なる設計で関連付けるフーリエマンバを設計する。 具体的には、空間次元フーリエ空間において、周波数をスキャンして低周波数から高周波数に並べ替えることで、周波数間の接続を秩序的に関連付けるジグザグ符号を導入する。

Image deraining aims to remove rain streaks from rainy images and restore clear backgrounds. Currently, some research that employs the Fourier transform has proved to be effective for image deraining, due to it acting as an effective frequency prior for capturing rain streaks. However, despite there exists dependency of low frequency and high frequency in images, these Fourier-based methods rarely exploit the correlation of different frequencies for conjuncting their learning procedures, limiting the full utilization of frequency information for image deraining. Alternatively, the recently emerged Mamba technique depicts its effectiveness and efficiency for modeling correlation in various domains (e.g., spatial, temporal), and we argue that introducing Mamba into its unexplored Fourier spaces to correlate different frequencies would help improve image deraining. This motivates us to propose a new framework termed FourierMamba, which performs image deraining with Mamba in the Fourier space. Owning to the unique arrangement of frequency orders in Fourier space, the core of FourierMamba lies in the scanning encoding of different frequencies, where the low-high frequency order formats exhibit differently in the spatial dimension (unarranged in axis) and channel dimension (arranged in axis). Therefore, we design FourierMamba that correlates Fourier space information in the spatial and channel dimensions with distinct designs. Specifically, in the spatial dimension Fourier space, we introduce the zigzag coding to scan the frequencies to rearrange the orders from low to high frequencies, thereby orderly correlating the connections between frequencies; in the channel dimension Fourier space with arranged orders of frequencies in axis, we can directly use Mamba to perform frequency correlation and improve the channel information representation.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# QClusformer: 教師なしビジュアルクラスタリングのための量子トランスフォーマーベースのフレームワーク

QClusformer: A Quantum Transformer-based Framework for Unsupervised Visual Clustering ( http://arxiv.org/abs/2405.19722v2 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Hoang-Quan Nguyen, Samuel Yen-Chi Chen, Samee U. Khan, Hugh Churchill, Khoa Luu, (参考訳) コンピュータビジョンの基盤である教師なしの視覚クラスタリングは、何十年にもわたって研究され、多くの視覚タスクにおいて大きな成果を上げてきた。 しかし、これらのアルゴリズムは大量のラベルのないデータに直面したとき、かなりの計算要求を伴う。 逆に、量子コンピューティングは、大規模データベースを扱う際に、教師なしアルゴリズムの高速化を約束する。 本研究では、量子マシンを活用し、教師なしの視覚クラスタリング問題に対処する先駆的なTransformerベースのフレームワークであるQClusformerを紹介する。 具体的には、量子ハードウェア上での実行を可能にするために、自己アテンションモジュールやトランスフォーマーブロックを含むトランスフォーマーアーキテクチャを量子の観点から設計する。 さらに、教師なし視覚クラスタリングタスクに適したTransformerアーキテクチャに基づく変種であるQClusformerを提案する。 これらの要素をエンドツーエンドのフレームワークに統合することで、QClusformerは古典的なコンピュータ上で動作する従来の手法より一貫して優れている。 MS-Celeb-1MやDeepFashionを含む様々なベンチマークにおける実証的な評価は、最先端の手法と比較してQClusformerの優れた性能を裏付けている。

Unsupervised vision clustering, a cornerstone in computer vision, has been studied for decades, yielding significant outcomes across numerous vision tasks. However, these algorithms involve substantial computational demands when confronted with vast amounts of unlabeled data. Conversely, quantum computing holds promise in expediting unsupervised algorithms when handling large-scale databases. In this study, we introduce QClusformer, a pioneering Transformer-based framework leveraging quantum machines to tackle unsupervised vision clustering challenges. Specifically, we design the Transformer architecture, including the self-attention module and transformer blocks, from a quantum perspective to enable execution on quantum hardware. In addition, we present QClusformer, a variant based on the Transformer architecture, tailored for unsupervised vision clustering tasks. By integrating these elements into an end-to-end framework, QClusformer consistently outperforms previous methods running on classical computers. Empirical evaluations across diverse benchmarks, including MS-Celeb-1M and DeepFashion, underscore the superior performance of QClusformer compared to state-of-the-art methods.
翻訳日:2024-08-08 15:15:51 公開日:2024-08-07
# アントコロニーダイナミクスの神経進化シミュレーション環境

A Simulation Environment for the Neuroevolution of Ant Colony Dynamics ( http://arxiv.org/abs/2406.13147v2 )

ライセンス: Link先を確認
Michael Crosscombe, Ilya Horiguchi, Norihiro Maruyama, Shigeto Dobata, Takashi Ikegami, (参考訳) 我々は,アリコロニーの動態を複製することに着目し,創発的集団行動の研究を促進するためのシミュレーション環境を導入する。 現実のデータを活用することで、環境は、ターゲットアリが観測した感覚データを用いて、制御可能なエージェントが複製を学ばなければならないターゲットアリの跡をシミュレートする。 この研究は、ネットワークトポロジにおけるドメイン固有の振る舞いをエンコードする神経アーキテクチャの進化に焦点を当て、集合的行動のためのモデルの神経進化に寄与することを目的としている。 制御された環境で修正および研究できるモデルを進化させることで、集団行動の出現に必要な条件を明らかにすることができる。 この環境が、集団システムにおける創発的行動における相互作用の役割を研究する人々にとって有用であることを願っている。

We introduce a simulation environment to facilitate research into emergent collective behaviour, with a focus on replicating the dynamics of ant colonies. By leveraging real-world data, the environment simulates a target ant trail that a controllable agent must learn to replicate, using sensory data observed by the target ant. This work aims to contribute to the neuroevolution of models for collective behaviour, focusing on evolving neural architectures that encode domain-specific behaviours in the network topology. By evolving models that can be modified and studied in a controlled environment, we can uncover the necessary conditions required for collective behaviours to emerge. We hope this environment will be useful to those studying the role of interactions in emergent behaviour within collective systems.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# 機械学習とメタボロミクスデータを用いたドライアイ病患者の健康管理の分類

Classifying Dry Eye Disease Patients from Healthy Controls Using Machine Learning and Metabolomics Data ( http://arxiv.org/abs/2406.14068v2 )

ライセンス: Link先を確認
Sajad Amouei Sheshkal, Morten Gundersen, Michael Alexander Riegler, Øygunn Aass Utheim, Kjell Gunnar Gundersen, Hugo Lewi Hammer, (参考訳) ドライアイ病は眼表面の一般的な疾患であり、患者はアイケアを求める。 現在、ドライアイ病の診断に臨床症状や症状が用いられている。 生体系を解析する手法であるメタボロミクスは、患者の異なる代謝産物の同定や、初期のドライアイ病を示す代謝プロファイルの検出に有用である。 本研究では, ドライアイ病の白内障患者を特定するために, 機械学習とメタボロミクス情報を用いて検討した。 メタボロミクスデータに適した機械学習モデルが存在しないため、最も適切なモデルを選択することは、予測の品質とその後のメタボロミクス分析に大きな影響を与える可能性がある。 この課題に対処するため,白内障患者の3つのメタボロミクスデータセットを用いた9つの機械学習モデルの比較分析を行った。 モデルをネストしたk-foldクロスバリデーションを用いて評価・最適化した。 これらのモデルの性能を評価するため、データセットの課題に適した評価指標のセットを選択した。 総合的なロジスティック回帰モデルは,曲線スコア0.8378,バランス精度0.735,マシュー相関係数0.5147,F1スコア0.8513,特異度0.5667で最高値を達成した。 さらに、ロジスティック回帰の後、XGBoostとRandom Forestのモデルも優れた性能を示した。

Dry eye disease is a common disorder of the ocular surface, leading patients to seek eye care. Clinical signs and symptoms are currently used to diagnose dry eye disease. Metabolomics, a method for analyzing biological systems, has been found helpful in identifying distinct metabolites in patients and in detecting metabolic profiles that may indicate dry eye disease at early stages. In this study, we explored using machine learning and metabolomics information to identify which cataract patients suffered from dry eye disease. As there is no one-size-fits-all machine learning model for metabolomics data, choosing the most suitable model can significantly affect the quality of predictions and subsequent metabolomics analyses. To address this challenge, we conducted a comparative analysis of nine machine learning models on three metabolomics data sets from cataract patients with and without dry eye disease. The models were evaluated and optimized using nested k-fold cross-validation. To assess the performance of these models, we selected a set of suitable evaluation metrics tailored to the data set's challenges. The logistic regression model overall performed the best, achieving the highest area under the curve score of 0.8378, balanced accuracy of 0.735, Matthew's correlation coefficient of 0.5147, an F1-score of 0.8513, and a specificity of 0.5667. Additionally, following the logistic regression, the XGBoost and Random Forest models also demonstrated good performance.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# SoK:DAO攻撃

SoK: Attacks on DAOs ( http://arxiv.org/abs/2406.15071v2 )

ライセンス: Link先を確認
Rainer Feichtinger, Robin Fritsch, Lioba Heimbach, Yann Vonlanthen, Roger Wattenhofer, (参考訳) 分散自律組織(DAO)は、分散型ガバナンスを促進するブロックチェーンベースの組織である。 現在、DAOは銀行に数十億ドルを保有するだけでなく、最も人気のある分散ファイナンス(DeFi)プロトコルの多くも管理している。 本稿では,セキュリティの脅威をDAOに体系的に分析し,それらが直面する攻撃の種類に着目した。 我々は,過去に発生したDAOに対する攻撃,可能と仮定された攻撃,および監査において発見され防止された潜在的攻撃について検討した。 これらの攻撃(潜在的攻撃)について、攻撃ベクトルを4つのカテゴリに分類する。 これは、DAOに対する多くの攻撃が、ガバナンスにかかわるより具体的で複雑な人間の特性を生かしているが、監査はコードとプロトコルの脆弱性に焦点を当てる傾向があることを示している。 さらに、DAOの脆弱性に関する実証データを調べ、これらの攻撃に影響を及ぼすリスク要因を概説し、そのような脆弱性に対して防御するための緩和戦略を提案する。

Decentralized Autonomous Organizations (DAOs) are blockchain-based organizations that facilitate decentralized governance. Today, DAOs not only hold billions of dollars in their treasury but also govern many of the most popular Decentralized Finance (DeFi) protocols. This paper systematically analyses security threats to DAOs, focusing on the types of attacks they face. We study attacks on DAOs that took place in the past, attacks that have been theorized to be possible, and potential attacks that were uncovered and prevented in audits. For each of these (potential) attacks, we describe and categorize the attack vectors utilized into four categories. This reveals that while many attacks on DAOs take advantage of the less tangible and more complex human nature involved in governance, audits tend to focus on code and protocol vulnerabilities. Thus, additionally, the paper examines empirical data on DAO vulnerabilities, outlines risk factors contributing to these attacks, and suggests mitigation strategies to safeguard against such vulnerabilities.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# Imperative Learning:ロボット自律性のための自己教師型ニューラルネットワーク学習フレームワーク

Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy ( http://arxiv.org/abs/2406.16087v4 )

ライセンス: Link先を確認
Chen Wang, Kaiyi Ji, Junyi Geng, Zhongqiang Ren, Taimeng Fu, Fan Yang, Yifan Guo, Haonan He, Xiangyu Chen, Zitong Zhan, Qiwei Du, Shaoshu Su, Bowen Li, Yuheng Qiu, Yi Du, Qihang Li, Yifan Yang, Xiao Lin, Zhipeng Zhao, (参考訳) 強化や模倣学習のようなデータ駆動の手法は、ロボットの自律性において顕著な成功を収めた。 しかし、データ中心の性質は、常に変化する環境への一般化を妨げている。 さらに、ロボットタスクのための大規模なデータセットの収集は非現実的で高価であることが多い。 これらの課題を克服するために,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入し,シンボル推論の一般化能力を活用する。 ILのフレームワークは、ニューラルモジュール、推論エンジン、メモリシステムという3つの主要コンポーネントで構成されている。 ILを特別な二段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。 これは、データ駆動アプローチに関連するラベル集約的な障害を克服し、論理的推論、物理原理、幾何学的解析などに関する象徴的推論を活用する。 本稿では,ILの最適化手法について議論し,経路計画,ルール誘導,最適制御,視覚計測,マルチロボットルーティングを含む5つのロボット自律作業において,その有効性を検証する。 様々な実験を通して、ILはロボットの自律能力を大幅に向上させ、様々な領域にわたるさらなる研究を促進することを期待する。

Data-driven methods such as reinforcement and imitation learning have achieved remarkable success in robot autonomy. However, their data-centric nature still hinders them from generalizing well to ever-changing environments. Moreover, collecting large datasets for robotic tasks is often impractical and expensive. To overcome these challenges, we introduce a new self-supervised neural-symbolic (NeSy) computational framework, imperative learning (IL), for robot autonomy, leveraging the generalization abilities of symbolic reasoning. The framework of IL consists of three primary components: a neural module, a reasoning engine, and a memory system. We formulate IL as a special bilevel optimization (BLO), which enables reciprocal learning over the three modules. This overcomes the label-intensive obstacles associated with data-driven approaches and takes advantage of symbolic reasoning concerning logical reasoning, physical principles, geometric analysis, etc. We discuss several optimization techniques for IL and verify their effectiveness in five distinct robot autonomy tasks including path planning, rule induction, optimal control, visual odometry, and multi-robot routing. Through various experiments, we show that IL can significantly enhance robot autonomy capabilities and we anticipate that it will catalyze further research across diverse domains.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# パーソナライズされた拡散モデルにおけるショートカット学習の検証と予防

Investigating and Defending Shortcut Learning in Personalized Diffusion Models ( http://arxiv.org/abs/2406.18944v3 )

ライセンス: Link先を確認
Yixin Liu, Ruoxi Chen, Lichao Sun, (参考訳) パーソナライズされた拡散モデルは、訓練済みのテキスト・ツー・イメージ・モデルを適用して、最小限のトレーニングデータで特定のトピックの画像を生成することで人気を集めている。 しかし、これらのモデルは小さな逆境の摂動に弱いため、破損したデータセットのパフォーマンスが低下する。 このような脆弱性は、不正な生成を防ぐポートレートのような機密性の高い画像に、保護的な摂動を作らせるためにさらに活用されている。 これに対し, これらの摂動を除去し, 生成性能を維持するため, 拡散法に基づく浄化法が提案されている。 しかし、既存の作品では画像の浄化が過度に行われ、情報が失われる。 本稿では、ショートカット学習のレンズを通してパーソナライズされた拡散モデルの微調整過程について詳しく検討する。 また,既存の摂動法の操作機構を説明する仮説を提案し,CLIPをベースとした潜伏空間において,摂動画像が元のプロンプトから著しく逸脱していることを示す。 この微調整時のミスアライメントは、モデルがノイズパターンと識別子を関連付ける原因となり、性能が低下する。 これらの知見に基づき, 浄化によるトレーニング性能維持のための体系的アプローチを導入する。 提案手法は,まず画像の清浄化を行い,その意味を潜在空間で意味づける。 そして,ノイズパターンからクリーンなアイデンティティの学習を分離するために,負のトークンを用いた対照的な学習を導入し,適応的摂動に対する強い潜在能力を示す。 本研究は,パーソナライズされた拡散モデルにおけるショートカット学習の脆弱性を明らかにし,将来の保護摂動研究のためのしっかりとした評価枠組みを提供する。 コードはhttps://github.com/liuyixin-louis/DiffShortcut.comで入手できる。

Personalized diffusion models have gained popularity for adapting pre-trained text-to-image models to generate images of specific topics with minimal training data. However, these models are vulnerable to minor adversarial perturbations, leading to degraded performance on corrupted datasets. Such vulnerabilities are further exploited to craft protective perturbations on sensitive images like portraits that prevent unauthorized generation. In response, diffusion-based purification methods have been proposed to remove these perturbations and retain generation performance. However, existing works turn to over-purifying the images, which causes information loss. In this paper, we take a closer look at the fine-tuning process of personalized diffusion models through the lens of shortcut learning. And we propose a hypothesis explaining the manipulation mechanisms of existing perturbation methods, demonstrating that perturbed images significantly deviate from their original prompts in the CLIP-based latent space. This misalignment during fine-tuning causes models to associate noisy patterns with identifiers, resulting in performance degradation. Based on these insights, we introduce a systematic approach to maintain training performance through purification. Our method first purifies the images to realign them with their original semantic meanings in latent space. Then, we introduce contrastive learning with negative tokens to decouple the learning of clean identities from noisy patterns, which shows a strong potential capacity against adaptive perturbation. Our study uncovers shortcut learning vulnerabilities in personalized diffusion models and provides a firm evaluation framework for future protective perturbation research. Code is available at https://github.com/liuyixin-louis/DiffShortcut.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# VisEval: 大規模言語モデルの時代におけるデータの可視化のためのベンチマーク

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models ( http://arxiv.org/abs/2407.00981v2 )

ライセンス: Link先を確認
Nan Chen, Yuge Zhang, Jiahang Xu, Kan Ren, Yuqing Yang, (参考訳) 自然言語から可視化への変換(NL2VIS)は、ビジュアルデータ分析において非常に有望であるが、自然言語処理や視覚化設計など、複数の低レベル実装を必要とする課題である。 事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。 しかし、総合的で信頼性の高いベンチマークが欠如していることは、可視化生成におけるLLMの能力の理解を妨げる。 本稿では,VesEvalと呼ばれる新しいNL2VISベンチマークを提案することで,このギャップに対処する。 まず,高品質で大規模なデータセットを紹介する。 このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。 第2に,有効性,合法性,可読性など,複数の側面を網羅した総合的自動評価手法を提案する。 多くの異種チェッカーによる潜在的な問題を体系的にスキャンすることで、VisEvalは信頼性と信頼性の高い評価結果を提供する。 私たちはVisEvalを最先端のLLMで実行しています。 本評価では,今後の課題を明らかにするとともに,今後の進歩に不可欠な洞察を提供する。

Translating natural language to visualization (NL2VIS) has shown great promise for visual data analysis, but it remains a challenging task that requires multiple low-level implementations, such as natural language processing and visualization design. Recent advancements in pre-trained large language models (LLMs) are opening new avenues for generating visualizations from natural language. However, the lack of a comprehensive and reliable benchmark hinders our understanding of LLMs' capabilities in visualization generation. In this paper, we address this gap by proposing a new NL2VIS benchmark called VisEval. Firstly, we introduce a high-quality and large-scale dataset. This dataset includes 2,524 representative queries covering 146 databases, paired with accurately labeled ground truths. Secondly, we advocate for a comprehensive automated evaluation methodology covering multiple dimensions, including validity, legality, and readability. By systematically scanning for potential issues with a number of heterogeneous checkers, VisEval provides reliable and trustworthy evaluation outcomes. We run VisEval on a series of state-of-the-art LLMs. Our evaluation reveals prevalent challenges and delivers essential insights for future advancements.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# 因果経路の実践的ガイドとサブグループ格差分析

Practical Guide for Causal Pathways and Sub-group Disparity Analysis ( http://arxiv.org/abs/2407.02702v3 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Shaina Raza, Oluwanifemi Bamgbose, Deval Pandya, Elham Dolatabadi, (参考訳) 本研究では,感性属性と実世界の観測データにおける目標結果との因果関係と因果関係を明らかにするための因果不均質分析の適用について紹介する。 本手法では,因果分解分析を用いて因果関係の定量化と評価を行う。 また、因果不均質分析における異種性評価の統合の重要性を強調し、特定のサブグループにおける感度属性が結果に与える影響について深い洞察を得る。 当社の2段階の調査は、レースがセンシティブな属性として機能するデータセットに焦点を当てています。 2つのデータセットの結果は、因果解析と不均一性評価の利点が、データのバイアスを定量化するだけでなく、結果への影響を解消するためにも有効であることを示している。 本研究は,ML分類誤差が最も大きい部分群が,最も影響を受けやすい部分群であることが実証された。 また、機密属性のみに基づいてデータをグループ化するだけでは不十分であることが示され、これらの分析により、不一致によって直接影響を受けるサブグループを見つけることができる。 我々の発見は、将来の倫理的AIプラクティスやバイアス監査にそのような方法論を採用することを奨励し、より公平で公正な技術的景観を育むことを願っている。

In this study, we introduce the application of causal disparity analysis to unveil intricate relationships and causal pathways between sensitive attributes and the targeted outcomes within real-world observational data. Our methodology involves employing causal decomposition analysis to quantify and examine the causal interplay between sensitive attributes and outcomes. We also emphasize the significance of integrating heterogeneity assessment in causal disparity analysis to gain deeper insights into the impact of sensitive attributes within specific sub-groups on outcomes. Our two-step investigation focuses on datasets where race serves as the sensitive attribute. The results on two datasets indicate the benefit of leveraging causal analysis and heterogeneity assessment not only for quantifying biases in the data but also for disentangling their influences on outcomes. We demonstrate that the sub-groups identified by our approach to be affected the most by disparities are the ones with the largest ML classification errors. We also show that grouping the data only based on a sensitive attribute is not enough, and through these analyses, we can find sub-groups that are directly affected by disparities. We hope that our findings will encourage the adoption of such methodologies in future ethical AI practices and bias audits, fostering a more equitable and fair technological landscape.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# MobileFlow:モバイルGUIエージェントのためのマルチモーダルLLM

MobileFlow: A Multimodal LLM For Mobile GUI Agent ( http://arxiv.org/abs/2407.04346v2 )

ライセンス: Link先を確認
Songqin Nong, Jiali Zhu, Rui Wu, Jiongchao Jin, Shuo Shan, Xiutian Huang, Wenhao Xu, (参考訳) 現在、モバイルグラフィカルユーザインタフェース(GUI)の統合は、ほとんどの人の日常生活に広く浸透している。 また,GPT-4vやQwen-VL-Maxといったマルチモーダル大規模モデルの進化により,GUI理解能力とユーザ行動分析能力が大きく向上し,知的GUIアシスタントの可能性を示している。 しかし、現在のGUIエージェントは、しばしばページレイアウト情報に呼び出しシステムAPIを通してアクセスする必要があるため、プライバシー上のリスクが生じる可能性がある。 GUI(例えばモバイルインターフェース)をある程度の低解像度に固定すると、微細な画像の詳細が失われる可能性がある。 同時に、GUI Agents用に構築されたマルチモーダルな大規模モデルは、現在、中国のGUIインターフェースに対する理解と意思決定能力に乏しいため、多数の中国アプリに適用することは困難である。 本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。 オープンソースのQwen-VL-ChatからGUIドメインに変換されるMobileFlowは、約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えており、画像入力の可変解像度と多言語GUIのサポートが可能である。 Mixture of Experts (MoE)の拡張とアライメントトレーニング戦略のパイオニア化によって、MobileFlowは、画像データを完全に解釈し、GUIインタラクションタスクのユーザインストラクションを理解する能力を持つ。 最後に、MobileFlowは、公開および提案した評価指標の両方においてGUIエージェントによるタスク実行の観点からQwen-VL-MaxとGPT-4vを上回り、実世界のビジネス環境でのデプロイに成功した。

Currently, the integration of mobile Graphical User Interfaces (GUIs) is ubiquitous in most people's daily lives. And the ongoing evolution of multimodal large-scale models, such as GPT-4v, Qwen-VL-Max, has significantly bolstered the capabilities of GUI comprehension and user action analysis, showcasing the potentiality of intelligent GUI assistants. However, current GUI Agents often need to access page layout information through calling system APIs, which may pose privacy risks. Fixing GUI (such as mobile interfaces) to a certain low resolution might result in the loss of fine-grained image details. At the same time, the multimodal large models built for GUI Agents currently have poor understanding and decision-making abilities for Chinese GUI interfaces, making them difficult to apply to a large number of Chinese apps. This paper introduces MobileFlow, a multimodal large language model meticulously crafted for mobile GUI agents. Transforming from the open-source model Qwen-VL-Chat into GUI domain, MobileFlow contains approximately 21 billion parameters and is equipped with novel hybrid visual encoders, making it possible for variable resolutions of image inputs and good support for multilingual GUI. By incorporating Mixture of Experts (MoE) expansions and pioneering alignment training strategies, MobileFlow has the capacity to fully interpret image data and comprehend user instructions for GUI interaction tasks. Finally, MobileFlow outperforms Qwen-VL-Max and GPT-4v in terms of task execution by GUI agents on both public and our proposed evaluation metrics, and has been successfully deployed in real-world business contexts, proving its effectiveness for practical applications.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# HyperKAN: Kolmogorov-Arnold NetworksがHyperspectral Image Classificatorsを賢く

HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter ( http://arxiv.org/abs/2407.05278v2 )

ライセンス: Link先を確認
Valeriy Lobanov, Nikita Firsov, Evgeny Myasnikov, Roman Khabibullin, Artem Nikonorov, (参考訳) 従来のニューラルネットワークアーキテクチャでは、多層パーセプトロン(MLP)が特徴抽出段階に続く分類ブロックとして使用されるのが一般的である。 しかし、コルモゴロフ・アルノルドネットワーク(KAN)は、予測精度を高める可能性を秘め、MLPに代わる有望な選択肢を提示している。 本稿では,従来のネットワークの線形層と畳み込み層をKANベースの層に置き換える手法を提案する。 これらの修正により,高スペクトルリモートセンシング画像の画素単位の分類精度が大幅に向上した。 我々は、ハイパースペクトル画像分類のための7つの異なるニューラルネットワークアーキテクチャを修正し、全ネットワークにわたる分類精度を大幅に改善した。 論文で検討されたアーキテクチャには、ベースラインMLP、最先端1D (1DCNN) と3D畳み込み (2つの異なる3DCNN、NM3DCNN)、トランスフォーマー (SSFTT) アーキテクチャ、新たに提案されたM1DCNNが含まれる。 最も大きな効果は、スペクトルデータのみを扱う畳み込みネットワークにおいて達成され、最も優れた分類品質はKanoベースのトランスフォーマーアーキテクチャを用いて達成された。 実験はすべて、公開されている7つのハイパースペクトルデータセットを用いて行われた。 私たちのコードはhttps://github.com/f-neumann77/HyperKANで利用可能です。

In traditional neural network architectures, a multilayer perceptron (MLP) is typically employed as a classification block following the feature extraction stage. However, the Kolmogorov-Arnold Network (KAN) presents a promising alternative to MLP, offering the potential to enhance prediction accuracy. In this paper, we propose the replacement of linear and convolutional layers of traditional networks with KAN-based counterparts. These modifications allowed us to significantly increase the per-pixel classification accuracy for hyperspectral remote-sensing images. We modified seven different neural network architectures for hyperspectral image classification and observed a substantial improvement in the classification accuracy across all the networks. The architectures considered in the paper include baseline MLP, state-of-the-art 1D (1DCNN) and 3D convolutional (two different 3DCNN, NM3DCNN), and transformer (SSFTT) architectures, as well as newly proposed M1DCNN. The greatest effect was achieved for convolutional networks working exclusively on spectral data, and the best classification quality was achieved using a KAN-based transformer architecture. All the experiments were conducted using seven openly available hyperspectral datasets. Our code is available at https://github.com/f-neumann77/HyperKAN.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# PsycoLLM:心理学的理解と評価のためのLLMの強化

PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation ( http://arxiv.org/abs/2407.05721v2 )

ライセンス: Link先を確認
Jinpeng Hu, Tengteng Dong, Luo Gang, Hui Ma, Peng Zou, Xiao Sun, Dan Guo, Meng Wang, (参考訳) 近年、メンタルヘルスが注目されており、LLMはテキスト理解と対話の能力によってこの問題を緩和する有効な技術となっている。 しかし、この領域における既存の研究は、重要な事前知識や証拠を欠いたデータセットのトレーニングや包括的な評価方法の欠如といった制限に悩まされることが多い。 本稿では,一ターンQA,多ターン対話,知識に基づくQAを含む,高品質な心理的データセットを訓練した,PsycoLLM(PsycoLLM)という特殊な心理大規模言語モデルを提案する。 具体的には、生成、エビデンス判定、精査を含む3段階のパイプラインを通して、マルチターン対話を構築する。 この過程を,オンラインプラットフォームから抽出した実世界心理学的背景を用いて拡張し,生成したデータの妥当性と適用性を高める。 また、PsycoLLMと他のLLMの性能を比較するために、専門的倫理、理論的熟練度、ケース分析などの評価を含む、中国における権威的心理学的カウンセリング試験に基づく総合的心理学的ベンチマークを開発する。 ベンチマーク実験の結果は、他のLLMと比較して優れた性能を示すPsycoLLMの有効性を示している。

Mental health has attracted substantial attention in recent years and LLM can be an effective technology for alleviating this problem owing to its capability in text understanding and dialogue. However, existing research in this domain often suffers from limitations, such as training on datasets lacking crucial prior knowledge and evidence, and the absence of comprehensive evaluation methods. In this paper, we propose a specialized psychological large language model (LLM), named PsycoLLM, trained on a proposed high-quality psychological dataset, including single-turn QA, multi-turn dialogues and knowledge-based QA. Specifically, we construct multi-turn dialogues through a three-step pipeline comprising generation, evidence judgment, and refinement. We augment this process with real-world psychological case backgrounds extracted from online platforms, enhancing the relevance and applicability of the generated data. Additionally, to compare the performance of PsycoLLM with other LLMs, we develop a comprehensive psychological benchmark based on authoritative psychological counseling examinations in China, which includes assessments of professional ethics, theoretical proficiency, and case analysis. The experimental results on the benchmark illustrates the effectiveness of PsycoLLM, which demonstrates superior performance compared to other LLMs.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# 反射間再構成のためのマルチ時間モンテカルロレンダリング

Multi-times Monte Carlo Rendering for Inter-reflection Reconstruction ( http://arxiv.org/abs/2407.05771v2 )

ライセンス: Link先を確認
Tengjie Zhu, Zhuo Chen, Jingnan Gao, Yichao Yan, Xiaokang Yang, (参考訳) 逆レンダリング法は、非絡み合ったジオメトリー、材料、環境光で高忠実度3Dオブジェクトを再構成する際、顕著な性能を実現している。 しかし、反射面の復元には大きな課題がある。 近年の方法は光トレースをモデル化して光の特異性を学習するが、間接照明の無知は、複数の滑らかな物体間の反射間処理を困難にしている。 本研究では, 環境照明を包括的に計算し, 物体表面からの反射光を考慮したマルチタイムモンテカルロサンプリングを導入するRef-MC2を提案する。 モンテカルロサンプリングの時代が進むにつれ,計算の課題に対処するため,特異性適応型サンプリング戦略を提案し,計算複雑性を著しく低減する。 計算資源の他に、幾何誤差が複数回蓄積されるため、より高い幾何精度も要求される。 そこで本研究では,逆レンダリング時に幾何を初期化し,それを洗練するための反射認識表面モデルについても紹介する。 複数のオブジェクトと相互反射を含むシーンを含む挑戦的なデータセットを構築する。 実験により,本手法は様々な対象群において,他の逆レンダリング手法よりも優れていることが示された。 また,本手法のアンタングル化能力を示すために,リライティングや素材編集などのダウンストリームアプリケーションも紹介する。

Inverse rendering methods have achieved remarkable performance in reconstructing high-fidelity 3D objects with disentangled geometries, materials, and environmental light. However, they still face huge challenges in reflective surface reconstruction. Although recent methods model the light trace to learn specularity, the ignorance of indirect illumination makes it hard to handle inter-reflections among multiple smooth objects. In this work, we propose Ref-MC2 that introduces the multi-time Monte Carlo sampling which comprehensively computes the environmental illumination and meanwhile considers the reflective light from object surfaces. To address the computation challenge as the times of Monte Carlo sampling grow, we propose a specularity-adaptive sampling strategy, significantly reducing the computational complexity. Besides the computational resource, higher geometry accuracy is also required because geometric errors accumulate multiple times. Therefore, we further introduce a reflection-aware surface model to initialize the geometry and refine it during inverse rendering. We construct a challenging dataset containing scenes with multiple objects and inter-reflections. Experiments show that our method outperforms other inverse rendering methods on various object groups. We also show downstream applications, e.g., relighting and material editing, to illustrate the disentanglement ability of our method.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# PAS:データ効率の良いPlug-and-Play Prompt Augmentation System

PAS: Data-Efficient Plug-and-Play Prompt Augmentation System ( http://arxiv.org/abs/2407.06027v5 )

ライセンス: Link先を確認
Miao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Youzhen Wu, Kun Li, Yanjun Shen, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, (参考訳) 近年、Large Language Models(LLMs)の台頭により、プラグアンドプレイAIシステムへの需要が高まっている。 様々なAI技術の中で、プロンプトエンジニアリングは特に重要である。 しかし、学習曲線の急激さや時間投資の大幅な増加により、ユーザーはプロンプトを書くことの難しさに直面することが多く、既存の自動プロンプトエンジニアリング(APE)モデルを使用することは困難である。 この問題に対処するために, LLM ベースのプラグアンドプレイ APE システム PAS を提案する。 PASは高品質で自動生成される補完的なデータセットに基づいてトレーニングされたLLMを使用し、例外的なパフォーマンスを実現している。 総合的なベンチマークでは、PASは従来のAPEモデルと比較して、平均6.09ポイントの改善を達成している。 さらに、PASは非常に効率的で、9000のデータポイントしか持たないSoTAの性能を実現している。 さらに、PASは人的労働を必要とせずに、即時増強データを自律的に生成することができる。 この柔軟性により、既存のすべてのLLMと互換性があり、幅広いタスクに適用できる。 PASは人間の評価に優れており、ユーザのためのプラグインとしての適合性を強調している。 高い性能、効率、柔軟性の組み合わせにより、PASはプロンプトエンジニアリングの改善を通じてLCMのユーザビリティと有効性を向上する貴重なシステムとなっている。

In recent years, the rise of Large Language Models (LLMs) has spurred a growing demand for plug-and-play AI systems. Among the various AI techniques, prompt engineering stands out as particularly significant. However, users often face challenges in writing prompts due to the steep learning curve and significant time investment, and existing automatic prompt engineering (APE) models can be difficult to use. To address this issue, we propose PAS, an LLM-based plug-and-play APE system. PAS utilizes LLMs trained on high-quality, automatically generated prompt complementary datasets, resulting in exceptional performance. In comprehensive benchmarks, PAS achieves state-of-the-art (SoTA) results compared to previous APE models, with an average improvement of 6.09 points. Moreover, PAS is highly efficient, achieving SoTA performance with only 9000 data points. Additionally, PAS can autonomously generate prompt augmentation data without requiring additional human labor. Its flexibility also allows it to be compatible with all existing LLMs and applicable to a wide range of tasks. PAS excels in human evaluations, underscoring its suitability as a plug-in for users. This combination of high performance, efficiency, and flexibility makes PAS a valuable system for enhancing the usability and effectiveness of LLMs through improved prompt engineering.
翻訳日:2024-08-08 15:05:56 公開日:2024-08-07
# 収束パラダイム: LLMを利用した自律エージェントにおけるシンボリックAIとコネクショナリズムAIの相乗効果

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents ( http://arxiv.org/abs/2407.08516v4 )

ライセンス: Link先を確認
Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Laura E. Barnes, (参考訳) 本稿では,コネクショナリズムと象徴的人工知能(AI)の融合について,歴史的議論から現代的進歩まで検討する。 従来は異なるパラダイムと考えられてきたが、コネクショナリストAIはニューラルネットワークに焦点を当てており、シンボリックAIはシンボリック表現と論理を強調している。 大型言語モデル(LLM)の最近の進歩は、ChatGPTとGPT-4によって実証されたものであり、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。 この研究は、LLMを利用した自律エージェント(LAA)がこのパラダイムの収束を具現化していると主張している。 LLMをテキストベースの知識モデリングと表現に活用することにより、LAAはニューロシンボリックAIの原則を統合し、推論と意思決定能力の向上を示す。 ニューロシンボリックAIのテーマの中で、LAAと知識グラフを比較することは、人間のような推論プロセスの模倣、大規模なデータセットの効果的スケーリング、明示的な再トレーニングなしにコンテキスト内サンプルを活用することにおける、LAAのユニークな強みを強調している。 この研究は、LAA機能をさらに強化することを目的とした、ニューロ・ベクター・シンボリック統合、命令エンコーディング、暗黙の推論における有望な進路を裏付けている。 ニューロシンボリックAIの進歩を探求し、将来の研究軌道を提案することにより、この研究はAI技術の理解と開発を前進させる。

This article explores the convergence of connectionist and symbolic artificial intelligence (AI), from historical debates to contemporary advancements. Traditionally considered distinct paradigms, connectionist AI focuses on neural networks, while symbolic AI emphasizes symbolic representation and logic. Recent advancements in large language models (LLMs), exemplified by ChatGPT and GPT-4, highlight the potential of connectionist architectures in handling human language as a form of symbols. The study argues that LLM-empowered Autonomous Agents (LAAs) embody this paradigm convergence. By utilizing LLMs for text-based knowledge modeling and representation, LAAs integrate neuro-symbolic AI principles, showcasing enhanced reasoning and decision-making capabilities. Comparing LAAs with Knowledge Graphs within the neuro-symbolic AI theme highlights the unique strengths of LAAs in mimicking human-like reasoning processes, scaling effectively with large datasets, and leveraging in-context samples without explicit re-training. The research underscores promising avenues in neuro-vector-symbolic integration, instructional encoding, and implicit reasoning, aimed at further enhancing LAA capabilities. By exploring the progression of neuro-symbolic AI and proposing future research trajectories, this work advances the understanding and development of AI technologies.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# Sliding Window Bi-Objective Evolutionary Algorithms fortimizing Chance-Constrained Monotone Submodular Function (特集:ユビキタスコンピューティング)

Sliding Window Bi-Objective Evolutionary Algorithms for Optimizing Chance-Constrained Monotone Submodular Functions ( http://arxiv.org/abs/2407.09731v2 )

ライセンス: Link先を確認
Xiankun Yan, Aneta Neumann, Frank Neumann, (参考訳) 多目的定式化を用いたGSEMOアルゴリズムの変数を解析し,確率制約付き部分モジュラー関数の最適化に応用した。 しかし,これらの研究で考慮されたGSEMOアルゴリズムの個体数増加の影響により,最適化実行中に得られたトレードオフ数が急速に増加すると,この手法は効果が低下する。 本稿では,[21]で導入されたスライディング・セレクションのアプローチを,確率制約付き単調部分モジュラ関数の最適化に適用する。 GSEMOアルゴリズムは,実行環境に影響を及ぼす重要な要因として個体群サイズを制限し,現在GSEMOで知られているものよりも優れた実行保証が得られることを示す。 本研究では,SW-GSEMO と GSEMO と NSGA-II の最大カバレッジ問題における性能を比較し,SW-GSEMO が他の2つのアプローチよりも優れていることを示す。 SW-GSEMOの最適化動作に関するさらなる知見を得るため、SW-GSEMOの最適化過程における選択挙動を可視化し、他のアルゴリズムに勝って可変インスタンスにおける解の最高品質を得ることを示す。

Variants of the GSEMO algorithm using multi-objective formulations have been successfully analyzed and applied to optimize chance-constrained submodular functions. However, due to the effect of the increasing population size of the GSEMO algorithm considered in these studies from the algorithms, the approach becomes ineffective if the number of trade-offs obtained grows quickly during the optimization run. In this paper, we apply the sliding-selection approach introduced in [21] to the optimization of chance-constrained monotone submodular functions. We theoretically analyze the resulting SW-GSEMO algorithm which successfully limits the population size as a key factor that impacts the runtime and show that this allows it to obtain better runtime guarantees than the best ones currently known for the GSEMO. In our experimental study, we compare the performance of the SW-GSEMO to the GSEMO and NSGA-II on the maximum coverage problem under the chance constraint and show that the SW-GSEMO outperforms the other two approaches in most cases. In order to get additional insights into the optimization behavior of SW-GSEMO, we visualize the selection behavior of SW-GSEMO during its optimization process and show it beats other algorithms to obtain the highest quality of solution in variable instances.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# 大規模言語モデルのユースケースにおけるバイアスと公平性を評価するための実行可能なフレームワーク

An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases ( http://arxiv.org/abs/2407.10853v2 )

ライセンス: Link先を確認
Dylan Bouchard, (参考訳) 大規模言語モデル(LLM)は、様々な方法でバイアスを示すことができる。 このような偏見は、性、人種、性的指向、年齢など、保護された属性内の特定のグループに対して不公平な結果を生み出したり、悪化させる可能性がある。 本稿は, LLM のユースケースにおけるバイアスと公平性のリスクを評価するための実践者のための技術ガイドを提供することを目的とする。 この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。 そこで本研究では,LSMのバイアスと公正リスクを分類し,それらのリスクをLSMのユースケースの分類にマッピングし,さまざまな指標を公式に定義し,リスクの種類を評価する。 この研究の一環として、イノベーティブな反ファクトメトリクスやステレオタイプ分類器に基づくメトリクスなど、いくつかの新しいバイアスと公正度指標が導入されている。 モデル自体にのみ焦点をあてるのではなく、モデルとプロンプトの集団を特徴とするLCMユースケースのレベルでの評価を定義することにより、プロンプトリスクとモデルリスクの両方の感度を考慮する。 さらに, 評価指標のすべては LLM 出力のみを用いて計算されるため, 提案手法は実用的であり, 実践者にとって容易である。

Large language models (LLMs) can exhibit bias in a variety of ways. Such biases can create or exacerbate unfair outcomes for certain groups within a protected attribute, including, but not limited to sex, race, sexual orientation, or age. This paper aims to provide a technical guide for practitioners to assess bias and fairness risks in LLM use cases. The main contribution of this work is a decision framework that allows practitioners to determine which metrics to use for a specific LLM use case. To achieve this, this study categorizes LLM bias and fairness risks, maps those risks to a taxonomy of LLM use cases, and then formally defines various metrics to assess each type of risk. As part of this work, several new bias and fairness metrics are introduced, including innovative counterfactual metrics as well as metrics based on stereotype classifiers. Instead of focusing solely on the model itself, the sensitivity of both prompt-risk and model-risk are taken into account by defining evaluations at the level of an LLM use case, characterized by a model and a population of prompts. Furthermore, because all of the evaluation metrics are calculated solely using the LLM output, the proposed framework is highly practical and easily actionable for practitioners.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# Kolmogorov Arnold Networks (KAN) に関する総合調査

A Comprehensive Survey on Kolmogorov Arnold Networks (KAN) ( http://arxiv.org/abs/2407.11075v2 )

ライセンス: Link先を確認
Yuntian Hou, Di Zhang, (参考訳) Kolmogorov-Arnold Networks (KAN) の包括的調査を通じて、我々はその理論的基盤、アーキテクチャ設計、アプリケーションシナリオ、そして現在の研究の進捗を深く理解した。 Kanは独自のアーキテクチャと柔軟なアクティベーション機能を備え、複雑なデータパターンと非線形関係の処理に優れ、幅広いアプリケーションの可能性を示している。 課題は残るが、kanは様々な分野における革新的なソリューションの道を切り開いており、複雑な計算問題にどのようにアプローチするかに革命をもたらす可能性がある。

Through this comprehensive survey of Kolmogorov-Arnold Networks(KAN), we have gained a thorough understanding of its theoretical foundation, architectural design, application scenarios, and current research progress. KAN, with its unique architecture and flexible activation functions, excels in handling complex data patterns and nonlinear relationships, demonstrating wide-ranging application potential. While challenges remain, KAN is poised to pave the way for innovative solutions in various fields, potentially revolutionizing how we approach complex computational problems.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# CCVA-FL:医療画像のための適応的フェデレーション学習

CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v5 )

ライセンス: Link先を確認
Sunny Gupta, Amit Sethi, (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。 医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。 本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。 CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。 各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。 次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。 これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。 各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。 翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。 その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。

Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# 呼吸・無呼吸の遠隔睡眠モニタリングのための熱画像とレーダ

Thermal Imaging and Radar for Remote Sleep Monitoring of Breathing and Apnea ( http://arxiv.org/abs/2407.11936v2 )

ライセンス: Link先を確認
Kai Del Regno, Alexander Vilesov, Adnan Armouti, Anirudh Bindiganavale Harish, Selim Emir Can, Ashley Kita, Achuta Kadambi, (参考訳) 睡眠障害のモニタリングと検出のための現在の金本位法であるPSG(Polysomnography)は、煩雑で費用がかかる。 家庭内睡眠時無呼吸テスト(HSAT)として知られる家庭内検査ソリューションが存在する。 しかし、それらはコンタクトベースであり、一部の患者が検査を許容し、広範囲な展開を阻害する能力を制限する機能である。 睡眠時無呼吸検出のための非接触睡眠モニタリングに関するこれまでの研究は、レーダーを用いた呼吸活動や、サーマルカメラを用いた鼻気流を推定するものだったが、この2つを比較したり、一緒に使用したりはしなかった。 シンクロナイズドレーダとサーマルカメラを用いたハードウェア装置を用いて,34~78歳の睡眠障害を疑った10人の被験者を対象に調査を行った。 睡眠モニタリングにおけるレーダとサーマルイメージングの初回比較を行い, サーマルイメージング法がレーダを著しく上回ることを示した。 サーマルイメージング法は,精度0.99,精度0.68,リコール0.74,F1スコア0.71,クラス内相関0.70,精度0.83,精度0.13,リコール0.86,F1スコア0.22,クラス内相関0.13を検出する。 また,マルチモーダル設定を利用して,閉塞性および中枢性睡眠時無呼吸を分類する新たな提案を提案する。 この方法は、非接触センサーで睡眠中の無呼吸を正確に検出・分類することができ、現在の技術に耐えられない患者の診断能力を向上させることができる。

Polysomnography (PSG), the current gold standard method for monitoring and detecting sleep disorders, is cumbersome and costly. At-home testing solutions, known as home sleep apnea testing (HSAT), exist. However, they are contact-based, a feature which limits the ability of some patient populations to tolerate testing and discourages widespread deployment. Previous work on non-contact sleep monitoring for sleep apnea detection either estimates respiratory effort using radar or nasal airflow using a thermal camera, but has not compared the two or used them together. We conducted a study on 10 participants, ages 34 - 78, with suspected sleep disorders using a hardware setup with a synchronized radar and thermal camera. We show the first comparison of radar and thermal imaging for sleep monitoring, and find that our thermal imaging method outperforms radar significantly. Our thermal imaging method detects apneas with an accuracy of 0.99, a precision of 0.68, a recall of 0.74, an F1 score of 0.71, and an intra-class correlation of 0.70; our radar method detects apneas with an accuracy of 0.83, a precision of 0.13, a recall of 0.86, an F1 score of 0.22, and an intra-class correlation of 0.13. We also present a novel proposal for classifying obstructive and central sleep apnea by leveraging a multimodal setup. This method could be used accurately detect and classify apneas during sleep with non-contact sensors, thereby improving diagnostic capacities in patient populations unable to tolerate current technology.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# LiNR: LinkedInのGPU上でのモデルベースのニューラル検索

LiNR: Model Based Neural Retrieval on GPUs at LinkedIn ( http://arxiv.org/abs/2407.13218v3 )

ライセンス: Link先を確認
Fedor Borisyuk, Qingquan Song, Mingzhou Zhou, Ganesh Parameswaran, Madhu Arun, Siva Popuri, Tugrul Bingol, Zhuotao Pei, Kuang-Hsuan Lee, Lu Zheng, Qizhan Shao, Ali Naqvi, Sen Zhou, Aman Gupta, (参考訳) 本稿では,LinkedInの大規模GPUベース検索システムであるLiNRを紹介する。 LiNRはGPUモデルの10億ドル規模のインデックスをサポートする。 TensorFlowとPyTorchを実運用規模で使用して、スケーラブルで差別化可能な検索インデックスを作成する上での私たちの経験と課題について論じる。 LiNRでは、アイテムとモデルウェイトの両方がモデルバイナリに統合されます。 モデルトレーニングの一形態としてインデックス構築を見ていくことで,大規模なインデックスをスケールし,フルスキャンと効率的なフィルタリングを取り入れたシステムについて述べる。 重要な焦点は、徹底的なGPUサーチで属性ベースの事前フィルタリングを可能にすることであり、システム品質を低下させるKNNサーチにおけるポストフィルタの一般的な課題に対処する。 さらに、検索におけるコールドスタート問題に対処するためのマルチ埋め込み検索アルゴリズムと戦略を提供する。 量子化によるより大きな指標支援の進歩についても論じる。 我々は、LiNRが業界初のLive-updated model-based search indexの1つであると考えている。 LinkedIn Feedのネットワーク外投稿レコメンデーションに適用されると、LiNRはプロのデイリーアクティブユーザーを3%増加させた。 我々はLiNRを、検索とランキングを単一のGPUモデルに統合し、複雑なインフラストラクチャを単純化し、勾配勾配を通した変更可能なインフラストラクチャ全体のエンドツーエンドの最適化を可能にするためのステップとして考えています。

This paper introduces LiNR, LinkedIn's large-scale, GPU-based retrieval system. LiNR supports a billion-sized index on GPU models. We discuss our experiences and challenges in creating scalable, differentiable search indexes using TensorFlow and PyTorch at production scale. In LiNR, both items and model weights are integrated into the model binary. Viewing index construction as a form of model training, we describe scaling our system for large indexes, incorporating full scans and efficient filtering. A key focus is on enabling attribute-based pre-filtering for exhaustive GPU searches, addressing the common challenge of post-filtering in KNN searches that often reduces system quality. We further provide multi-embedding retrieval algorithms and strategies for tackling cold start issues in retrieval. Our advancements in supporting larger indexes through quantization are also discussed. We believe LiNR represents one of the industry's first Live-updated model-based retrieval indexes. Applied to out-of-network post recommendations on LinkedIn Feed, LiNR has contributed to a 3% relative increase in professional daily active users. We envisage LiNR as a step towards integrating retrieval and ranking into a single GPU model, simplifying complex infrastructures and enabling end-to-end optimization of the entire differentiable infrastructure through gradient descent.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# ESP-MedSAM:Universal Image Segmentationのための効率的なセルフプロンピングSAM

ESP-MedSAM: Efficient Self-Prompting SAM for Universal Image Segmentation ( http://arxiv.org/abs/2407.14153v2 )

ライセンス: Link先を確認
Qing Xu, Jiaxuan Li, Xiangjian He, Ziyu Liu, Zhen Chen, Wenting Duan, Chenxin Li, Maggie M. He, Fiseha B. Tesema, Wooi P. Cheah, Yi Wang, Rong Qu, Jonathan M. Garibaldi, (参考訳) SAM(Segment Anything Model)は、医用画像のセグメンテーションに顕著な適応を示したが、3つの大きな課題に直面している。 まず、SAMの膨大な計算コストが実世界の適用性を制限している。 第2に、SAMは手動のアノテーション(例えば、ポイント、ボックス)をプロンプトとして依存する。 第3に、SAMは全てのセグメンテーションターゲットを等しく扱い、これは固有の不均一性を持つ多様な医学的モダリティに最適である。 これらの課題に対処するために,ESP-MedSAMという医用画像分割のための効率的なセルフプロンピングSAMを提案する。 我々は,共通画像知識とドメイン固有の医療知識を基礎モデルから駆除し,軽量画像エンコーダとモダリティコントローラを訓練するためのマルチモーダルデカップリング知識蒸留(MMDKD)戦略を考案した。 さらに、SPPG(Self-Patch Prompt Generator)とQDMD(Query-Decoupled Modality Decoder)を組み合わせてESP-MedSAMを構築する。 具体的には、SPPGはパッチプロンプトを自動生成することを目的としており、QDMDは1対1の戦略を活用し、すべてのモダリティに対して独立したデコードチャネルを提供する。 広範な実験により、ESP-MedSAMは様々な医用画像のセグメンテーションにおける最先端技術よりも優れ、優れたゼロショット学習とモダリティ伝達能力を示すことが示されている。 特に、SAM-Baseと比較して、我々のフレームワークは31.4%しかパラメータを使用しません。

The Segment Anything Model (SAM) has demonstrated outstanding adaptation to medical image segmentation but still faces three major challenges. Firstly, the huge computational costs of SAM limit its real-world applicability. Secondly, SAM depends on manual annotations (e.g., points, boxes) as prompts, which are laborious and impractical in clinical scenarios. Thirdly, SAM handles all segmentation targets equally, which is suboptimal for diverse medical modalities with inherent heterogeneity. To address these issues, we propose an Efficient Self-Prompting SAM for universal medical image segmentation, named ESP-MedSAM. We devise a Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to distil common image knowledge and domain-specific medical knowledge from the foundation model to train a lightweight image encoder and a modality controller. Further, they combine with the additionally introduced Self-Patch Prompt Generator (SPPG) and Query-Decoupled Modality Decoder (QDMD) to construct ESP-MedSAM. Specifically, SPPG aims to generate a set of patch prompts automatically and QDMD leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation takes, displaying superior zero-shot learning and modality transfer ability. Especially, our framework uses only 31.4% parameters compared to SAM-Base.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# CLIP - インクリメンタルラーニングのための強力なベースライン

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning ( http://arxiv.org/abs/2407.15793v2 )

ライセンス: Link先を確認
Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, (参考訳) CLIPのようなトランスフォーマーやビジョンランゲージモデル(VLM)の出現に伴い、大規模な事前学習モデルが継続的な学習シナリオのパフォーマンス向上のための一般的な戦略となっている。 これにより、破滅的な忘れを伴わずに、効果的に微調整トランスフォーマーベースのモデルを構築するための多くの急進的戦略の開発につながった。 しかし、これらの手法は、事前訓練から著しく逸脱し、ゼロショット能力を保っている領域のモデルを専門化するのに苦労する。 本稿では,VLMを適応させながら忘れを緩和する新しい手法であるインクリメンタル・プロンプト学習のための連続生成トレーニングを提案する。 また、CLベンチマーク内でゼロショット機能を評価するための新しい指標も導入する。 異なるドメインに関する広範な実験を通じて、ゼロショット能力を改善しつつ、新しいタスクに適応する上で、我々のフレームワークの有効性を実証する。 さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。 コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。

With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, large pre-trained models have become a common strategy to enhance performance in Continual Learning scenarios. This led to the development of numerous prompting strategies to effectively fine-tune transformer-based models without succumbing to catastrophic forgetting. However, these methods struggle to specialize the model on domains significantly deviating from the pre-training and preserving its zero-shot capabilities. In this work, we propose Continual Generative training for Incremental prompt-Learning, a novel approach to mitigate forgetting while adapting a VLM, which exploits generative replay to align prompts to tasks. We also introduce a new metric to evaluate zero-shot capabilities within CL benchmarks. Through extensive experiments on different domains, we demonstrate the effectiveness of our framework in adapting to new tasks while improving zero-shot capabilities. Further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# 動的言語グループに基づくMoE:階層的ルーティングによるコードスイッチング音声認識の実現

Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing ( http://arxiv.org/abs/2407.18581v2 )

ライセンス: Link先を確認
Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Wenhao Guan, Qingyang Hong, Lin Li, (参考訳) Mixture of Experts (MoE) アプローチはマルチ言語およびコードスイッチング(CS)タスクに適している。 DLG-MoEは、バイリンガルおよびCSシナリオ向けに最適化された動的言語グループベースのMoEである。 DLG-MoEは階層的なルーティング機構に基づいて動作する。 まず、言語ルータが言語を明示的にモデル化し、対応する言語専門家グループに表現をディスパッチする。 その後、各言語グループ内の教師なしルータは、言語以外の属性を暗黙的にモデル化し、専門家のルーティングとコラボレーションを調整する。 このモデルは、非並列な柔軟性を持ちながら、最先端(SOTA)のパフォーマンスを達成する。 さまざまなトップk推論とストリーミング機能をサポートし、モデルパラメータを訓練してモノリンガルなサブモデルを得ることもできる。 コードはリリースされる。

The Mixture of Experts (MoE) approach is well-suited for multilingual and code-switching (CS) tasks due to its multi-expert architecture. This work introduces the DLG-MoE, a Dynamic Language Group-based MoE optimized for bilingual and CS scenarios. DLG-MoE operates based on a hierarchical routing mechanism. First, the language router explicitly models the language and dispatches the representations to the corresponding language expert groups. Subsequently, the unsupervised router within each language group implicitly models attributes beyond language, and coordinates expert routing and collaboration. The model achieves state-of-the-art (SOTA) performance while also having unparalleled flexibility. It supports different top-k inference and streaming capabilities, and can also prune the model parameters to obtain a monolingual sub-model. The Code will be released.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# Stay Tuned: LLMチューニングにおけるハイパーパラメータの影響に関する実証的研究

Stay Tuned: An Empirical Study of the Impact of Hyperparameters on LLM Tuning in Real-World Applications ( http://arxiv.org/abs/2407.18990v2 )

ライセンス: Link先を確認
Alon Halfon, Shai Gretz, Ofir Arviv, Artem Spector, Orith Toledo-Ronen, Yoav Katz, Liat Ein-Dor, Michal Shmueli-Scheuer, Noam Slonim, (参考訳) 細調整型大規模言語モデル(LLM)は、下流タスクのパフォーマンスを向上させる効果的な方法である。 しかしながら、ハイパーパラメータ(HP)のチューニングの適切な設定を選択することは、労働集約的で計算コストのかかるプロセスである。 本稿では,2つのSOTA LLMと2つの一般的なチューニング手法を検討する際に,実践者にとってより良い出発点を示す実用的なユースケースのためのHP構成を提案する。 オフラインの広範グリッドサーチに基づいてHP構成をランク付けするプロセスであるCoverage-based Search (CBS)について述べる。 我々はLlama-3-8BとMistral-7B、そして完全な微調整とLoRaに焦点を合わせ、合計1万回以上のチューニング実験を行った。 以上の結果から,Llama-3-8BとLoRAは可能な限り好適であることが示唆された。 さらに,本研究では,モデルとチューニング手法の両面において,HPの構成をわずかに探すことによって,実運用において優れた結果が得られることを示し,実践者にとって貴重な資源となることを示す。

Fine-tuning Large Language Models (LLMs) is an effective method to enhance their performance on downstream tasks. However, choosing the appropriate setting of tuning hyperparameters (HPs) is a labor-intensive and computationally expensive process. Here, we provide recommended HP configurations for practical use-cases that represent a better starting point for practitioners, when considering two SOTA LLMs and two commonly used tuning methods. We describe Coverage-based Search (CBS), a process for ranking HP configurations based on an offline extensive grid search, such that the top ranked configurations collectively provide a practical robust recommendation for a wide range of datasets and domains. We focus our experiments on Llama-3-8B and Mistral-7B, as well as full fine-tuning and LoRa, conducting a total of > 10,000 tuning experiments. Our results suggest that, in general, Llama-3-8B and LoRA should be preferred, when possible. Moreover, we show that for both models and tuning methods, exploring only a few HP configurations, as recommended by our analysis, can provide excellent results in practice, making this work a valuable resource for practitioners.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# 拡張Bose-Hubbardはしごにおける複合超固体と再入射遷移

Commensurate supersolids and re-entrant transitions in an extended Bose-Hubbard ladder ( http://arxiv.org/abs/2407.20107v2 )

ライセンス: Link先を確認
Ashwath N Madhusudan, Gopal Chandra Santra, Inderpreet Kaur, Weibin Li, Rejish Nath, (参考訳) 本研究では, 密度行列正規化群法および特にラングホッピングの効果を用いて, 単位充填のボース・ハバード・ラグの基底状態相について検討した。 単一鎖とは対照的に、複合超固体が出現し、ルッティンガーパラメータに基づいて、それらを2つのタイプに分類する。 後者は、他の全てのパラメータを無傷に保ちながら、オンサイト相互作用が増加するにつれて、再帰的なギャップのない振る舞いをもたらす。 また、最も近い隣同士の相互作用の関数として、再帰的なギャップ付き遷移が見られる。 さらに,Haldane相を特徴付ける弦次数は,有限鎖間ホッピング振幅に対して消失するが,小さい。 最後に、双極子原子または極性分子またはRydberg付加原子を用いて、我々の発見を観察するための2つの実験プラットフォームを提案する。

We investigate the ground state phases of an extended Bose-Hubbard ladder of unit filling via the density-matrix-renormalization-group method and, in particular, the effect of rung-hoppings. In contrast to a single-chain, a commensurate supersolid emerges, and based on the Luttinger parameter, we classify them into two types. The latter leads to a reentrant gapless behavior as the onsite interaction is increased while keeping all other parameters intact. A reentrant gapped transition is also found as a function of nearest-neighbor interactions. Further, we show that the string order characterizing the Haldane phase vanishes for a finite inter-chain hopping amplitude, however small it is. Finally, we propose two experimental platforms to observe our findings, using either dipolar atoms or polar molecules and Rydberg admixed atoms.
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# FedBChain - DeepConvLSTMを改善するブロックチェーン対応のフェデレート学習フレームワーク

FedBChain: A Blockchain-enabled Federated Learning Framework for Improving DeepConvLSTM with Comparative Strategy Insights ( http://arxiv.org/abs/2407.21282v2 )

ライセンス: Link先を確認
Gaoxuan Li, Chern Hong Lim, Qiyao Ma, Xinyu Tang, Hwa Hui Tew, Fan Ding, Xuewen Luo, (参考訳) 近年の人間行動認識の分野では,LSTM層数を減らすことにより,予測性能の向上が図られている。 しかし、この種の拡張はモノリシックなアーキテクチャにおいてのみ重要であり、大規模な分散トレーニングを実行すると、データセキュリティとプライバシの問題を再考し、その予測性能が不明になる。 本稿では,修正されたDeepConvLSTMアーキテクチャに基づくフェデレート学習パラダイムを単一のLSTM層に統合した新しいフレームワークであるFedBChainを紹介する。 本フレームワークは,3つの隠れレイヤユニット(128,256,512)と5つの異なるフェデレート学習戦略を組み合わせた実世界の3つのデータセットに対する予測性能の比較試験を行う。 FedAvg戦略は平均4.54%改善し、FedProxは平均4.57%改善し、FedTrimmedAvgは平均4.35%改善し、Krumは平均4.18%改善し、FedAvgMは平均4.46%改善した。 この結果から、FedBChainはパフォーマンスの向上だけでなく、トレーニングプロセス中の集中的なトレーニング方法と比較して、ユーザデータのセキュリティとプライバシも保証していることがわかる。 私たちの実験のコードは公開されています(https://github.com/Glen909/FedBChain)。

Recent research in the field of Human Activity Recognition has shown that an improvement in prediction performance can be achieved by reducing the number of LSTM layers. However, this kind of enhancement is only significant on monolithic architectures, and when it runs on large-scale distributed training, data security and privacy issues will be reconsidered, and its prediction performance is unknown. In this paper, we introduce a novel framework: FedBChain, which integrates the federated learning paradigm based on a modified DeepConvLSTM architecture with a single LSTM layer. This framework performs comparative tests of prediction performance on three different real-world datasets based on three different hidden layer units (128, 256, and 512) combined with five different federated learning strategies, respectively. The results show that our architecture has significant improvements in Precision, Recall and F1-score compared to the centralized training approach on all datasets with all hidden layer units for all strategies: FedAvg strategy improves on average by 4.54%, FedProx improves on average by 4.57%, FedTrimmedAvg improves on average by 4.35%, Krum improves by 4.18% on average, and FedAvgM improves by 4.46% on average. Based on our results, it can be seen that FedBChain not only improves in performance, but also guarantees the security and privacy of user data compared to centralized training methods during the training process. The code for our experiments is publicly available (https://github.com/Glen909/FedBChain).
翻訳日:2024-08-08 14:56:01 公開日:2024-08-07
# MetaOpenFOAM:CFDのためのLLMベースのマルチエージェントフレームワーク

MetaOpenFOAM: an LLM-based multi-agent framework for CFD ( http://arxiv.org/abs/2407.21320v2 )

ライセンス: Link先を確認
Yuxuan Chen, Xu Zhu, Hua Zhou, Zhuyin Ren, (参考訳) 大規模言語モデル(LLM)に基づくエージェントの社会による自動問題解決において,顕著な進歩がみられた。 計算流体力学(CFD、Computational fluid dynamics)は複雑な問題である。 MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークであり、入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。 これらのシミュレーションタスクには、メッシュ前処理、シミュレーションなどが含まれる。 MetaOpenFOAMはMetaGPTのアセンブリラインパラダイムのパワーを活用し、多様な役割をさまざまなエージェントに割り当て、複雑なCFDタスクを効率的に管理可能なサブタスクに分割する。 Langchainはさらに、Retrieval-Augmented Generation (RAG)技術を統合することでMetaOpenFOAMを補完し、LLM用のOpenFOAMチュートリアルの検索可能なデータベースを統合することにより、フレームワークの能力を高める。 8つのCFDシミュレーションタスクからなる自然言語ベースのCFDソルバのベンチマークにおけるテストは、MetaOpenFOAMが1回のテストで高いパスレート(85%)を達成したことを示し、各テストケースの平均費用は0.22ドルである。 8つのCFDシミュレーションタスクは、様々な物理的プロセスで圧縮性および非圧縮性の流れをカバーする多次元フロー問題を含む。 これは、自然言語入力のみを使用してCFDシミュレーションを自動化する能力を示し、所望のシミュレーションを達成するためにエラーを反復的に修正する。 マルチエージェントシステムとRAG技術における各コンポーネントの必要性を検証するためのアブレーション試験を行った。 LLMのランダム性に関する感度研究により、低ランダム性LLMはより安定かつ正確な結果が得られることが示された。 さらに、MetaOpenFOAMは、ユーザ要求のキーパラメータを識別し、修正する機能を所有しており、失敗が生じた時にバグを修正することで、MetaOpenFOAMの一般化を実証している。

Remarkable progress has been made in automated problem solving through societies of agents based on large language models (LLMs). Computational fluid dynamics (CFD), as a complex problem, presents unique challenges in automated simulations that require sophisticated solutions. MetaOpenFOAM, as a novel multi-agent collaborations framework, aims to complete CFD simulation tasks with only natural language as input. These simulation tasks include mesh pre-processing, simulation and so on. MetaOpenFOAM harnesses the power of MetaGPT's assembly line paradigm, which assigns diverse roles to various agents, efficiently breaking down complex CFD tasks into manageable subtasks. Langchain further complements MetaOpenFOAM by integrating Retrieval-Augmented Generation (RAG) technology, which enhances the framework's ability by integrating a searchable database of OpenFOAM tutorials for LLMs. Tests on a benchmark for natural language-based CFD solver, consisting of eight CFD simulation tasks, have shown that MetaOpenFOAM achieved a high pass rate per test (85%), with each test case costing only $0.22 on average. The eight CFD simulation tasks encompass a range of multidimensional flow problems, covering compressible and incompressible flows with different physical processes. This demonstrates the capability to automate CFD simulations using only natural language input, iteratively correcting errors to achieve the desired simulations. An ablation study was conducted to verify the necessity of each component in the multi-agent system and the RAG technology. A sensitivity study on the randomness of LLM showed that LLM with low randomness can obtain more stable and accurate results. Additionally, MetaOpenFOAM owns the ability to identify and modify key parameters in user requirements, and excels in correcting bugs when failure match occur,which demonstrates the generalization of MetaOpenFOAM.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# TransferTOD: 転送機能を備えた汎用的な中国語マルチドメインタスク指向対話システム

TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities ( http://arxiv.org/abs/2407.21693v2 )

ライセンス: Link先を確認
Ming Zhang, Caishuang Huang, Yilong Wu, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao, Junjie Ye, Qi Zhang, Tao Gui, Xuanjing Huang, (参考訳) タスク指向対話(TOD)システムは、情報収集を含むタスク指向の会話を効率的に処理することを目的としている。 情報収集にTODを正確に、効率的に効果的に活用する方法は、常に重要かつ困難な課題であった。 近年,Large Language Models (LLMs) は対話,命令生成,推論において優れており,微調整によりTODの性能を大幅に向上させることができることが実証されている。 しかし、現在のデータセットはユーザー主導のシステムに特化しており、事前に定義された特定のシナリオやスロットに限定されているため、TODの積極性、多様性、能力の改善が必要である。 本研究では,会話のためのマルチドメインタスク指向データ構築プロセスと,このプロセスに基づいて生成された中国語対話データセットであるTransferTODについて述べる。 このデータセットを利用して、フルパラメータの微調整を用いてTransferTOD-7Bと呼ばれるモデルを訓練し、スロットフィリングや質問における顕著な能力を示しました。 我々の研究は、様々なダウンストリームシナリオにおいて強力な一般化能力を示し、データ利用効率とシステム性能の両方を大幅に向上させた。 データはhttps://github.com/KongLongGeFDU/TransferTODで公開されている。

Task-oriented dialogue (TOD) systems aim to efficiently handle task-oriented conversations, including information collection. How to utilize TOD accurately, efficiently and effectively for information collection has always been a critical and challenging task. Recent studies have demonstrated that Large Language Models (LLMs) excel in dialogue, instruction generation, and reasoning, and can significantly enhance the performance of TOD through fine-tuning. However, current datasets primarily cater to user-led systems and are limited to predefined specific scenarios and slots, thereby necessitating improvements in the proactiveness, diversity, and capabilities of TOD. In this study, we present a detailed multi-domain task-oriented data construction process for conversations, and a Chinese dialogue dataset generated based on this process, TransferTOD, which authentically simulates human-computer dialogues in 30 popular life service scenarios. Leveraging this dataset, we trained a model called TransferTOD-7B using full-parameter fine-tuning, showcasing notable abilities in slot filling and questioning. Our work has demonstrated its strong generalization capabilities in various downstream scenarios, significantly enhancing both data utilization efficiency and system performance. The data is released in https://github.com/KongLongGeFDU/TransferTOD.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# インダクティブかデダクティブか? LLMの基本的推論能力を再考する

Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs ( http://arxiv.org/abs/2408.00114v2 )

ライセンス: Link先を確認
Kewei Cheng, Jingfeng Yang, Haoming Jiang, Zhengyang Wang, Binxuan Huang, Ruirui Li, Shiyang Li, Zheng Li, Yifan Gao, Xian Li, Bing Yin, Yizhou Sun, (参考訳) 推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。 LLM(Large Language Models)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。 LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。 LLMの帰納的推論能力(すなわち、推論タスクの指示に従う能力)は、かなり注目されているが、真の帰納的推論能力は、まだ明らかにされていない。 LLMの真の帰納的推論能力を調べるために,新しいフレームワークであるSolverLearnerを提案する。 このフレームワークはLLMが基礎となる関数(例えば$y = f_w)を学習できるようにする。 (x)$) - 入力データポイントを$にマッピングする。 (x)$ を対応する出力値 $ (y)$, in-context例のみを使用する。 帰納的推論に焦点をあて, LLMに基づく帰納的推論から分離することにより, SolverLearner による LLM の帰納的推論を分離し,研究することができる。 以上の結果から, LLMはソルバーラーナーを介して顕著な帰納的推論能力を示し, ACCが1例でほぼ完璧な性能を示した。 驚くべきことに、強い帰納的推論能力にもかかわらず、LLMは演能的推論能力に欠ける傾向にある。

Reasoning encompasses two typical types: deductive reasoning and inductive reasoning. Despite extensive research into the reasoning capabilities of Large Language Models (LLMs), most studies have failed to rigorously differentiate between inductive and deductive reasoning, leading to a blending of the two. This raises an essential question: In LLM reasoning, which poses a greater challenge - deductive or inductive reasoning? While the deductive reasoning capabilities of LLMs, (i.e. their capacity to follow instructions in reasoning tasks), have received considerable attention, their abilities in true inductive reasoning remain largely unexplored. To investigate into the true inductive reasoning capabilities of LLMs, we propose a novel framework, SolverLearner. This framework enables LLMs to learn the underlying function (i.e., $y = f_w(x)$), that maps input data points $(x)$ to their corresponding output values $(y)$, using only in-context examples. By focusing on inductive reasoning and separating it from LLM-based deductive reasoning, we can isolate and investigate inductive reasoning of LLMs in its pure form via SolverLearner. Our observations reveal that LLMs demonstrate remarkable inductive reasoning capabilities through SolverLearner, achieving near-perfect performance with ACC of 1 in most cases. Surprisingly, despite their strong inductive reasoning abilities, LLMs tend to relatively lack deductive reasoning capabilities, particularly in tasks involving ``counterfactual'' reasoning.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# SentenceVAE: 高速,高精度,コンテキストの長い大規模言語モデルの次文予測を可能にする

SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context ( http://arxiv.org/abs/2408.00655v4 )

ライセンス: Link先を確認
Hongjun An, Yifan Chen, Zhe Sun, Xuelong Li, (参考訳) 現在の大規模言語モデル (LLM) は、主に推論に次トーケン予測法を用いており、処理速度を著しく損なう。 本稿では,LLMの推論効率を向上させることを目的とした,次世代予測と呼ばれる新しい推論手法を提案する。 文変分オートエンコーダ(文変分自動エンコーダ)は,文変分自動エンコーダ(文変分自動エンコーダ)と文変分自動エンコーダ(文変分自動エンコーダ)からなる小型モデルである。 Sentence Encoderは文内の情報を単一のトークンに効果的にコンデンスすることができ、Sentence Decoderは圧縮されたトークンを文に再構築することができる。 LLMの入力層と出力層にSentenceVAEを組み込むことで,文ごとの推論手法を用いたSLLM(Sentence-level LLM)を開発する。 さらに、SLLMSのSentenceVAEモジュールは、コンテキストを文にセグメント化することで、元のセマンティックコンテンツの完全性を維持することができ、推論速度を向上しながら精度を向上させることができる。 さらに、従来のLLMと比較して、SLLMは等価コンテキスト長よりも少ないトークンを処理し、自己アテンション計算のメモリ要求を著しく低減し、より長いコンテキストの処理を容易にする。 Wanjuanデータセットの大規模な実験により、提案手法は推論速度を204〜365%高速化し、パープレキシティ(PPL)を46~75%削減し、メモリオーバーヘッドをトークン・バイ・トークン法と比較して86~91%削減できることが明らかになった。

Current large language models (LLMs) primarily utilize next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aimed at enhancing the inference efficiency of LLMs. We present Sentence Variational Autoencoder (SentenceVAE), a tiny model consisting of a Sentence Encoder and a Sentence Decoder. The Sentence Encoder can effectively condense the information within a sentence into a singular token, while the Sentence Decoder can reconstruct this compressed token back into sentence. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference method. In addition, the SentenceVAE module of SLLMS can maintain the integrity of the original semantic content by segmenting the context into sentences, thereby improving accuracy while boosting inference speed. Moreover, compared to previous LLMs, SLLMs process fewer tokens over equivalent context length, significantly reducing memory demands for self-attention computation and facilitating the handling of longer context. Extensive experiments on Wanjuan dataset have reveal that the proposed method can accelerate inference speed by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the equivalent context length, compared to the token-by-token method.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# IG-SLAM:インスタントガウスSLAM

IG-SLAM: Instant Gaussian SLAM ( http://arxiv.org/abs/2408.01126v2 )

ライセンス: Link先を確認
F. Aykut Sarikamis, A. Aydin Alatan, (参考訳) 3D Gaussian Splattingは、最近、神経暗黙の表現に対するSLAMシステムにおける代替のシーン表現として有望な結果を示している。 しかしながら、現在の手法では、マッピングプロセスを監視するための深度マップが欠落しているか、環境の規模を考慮した詳細なトレーニングデザインが欠落している。 これらの欠点に対処するため,高密度RGBのみのSLAMシステムであるIG-SLAMを提案する。 環境の3次元マップは、トラッキングによって提供される正確なポーズと密集した深さを用いて構築される。 さらに,マップ最適化における深度不確実性を利用して3次元再構成を改善する。 写像最適化における我々の崩壊戦略は収束を高め、単一のプロセスで10 fpsでシステムを実行することを可能にする。 我々は、最先端のRGBのみのSLAMシステムと競合する性能を示し、高速な動作速度を実現する。 本稿では、Replica、TUM-RGBD、ScanNet、EuRoCデータセットについて実験を行った。 このシステムは、特にEuRoCデータセットにおいて、大規模なシーケンスで、フォトリアリスティックな3D再構成を実現する。

3D Gaussian Splatting has recently shown promising results as an alternative scene representation in SLAM systems to neural implicit representations. However, current methods either lack dense depth maps to supervise the mapping process or detailed training designs that consider the scale of the environment. To address these drawbacks, we present IG-SLAM, a dense RGB-only SLAM system that employs robust Dense-SLAM methods for tracking and combines them with Gaussian Splatting. A 3D map of the environment is constructed using accurate pose and dense depth provided by tracking. Additionally, we utilize depth uncertainty in map optimization to improve 3D reconstruction. Our decay strategy in map optimization enhances convergence and allows the system to run at 10 fps in a single process. We demonstrate competitive performance with state-of-the-art RGB-only SLAM systems while achieving faster operation speeds. We present our experiments on the Replica, TUM-RGBD, ScanNet, and EuRoC datasets. The system achieves photo-realistic 3D reconstruction in large-scale sequences, particularly in the EuRoC dataset.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# 長距離ロボットタスク理解のためのバックボーン

A Backbone for Long-Horizon Robot Task Understanding ( http://arxiv.org/abs/2408.01334v2 )

ライセンス: Link先を確認
Xiaoshuai Chen, Wei Chen, Dongmyoung Lee, Yukun Ge, Nicolas Rojas, Petar Kormushev, (参考訳) エンド・ツー・エンドのロボット・ラーニング、特にロングホライズン・タスクは予測不可能な結果と一般化の欠如をもたらすことが多い。 これらの課題に対処するために,ロボットのタスク理解と伝達性を高めるために,新しいTBBF(Therblig-based Backbone Framework)を提案する。 このフレームワークは、ベースアクション要素(therblig)をバックボーンとして、ハイレベルロボットタスクを要素ロボット構成に分解し、タスク理解を改善するために現在の基礎モデルと統合する。 このアプローチは、オフライントレーニングとオンラインテストの2つのステージで構成されている。 オフライントレーニングの段階では,様々なタスクにまたがる正確なサービグセグメンテーションのためのMeta-RGate SynerFusion (MGSF) ネットワークを開発した。 オンラインテスト段階では、新しいタスクのワンショットデモが収集された後、MGSFネットワークはハイレベルな知識を抽出し、アクション登録(ActionREG)を使用して画像にエンコードする。 さらに、視覚矯正のためのLarge Language Model (LLM)-Alignment Policy for Visual Correction (LAP-VC) が採用され、新しいロボットシナリオにおける軌道伝達を容易にする。 実験結果はこれらの手法を検証し、94.37%のリコールと94.4%と80%の成功率を達成した。 追加資料は以下の通り。 https://sites.google.com/view/therbligs basedbackbone/home

End-to-end robot learning, particularly for long-horizon tasks, often results in unpredictable outcomes and poor generalization. To address these challenges, we propose a novel Therblig-based Backbone Framework (TBBF) to enhance robot task understanding and transferability. This framework uses therbligs (basic action elements) as the backbone to decompose high-level robot tasks into elemental robot configurations, which are then integrated with current foundation models to improve task understanding. The approach consists of two stages: offline training and online testing. During the offline training stage, we developed the Meta-RGate SynerFusion (MGSF) network for accurate therblig segmentation across various tasks. In the online testing stage, after a one-shot demonstration of a new task is collected, our MGSF network extracts high-level knowledge, which is then encoded into the image using Action Registration (ActionREG). Additionally, the Large Language Model (LLM)-Alignment Policy for Visual Correction (LAP-VC) is employed to ensure precise action execution, facilitating trajectory transfer in novel robot scenarios. Experimental results validate these methods, achieving 94.37% recall in therblig segmentation and success rates of 94.4% and 80% in real-world online robot testing for simple and complex scenarios, respectively. Supplementary material is available at: https://sites.google.com/view/therbligsbasedbackbone/home
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# SynopGround:テレビドラマとSynopsのマルチパラグラフビデオグラウンドのための大規模データセット

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses ( http://arxiv.org/abs/2408.01669v2 )

ライセンス: Link先を確認
Chaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng, Jian-Fang Hu, (参考訳) ビデオグラウンディングはマルチモーダルなコンテンツ理解における基本的な問題であり、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。 しかし、現在のビデオグラウンドデータセットは単に単純なイベントのみに焦点を当てており、短いビデオや短い文に制限されているため、モデルがより強力なマルチモーダル理解能力へと進化するのを妨げている。 この制限に対処するために、SynopGroundという大規模なビデオグラウンドデータセットを紹介します。 シナプスの各段落は言語クエリとして機能し、長いビデオの正確な時間境界で手動で注釈付けされる。 これらの段落クエリは相互に密接な相関関係があり、ビデオストーリーラインを要約する豊富な抽象表現と、イベントの詳細を描写する特定の記述が含まれており、より長いコンテキスト依存よりも複雑な概念についてマルチモーダルな認識を学習することができる。 このデータセットに基づいて,MPVG(Multi-Paragraph Video Grounding)と呼ばれる,より複雑なビデオグラウンドの設定を導入する。 さらに,MPVGの長期マルチモーダル入力の局所的グローバル構造を明示的にモデル化するための,LGMR(Local-Global Multimodal Reasoner)を提案する。 提案手法は,マルチパラグラフビデオグラウンド問題に対する効果的なベースラインソリューションを提供する。 先行技術に対する長期マルチパラグラフビデオグラウンドにおけるモデルの有効性と,その優位性を検証する。 データセットとコードは公開されています。 プロジェクトページ: https://synopground.github.io/.com

Video grounding is a fundamental problem in multimodal content understanding, aiming to localize specific natural language queries in an untrimmed video. However, current video grounding datasets merely focus on simple events and are either limited to shorter videos or brief sentences, which hinders the model from evolving toward stronger multimodal understanding capabilities. To address these limitations, we present a large-scale video grounding dataset named SynopGround, in which more than 2800 hours of videos are sourced from popular TV dramas and are paired with accurately localized human-written synopses. Each paragraph in the synopsis serves as a language query and is manually annotated with precise temporal boundaries in the long video. These paragraph queries are tightly correlated to each other and contain a wealth of abstract expressions summarizing video storylines and specific descriptions portraying event details, which enables the model to learn multimodal perception on more intricate concepts over longer context dependencies. Based on the dataset, we further introduce a more complex setting of video grounding dubbed Multi-Paragraph Video Grounding (MPVG), which takes as input multiple paragraphs and a long video for grounding each paragraph query to its temporal interval. In addition, we propose a novel Local-Global Multimodal Reasoner (LGMR) to explicitly model the local-global structures of long-term multimodal inputs for MPVG. Our method provides an effective baseline solution to the multi-paragraph video grounding problem. Extensive experiments verify the proposed model's effectiveness as well as its superiority in long-term multi-paragraph video grounding over prior state-of-the-arts. Dataset and code are publicly available. Project page: https://synopground.github.io/.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# 共振器と直列結合した共振器光学系における光パラメトリック増幅に基づく弱力センシング

Weak force sensing based on optical parametric amplification in a cavity optomechanical system coupled in series with two oscillators ( http://arxiv.org/abs/2408.01757v2 )

ライセンス: Link先を確認
Zheng Liu, Yu-qiang Liu, Yi-jia Yang, Chang-shui Yu, (参考訳) 弱い力センシングでは、力測定の精度を制限するため、基本雑音(量子ノイズと熱雑音)を抑制することが重要な問題である。 本稿では,分解型光パラメトリック増幅器(OPA)と補助機械振動器を共振器オプティメカルシステムに組み合わせ,量子ノイズを低減させる弱力センシング方式について検討する。 2つの結合型発振器の雑音低減は標準モード分割に依存することを示す。 古典的なアナロジーと量子的視点を より明確化するために提供します また, OPAのノイズ低減機構は光子数の変動を低減し, キャビティ場のスキューズ化を促進させる。 我々は,OPA単独または2連結合発振器を用いて達成できる以上の,双方の関節効果を高めることを目的とした,特定の設計を提案する。 このスキームは、力覚における空洞場のスクイーズと補助振動子をより深く理解するための新しい視点を提供する。

In the realm weak force sensing, an important issue is to suppress fundamental noise (quantum noise and thermal noise), as they limit the accuracy of force measurement. In this paper, we investigate a weak force sensing scheme that combines a degenerate optical parametric amplifier (OPA) and an auxiliary mechanical oscillator into a cavity optomechanical system to reduce quantum noise. We demonstrate that the noise reduction of two coupled oscillators depends on their norm mode splitting. and provide a classic analogy and quantum perspective for further clarification. Besides, the noise reduction mechanism of OPA is to reduce the fluctuation of photon number and enhance the squeezing of the cavity field. We propose a specific design aimed at enhancing the joint effect of both, beyond what can be achieved using OPA alone or two series coupled oscillators. This scheme provides a new perspective for deeper understanding of cavity field squeezing and auxiliary oscillator in force sensing.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# Sólo Escúchame: スペインの情緒的伴奏チャットボット

Sólo Escúchame: Spanish Emotional Accompaniment Chatbot ( http://arxiv.org/abs/2408.01852v2 )

ライセンス: Link先を確認
Bruno Gil Ramírez, Jessica López Espejel, María del Carmen Santiago Díaz, Gustavo Trinidad Rubín Linares, (参考訳) 世界保健機関(WHO)によると、2019年の自殺は世界第4位の死因となった。 メンタルヘルスの急激な増加を考えると、心理的サポートの提供は極めて重要かつ緊急である。 本稿では,LLaMA-2-7b-Chatをベースとした,最初のオープンソースの感情支援チャットボットであるS\'olo Esc\'uchameを提案する。 2) スペイン語に翻訳された複数の英語ソースとChatGPT-3.5-Turboを用いたジェネリックデータから収集したHEARデータセットを導入した。 最後に,2つの半自動評価手法に基づく評価指標を提案する。 我々のシステムは、スペイン語の心理的補助を提供する上で、様々な最先端のモデルより優れています。 私たちのモデルとデータセットは再現性を促進するために公開されています。

According to the World Health Organization (WHO), suicide was the fourth leading cause of death in the world for individuals aged 15 to 29 in 2019. Given the rapid increase in mental health issues, providing psychological support is both crucial and urgent. In this paper: (1) we propose S\'olo Esc\'uchame, the first open-source Spanish emotional assistance chatbot, based on LLaMA-2-7b-Chat. (2) We introduced the HEAR (Hispanic Emotional Accompaniment Responses) dataset, compiled from multiple English sources translated into Spanish, as well as generic data generated using ChatGPT-3.5-Turbo. Finally, (3) we propose an evaluation metric based on two semi-automatic assessment methods. Our system outperforms a range of state-of-the-art models in providing psychological assistance in Spanish. Our models and datasets are publicly available to facilitate reproducibility.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# キャビティ・マグノン系におけるマグノン・スクイージング強化弱磁場センサ

Magnon-squeezing-enhanced weak magnetic field sensing in cavity-magnon system ( http://arxiv.org/abs/2408.01905v2 )

ライセンス: Link先を確認
Zheng Liu, Yu-qiang Liu, Yi-jia Yang, Chang-shui Yu, (参考訳) 量子ノイズと熱ノイズは、弱い磁場感知の感度を制限する2つの主要なノイズ源である。 量子ノイズは広く研究されているが、弱い磁場を検出するのに熱ノイズを効果的に低減することは困難である。 我々は、磁気プローブとして異方性楕円YIG球を用いて、マグノンのパラメトリック増幅相互作用を確立し、マグノンのスクイージング効果を誘導する。 これらの効果は、マグノンモードの熱雑音を効果的に抑制し、外部からの弱い磁場信号を増幅することができる。 具体的には、圧縮真空貯留層にYIG球を配置することで、熱雑音を完全に抑制することができる。 我々の手法は、量子センシングのための熱雑音抑制の進歩を刺激する可能性がある。

Quantum noise and thermal noise are the two primary sources of noise that limit the sensitivity of weak magnetic field sensing. Although quantum noise has been widely addressed, effectively reducing thermal noise remains challenging in detecting weak magnetic fields. We employ an anisotropic elliptical YIG sphere as a magnetic field probe to establish a parametric amplification interaction of magnons and induce magnon squeezing effects. These effects can effectively suppress thermal noise in the magnon mode and amplify weak magnetic field signals from external sources. Specifically, complete suppression of thermal noise can be achieved by placing the YIG sphere in a squeezed vacuum reservoir. Our scheme has the potential to inspire advancements in thermal noise suppression for quantum sensing.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# MAO:マルチエージェントオーケストレーションによるプロセスモデル生成フレームワーク

MAO: A Framework for Process Model Generation with Multi-Agent Orchestration ( http://arxiv.org/abs/2408.01916v2 )

ライセンス: Link先を確認
Leilei Lin, Yumeng Jin, Yingming Zhou, Wenlong Chen, Chen Qian, (参考訳) プロセスモデルは、ビジネス要件を記述し、ソフトウェアテストと制御システムの改善をガイドするために、ソフトウェア工学で頻繁に使用されます。 しかし、従来のプロセスモデリング手法は、多くの専門家の参加を必要とすることが多い。 そのため、より効率的で費用効率の良い自動モデリング手法の探索が、現在研究の焦点となっている。 本稿では、マルチエージェントオーケストレーション(MAO)でプロセスモデルを自動的に生成するフレームワークについて検討し、プロセスモデリングの効率を高め、ドメインの専門家に貴重な洞察を提供することを目的とする。 当社のフレームワークMAOは,大規模言語モデルをマルチエージェントの基盤として活用し,マルチエージェント間の効率的な協調を保証する革新的なプロンプト戦略を採用している。 具体的には 1世代。 MAOの最初のフェーズは、テキスト記述から少し粗いプロセスモデルを生成することです。 2)改良。 エージェントは、対話の複数のラウンドを通じて、初期プロセスモデルを継続的に洗練します。 3) レビュー。 大規模言語モデルは多ターン対話において幻覚現象を起こす傾向があるため、エージェントはプロセスモデルにおける意味幻覚をレビューし、修復する必要がある。 4) テスト。 プロセスモデルの表現は様々である。 その結果、エージェントは外部ツールを使用して、生成されたプロセスモデルにフォーマットエラー、すなわちフォーマット幻覚が含まれているかどうかを検証し、出力パラダイムに適合するようにプロセスモデルを調整する。 実験により、我々のフレームワークが生成したプロセスモデルは、既存の手法より優れており、それぞれ4つの異なるデータセットにおいて、手動モデリングを89%、61%、52%、75%を上回ります。

Process models are frequently used in software engineering to describe business requirements, guide software testing and control system improvement. However, traditional process modeling methods often require the participation of numerous experts, which is expensive and time-consuming. Therefore, the exploration of a more efficient and cost-effective automated modeling method has emerged as a focal point in current research. This article explores a framework for automatically generating process models with multi-agent orchestration (MAO), aiming to enhance the efficiency of process modeling and offer valuable insights for domain experts. Our framework MAO leverages large language models as the cornerstone for multi-agent, employing an innovative prompt strategy to ensure efficient collaboration among multi-agent. Specifically, 1) generation. The first phase of MAO is to generate a slightly rough process model from the text description; 2) refinement. The agents would continuously refine the initial process model through multiple rounds of dialogue; 3) reviewing. Large language models are prone to hallucination phenomena among multi-turn dialogues, so the agents need to review and repair semantic hallucinations in process models; 4) testing. The representation of process models is diverse. Consequently, the agents utilize external tools to test whether the generated process model contains format errors, namely format hallucinations, and then adjust the process model to conform to the output paradigm. The experiments demonstrate that the process models generated by our framework outperform existing methods and surpass manual modeling by 89%, 61%, 52%, and 75% on four different datasets, respectively.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# EqvAfford: SE(3)ポイントレベル Affordance Learningの等価性

EqvAfford: SE(3) Equivariance for Point-Level Affordance Learning ( http://arxiv.org/abs/2408.01953v2 )

ライセンス: Link先を確認
Yue Chen, Chenrui Tie, Ruihai Wu, Hao Dong, (参考訳) 人間は平等を意識して世界を認識し、相互作用し、さまざまなポーズで異なる物体を操作するのに役立ちます。 ロボット操作においては、そのような同値性は多くのシナリオに存在する。 例えば、引き出しのポーズが何であれ(翻訳、回転、傾き)、操作戦略は一貫した(ハンドルを握ってラインを引っ張る)。 従来のモデルでは,ロボット操作の等価性を意識していない場合が多いため,新たなオブジェクトポーズにおけるトレーニングやパフォーマンスの低下が生じる可能性があるが,下流ロボット操作におけるポイントレベルのアベイランス学習における同値性を保証するための新しい設計であるEqvAffordフレームワークを提案する。

Humans perceive and interact with the world with the awareness of equivariance, facilitating us in manipulating different objects in diverse poses. For robotic manipulation, such equivariance also exists in many scenarios. For example, no matter what the pose of a drawer is (translation, rotation and tilt), the manipulation strategy is consistent (grasp the handle and pull in a line). While traditional models usually do not have the awareness of equivariance for robotic manipulation, which might result in more data for training and poor performance in novel object poses, we propose our EqvAfford framework, with novel designs to guarantee the equivariance in point-level affordance learning for downstream robotic manipulation, with great performance and generalization ability on representative tasks on objects in diverse poses.
翻訳日:2024-08-08 14:46:00 公開日:2024-08-07
# ソースコード脆弱性検出におけるLLMのパワーの調和

Harnessing the Power of LLMs in Source Code Vulnerability Detection ( http://arxiv.org/abs/2408.03489v1 )

ライセンス: Link先を確認
Andrew A Mahyari, (参考訳) ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の根本原因である。 ソースコードの静的解析は、ソフトウェア開発者が導入した意図しない欠陥を検出するために広く使われている。 大規模言語モデル(LLM)は、自然言語のようなシーケンシャルなデータで複雑なパターンをキャプチャする能力のため、人間のような会話能力を示す。 本稿では,LLMの機能を利用してソースコードを分析し,既知の脆弱性を検出する。 提案手法が複数のプログラミング言語で共通であることを保証するため,ソースコードをLLVM IRに変換し,これらの中間表現上でLLMを訓練する。 各種LLMアーキテクチャについて広範な実験を行い,その精度を比較した。 NVDとSARDによる実世界のコードと合成コードの総合的な実験は、ソースコードの脆弱性を特定する上で高い精度を示している。

Software vulnerabilities, caused by unintentional flaws in source code, are a primary root cause of cyberattacks. Static analysis of source code has been widely used to detect these unintentional defects introduced by software developers. Large Language Models (LLMs) have demonstrated human-like conversational abilities due to their capacity to capture complex patterns in sequential data, such as natural languages. In this paper, we harness LLMs' capabilities to analyze source code and detect known vulnerabilities. To ensure the proposed vulnerability detection method is universal across multiple programming languages, we convert source code to LLVM IR and train LLMs on these intermediate representations. We conduct extensive experiments on various LLM architectures and compare their accuracy. Our comprehensive experiments on real-world and synthetic codes from NVD and SARD demonstrate high accuracy in identifying source code vulnerabilities.
翻訳日:2024-08-08 14:16:39 公開日:2024-08-07
# 物理インフォームドガウス過程を用いた同時・メッシュフリートポロジー最適化

Simultaneous and Meshfree Topology Optimization with Physics-informed Gaussian Processes ( http://arxiv.org/abs/2408.03490v1 )

ライセンス: Link先を確認
Amin Yousefpour, Shirin Hosseinmardi, Carlos Mora, Ramin Bostanabad, (参考訳) トポロジ最適化(TO)は、その物質空間分布を予め定義された領域で設計し、制約の集合に従うことによって、構造の性能を最適化する原理的な数学的アプローチを提供する。 既存のTOアプローチの大部分は、最適化中の設計評価に数値解法を利用しており、ネストした性質を持ち、設計変数の離散化に依存している。 これらのアプローチとは対照的に、我々は、深いニューラルネットワークを介して平均関数をパラメータ化するガウス過程(GP)の枠組みに基づくTOメソッドの新しいクラスを開発する。 具体的には、GPプリエントを全ての設計変数と状態変数に配置し、パラメータ化連続関数で表現する。 これらのGPは、ニューラルネットワークを平均関数として共有するが、状態変数や設計変数が存在する限り多くの独立したカーネルを持つ。 我々は、ペナルティ項が状態方程式と設計制約に対応する性能指標のペナルティ化バージョンを最適化する単一forループで、我々のモデルの全てのパラメータを推定する。 我々のアプローチの魅力的な特徴は、状態方程式が解けると同時に性能指標が最適化されるため、組込み連続性を持つ$(1)$、離散化不変で複雑なドメインやトポロジーを収容する$(2)$である。 商用ソフトウェアで実装された従来のTO手法に対して本手法を検証するため,ストークスフローにおける消散電力の最小化を含む4つの問題に対して評価を行った。 その結果,本手法はフィルタリング技術は必要とせず,一貫した計算コストを有し,ランダム初期化や問題設定に対して非常に堅牢であることがわかった。

Topology optimization (TO) provides a principled mathematical approach for optimizing the performance of a structure by designing its material spatial distribution in a pre-defined domain and subject to a set of constraints. The majority of existing TO approaches leverage numerical solvers for design evaluations during the optimization and hence have a nested nature and rely on discretizing the design variables. Contrary to these approaches, herein we develop a new class of TO methods based on the framework of Gaussian processes (GPs) whose mean functions are parameterized via deep neural networks. Specifically, we place GP priors on all design and state variables to represent them via parameterized continuous functions. These GPs share a deep neural network as their mean function but have as many independent kernels as there are state and design variables. We estimate all the parameters of our model in a single for loop that optimizes a penalized version of the performance metric where the penalty terms correspond to the state equations and design constraints. Attractive features of our approach include $(1)$ having a built-in continuation nature since the performance metric is optimized at the same time that the state equations are solved, and $(2)$ being discretization-invariant and accommodating complex domains and topologies. To test our method against conventional TO approaches implemented in commercial software, we evaluate it on four problems involving the minimization of dissipated power in Stokes flow. The results indicate that our approach does not need filtering techniques, has consistent computational costs, and is highly robust against random initializations and problem setup.
翻訳日:2024-08-08 14:16:39 公開日:2024-08-07
# 大規模言語モデルの推論を改善するための自動定理証明器

Automated Theorem Provers Help Improve Large Language Model Reasoning ( http://arxiv.org/abs/2408.03492v1 )

ライセンス: Link先を確認
Lachlan McGinness, Peter Baumgartner, (参考訳) 本稿では,論理プログラミングシステムと一階述語論理系(ATP)が,LLMソリューションによって基本性能が与えられる論理的推論タスクにおいて,Large Language Models(LLMs)の精度を向上させる方法を示す。 本稿ではまず,PRONTOQAベンチマークを用いて,蒸気ローラー問題に対するLCM推論の評価を行った。 我々は、LLMが与えられた問題を形式論理言語に翻訳するためのフロントエンドとしてのみ機能し、それを解決するために自動推論エンジンが呼び出されるニューロシンボリックアーキテクチャにおいて、いかに精度が向上できるかを示す。 しかし、このアプローチはLLM翻訳の正確性に批判的に依存している。 この翻訳精度を評価するために,構文的・意味的誤り分類の枠組みを第2に定義する。 我々は、このフレームワークを実装し、LLMがベンチマークドメインで犯したエラーを識別するために使用しました。 これらの結果に基づき,構文的および意味的誤りを自動的に修正する機能を備えた第3に手法を拡張した。 セマンティックな誤り訂正のために、我々は主かつ新しい貢献である一階述語論理ATPを統合する。 提案手法は意味的誤りを著しく低減し,LLM論理的推論の精度をさらに高めることを示す。

In this paper we demonstrate how logic programming systems and Automated first-order logic Theorem Provers (ATPs) can improve the accuracy of Large Language Models (LLMs) for logical reasoning tasks where the baseline performance is given by direct LLM solutions. We first evaluate LLM reasoning on steamroller problems using the PRONTOQA benchmark. We show how accuracy can be improved with a neuro-symbolic architecture where the LLM acts solely as a front-end for translating a given problem into a formal logic language and an automated reasoning engine is called for solving it. However, this approach critically hinges on the correctness of the LLM translation. To assess this translation correctness, we secondly define a framework of syntactic and semantic error categories. We implemented the framework and used it to identify errors that LLMs make in the benchmark domain. Based on these findings, we thirdly extended our method with capabilities for automatically correcting syntactic and semantic errors. For semantic error correction we integrate first-order logic ATPs, which is our main and novel contribution. We demonstrate that this approach reduces semantic errors significantly and further increases the accurracy of LLM logical reasoning.
翻訳日:2024-08-08 14:16:39 公開日:2024-08-07
# SMOTEENNを用いたLightGBM, XGBoost, Tabnetを用いた高度なユーザ信用リスク予測モデル

Advanced User Credit Risk Prediction Model using LightGBM, XGBoost and Tabnet with SMOTEENN ( http://arxiv.org/abs/2408.03497v1 )

ライセンス: Link先を確認
Chang Yu, Yixin Jin, Qianwen Xing, Ye Zhang, Shaobo Guo, Shuchen Meng, (参考訳) 銀行の信用リスクは、現代の金融取引において重要な課題であり、多数の申請者の中で適格なクレジットカード保有者を特定する能力は、銀行のクレジットカード事業の利益性にとって不可欠である。 過去には、応募者の条件を検査するにはかなりの量の手作業が必要で、それは時間と労働集約的であった。 これまで使用されていたMLモデルの正確性と信頼性は継続的に改善されているが、より信頼性が高く強力なAIインテリジェントモデルの追求は、明らかに金融業界の大手銀行による不断の追求である。 本研究では,商業銀行が提供した4万件以上のデータベースを研究対象として利用した。 我々は,高次元データセットを前処理するためのPCAやT-SNEなどの様々な次元削減手法を比較し,LightGBMやXGBoostといった分散モデルの奥行き適応とチューニングを行い,Tabnetのような深層モデルと比較した。 その結果,SMOTEENNとこれらの技術を組み合わせた研究結果が得られた。 実験は、LightGBMとPCAとSMOTEENN技術を組み合わせることで、銀行が潜在的な高品質顧客を正確に予測し、他のモデルと比較して比較的優れた性能を示すことを示した。

Bank credit risk is a significant challenge in modern financial transactions, and the ability to identify qualified credit card holders among a large number of applicants is crucial for the profitability of a bank'sbank's credit card business. In the past, screening applicants'applicants' conditions often required a significant amount of manual labor, which was time-consuming and labor-intensive. Although the accuracy and reliability of previously used ML models have been continuously improving, the pursuit of more reliable and powerful AI intelligent models is undoubtedly the unremitting pursuit by major banks in the financial industry. In this study, we used a dataset of over 40,000 records provided by a commercial bank as the research object. We compared various dimensionality reduction techniques such as PCA and T-SNE for preprocessing high-dimensional datasets and performed in-depth adaptation and tuning of distributed models such as LightGBM and XGBoost, as well as deep models like Tabnet. After a series of research and processing, we obtained excellent research results by combining SMOTEENN with these techniques. The experiments demonstrated that LightGBM combined with PCA and SMOTEENN techniques can assist banks in accurately predicting potential high-quality customers, showing relatively outstanding performance compared to other models.
翻訳日:2024-08-08 14:16:39 公開日:2024-08-07
# FacialPulse: 時間的顔のランドマークによる効率的なRNNによる抑うつ検出

FacialPulse: An Efficient RNN-based Depression Detection via Temporal Facial Landmarks ( http://arxiv.org/abs/2408.03499v1 )

ライセンス: Link先を確認
Ruiqi Wang, Jinyang Huang, Jie Zhang, Xin Liu, Xiang Zhang, Zhi Liu, Peng Zhao, Sigui Chen, Xiao Sun, (参考訳) うつ病 (Depression) は、個人の生活と幸福に著しく影響を及ぼす精神疾患である。 早期発見と介入はうつ病の効果的な治療と管理に不可欠である。 近年,表情特徴を活用して自動抑うつ検出を行うエンド・ツー・エンドのディープラーニング手法が多数存在する。 しかし、現在のほとんどの手法は、表情の時間的ダイナミクスを見落としている。 非常に最近の3DCNN手法はこのギャップを補うが、CNNベースのバックボーンと冗長な顔の特徴の選択により、より計算コストがかかる。 以上の制約に対処するため,表情のタイミング相関を考慮し,抑うつを高精度かつ高速に認識するFacialPulseという新しいフレームワークを提案する。 Facial Motion Modeling Module (FMMM) はFacialPulseで設計されており、時間的特徴をフルに捉えている。 提案するFMMMは並列処理機能を備え,勾配の消滅を緩和するゲート機構を備えているため,このモジュールはトレーニング速度を大幅に向上させることができる。 さらに、顔のランドマークを効果的に使用して、元の画像を置き換えることで情報の冗長性を低下させるため、顔のランドマークエラーを排除し、認識精度をさらに向上させるために、Facial Landmark Calibration Module (FLCM) が設計された。 AVEC2014データセットとMMDAデータセット(うつ病データセット)の大規模な実験は、認識精度と速度に対するFacialPulseの優位性を示し、平均MAE(Mean Absolute Error)はベースラインに比べて21%減少し、認識速度は最先端の手法に比べて100%向上した。 コードはhttps://github.com/volatileee/FacialPulse.comで公開されている。

Depression is a prevalent mental health disorder that significantly impacts individuals' lives and well-being. Early detection and intervention are crucial for effective treatment and management of depression. Recently, there are many end-to-end deep learning methods leveraging the facial expression features for automatic depression detection. However, most current methods overlook the temporal dynamics of facial expressions. Although very recent 3DCNN methods remedy this gap, they introduce more computational cost due to the selection of CNN-based backbones and redundant facial features. To address the above limitations, by considering the timing correlation of facial expressions, we propose a novel framework called FacialPulse, which recognizes depression with high accuracy and speed. By harnessing the bidirectional nature and proficiently addressing long-term dependencies, the Facial Motion Modeling Module (FMMM) is designed in FacialPulse to fully capture temporal features. Since the proposed FMMM has parallel processing capabilities and has the gate mechanism to mitigate gradient vanishing, this module can also significantly boost the training speed. Besides, to effectively use facial landmarks to replace original images to decrease information redundancy, a Facial Landmark Calibration Module (FLCM) is designed to eliminate facial landmark errors to further improve recognition accuracy. Extensive experiments on the AVEC2014 dataset and MMDA dataset (a depression dataset) demonstrate the superiority of FacialPulse on recognition accuracy and speed, with the average MAE (Mean Absolute Error) decreased by 21% compared to baselines, and the recognition speed increased by 100% compared to state-of-the-art methods. Codes are released at https://github.com/volatileee/FacialPulse.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# e-Health CSIRO at RRG24: Entropy-augmented Self-Critical Sequence Training for Radiology Report Generation

e-Health CSIRO at RRG24: Entropy-Augmented Self-Critical Sequence Training for Radiology Report Generation ( http://arxiv.org/abs/2408.03500v1 )

ライセンス: Link先を確認
Aaron Nicolson, Jinghui Liu, Jason Dowling, Anthony Nguyen, Bevan Koopman, (参考訳) The Shared Task on Large-Scale Radiology Report Generation (RRG24)は、胸部X線画像の解釈と報告を行う支援システムの開発を迅速化することを目的としている。 この課題は、被験者が5つの異なるデータセットを用いて、患者の研究からCXRからの放射線学レポートの発見と印象セクションを生成するモデルを開発することを促す。 本稿では、RRG24で複数の1位を獲得したe-Health CSIROチームのアプローチを概説する。 我々のアプローチの中核となる新規性は、トークン分布のより高いエントロピーを維持するために、自己臨界シーケンストレーニングにエントロピー正規化を加えることである。 これにより、一般的なフレーズへの過度な適合が防止され、RRG24データセットにおける放射線学レポートの多様性に不可欠な、トレーニング中の語彙のより広範な探索が保証される。 私たちのモデルはHugging Face https://huggingface.co/aehrc/cxrmate-rrg24で利用可能です。

The Shared Task on Large-Scale Radiology Report Generation (RRG24) aims to expedite the development of assistive systems for interpreting and reporting on chest X-ray (CXR) images. This task challenges participants to develop models that generate the findings and impression sections of radiology reports from CXRs from a patient's study, using five different datasets. This paper outlines the e-Health CSIRO team's approach, which achieved multiple first-place finishes in RRG24. The core novelty of our approach lies in the addition of entropy regularisation to self-critical sequence training, to maintain a higher entropy in the token distribution. This prevents overfitting to common phrases and ensures a broader exploration of the vocabulary during training, essential for handling the diversity of the radiology reports in the RRG24 datasets. Our model is available on Hugging Face https://huggingface.co/aehrc/cxrmate-rrg24.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# VECTORを用いた3次元再構成誤差解析のブラックボックスを開く

Opening the Black Box of 3D Reconstruction Error Analysis with VECTOR ( http://arxiv.org/abs/2408.03503v1 )

ライセンス: Link先を確認
Racquel Fygenson, Kazi Jawad, Isabel Li, Francois Ayoub, Robert G. Deen, Scott Davidoff, Dominik Moritz, Mauricio Hess-Flores, (参考訳) 2D画像からの3Dシーンの再構築は、地球や惑星科学、宇宙探査、拡張現実、仮想現実といった分野に影響を及ぼす技術的課題である。 通常、再構成アルゴリズムは画像間で共通の特徴を識別し、地形の形状を推定した後の再構成誤差を最小限にする。 このバンドル調整(BA)ステップは、1つの周囲を最適化し、スカラー値を単純化し、多くの可能性のある再構成エラーの原因を難なくする(例えば、カメラの位置と方向の初期推定、照明条件、地形における特徴検出の容易さ)。 レコンストラクションエラーは、科学的推測の不正確さや、遠隔地環境を探索する宇宙船の危険に繋がる可能性がある。 この課題に対処するために,ステレオ再構成BAのエラー検査を改善する視覚解析ツールであるVECTORを提案する。 VECTORは、機能位置、カメラのポーズ、計算された3Dポイントについて、これまで利用できなかった可視性を提供する。 VECTORはNASAジェット推進研究所のPerseverance Mars RoverとIngenuity Mars Helicopterと共同で開発された。 我々は、このツールが、2020年火星ミッションの地形復元のデバッグと改善にどのように使われたかを報告する。

Reconstruction of 3D scenes from 2D images is a technical challenge that impacts domains from Earth and planetary sciences and space exploration to augmented and virtual reality. Typically, reconstruction algorithms first identify common features across images and then minimize reconstruction errors after estimating the shape of the terrain. This bundle adjustment (BA) step optimizes around a single, simplifying scalar value that obfuscates many possible causes of reconstruction errors (e.g., initial estimate of the position and orientation of the camera, lighting conditions, ease of feature detection in the terrain). Reconstruction errors can lead to inaccurate scientific inferences or endanger a spacecraft exploring a remote environment. To address this challenge, we present VECTOR, a visual analysis tool that improves error inspection for stereo reconstruction BA. VECTOR provides analysts with previously unavailable visibility into feature locations, camera pose, and computed 3D points. VECTOR was developed in partnership with the Perseverance Mars Rover and Ingenuity Mars Helicopter terrain reconstruction team at the NASA Jet Propulsion Laboratory. We report on how this tool was used to debug and improve terrain reconstruction for the Mars 2020 mission.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# Optimus: 気泡爆発による大規模マルチモードLDMトレーニングの高速化

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation ( http://arxiv.org/abs/2408.03505v1 )

ライセンス: Link先を確認
Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu, (参考訳) MLLM (Multimodal large language model) は、画像、テキスト、音声などの複数のデータ型に対して大きな言語モデル(LLM)の成功を拡大し、マルチモーダル翻訳、視覚的質問応答、コンテンツ生成など様々な領域で大きなパフォーマンスを実現している。 それにもかかわらず、既存のシステムは、不均一なモダリティモデルと3D並列性における複雑なデータ依存によって引き起こされるGPUバブルによるMLLMのトレーニングに非効率である。 本稿では,エンドツーエンドのMLLMトレーニング時間を短縮する分散MLLMトレーニングシステムOptimusを提案する。 Optimus は LLM バブル内のエンコーダ計算をスケジューリングすることで MLLM トレーニングにおけるバブルを低減できるという原理的な分析に基づいている。 全GPUでスケジューリング可能なエンコーダ計算を実現するために、OptimusはエンコーダとLLMの別々の並列プランを検索し、バブルスケジューリングアルゴリズムを採用し、MLLMモデルアーキテクチャにおける元のデータ依存関係を壊さずにLLMバブルを活用できるようにする。 さらに、エンコーダ層計算を一連のカーネルに分解し、3次元並列性の共通バブルパターンを分析し、ミリ秒以下のバブルスケジューリングを慎重に最適化し、全体的なトレーニング時間を最小化する。 実運用クラスタでの実験では,VT-22BおよびGPT-175Bモデルを用いたMLLMトレーニングを,ベースラインと比較して20.5%~21.3%高速化した。

Multimodal large language models (MLLMs) have extended the success of large language models (LLMs) to multiple data types, such as image, text and audio, achieving significant performance in various domains, including multimodal translation, visual question answering and content generation. Nonetheless, existing systems are inefficient to train MLLMs due to substantial GPU bubbles caused by the heterogeneous modality models and complex data dependencies in 3D parallelism. This paper proposes Optimus, a distributed MLLM training system that reduces end-to-end MLLM training time. Optimus is based on our principled analysis that scheduling the encoder computation within the LLM bubbles can reduce bubbles in MLLM training. To make scheduling encoder computation possible for all GPUs, Optimus searches the separate parallel plans for encoder and LLM, and adopts a bubble scheduling algorithm to enable exploiting LLM bubbles without breaking the original data dependencies in the MLLM model architecture. We further decompose encoder layer computation into a series of kernels, and analyze the common bubble pattern of 3D parallelism to carefully optimize the sub-millisecond bubble scheduling, minimizing the overall training time. Our experiments in a production cluster show that Optimus accelerates MLLM training by 20.5%-21.3% with ViT-22B and GPT-175B model over 3072 GPUs compared to baselines.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# 1.5-Pintsテクニカルレポート - 月ではなく日単位で事前トレーニング - 品質データに基づいた言語モデル

1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data ( http://arxiv.org/abs/2408.03506v1 )

ライセンス: Link先を確認
Calvin Tan, Jerome Wang, (参考訳) 本稿では, MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて, 1.5-PintsはAppleのOpenELMとMicrosoftのPhiより優れていることを示す。 データセットの選択は、説明と"テキストライク"と見なされるコンテンツを優先して、推論と論理的推論のモデルを支援し、強靭で汎用的なAIモデルとしての全体的な能力を決定付ける。 モデルアーキテクチャに関しては,改良されたMistralトークンライザとLlama-2アーキテクチャを併用して,より広範な互換性を実現した。 トレーニングでは,StableLM,TinyLlama,Huggingface Zephyrの手法を採用した。 1.5-Pintsは、LLMトレーニングにおけるデータ品質よりも、データ品質を重視することで、トレーニング時間と必要なリソースを大幅に削減できることを示した。 このアプローチによって、事前学習がよりアクセスしやすくなるだけでなく、二酸化炭素排出量を減らすことができると信じています。 本研究の成果と資源はオープンソースであり,この分野のさらなる進歩を促進することを目的としている。 1.5-Pintsモデルは2Kと16Kコンテキストウィンドウの2つのバージョンで利用可能である。

This paper presents a compute-efficient approach to pre-training a Language Model-the "1.5-Pints"-in only 9 days, while outperforming state-of-the-art models as an instruction-following assistant.Based on MT-Bench (a benchmark that emulates human judgments), 1.5-Pints outperforms Apple's OpenELM and Microsoft's Phi.This is achieved by a carefully curated pre-training dataset of 57 billion tokens, using a mix of automated workflows and manual human review. The selection of the dataset prioritizes content that is considered expository and "textbook-like" to aid the model in reasoning and logical deduction, culminating in its overall ability as a strong and versatile AI model. In terms of the model architecture, we employed a modified Mistral tokenizer, alongside a Llama-2 architecture for wider compatibility. For training, we adopted the methodologies used by StableLM, TinyLlama, and Huggingface Zephyr. 1.5-Pints demonstrates that by focusing on data quality over quantity in LLM training, we can significantly reduce training time and resources required. We believe this approach will not only make pre-training more accessible but also reduce our carbon footprint. Our findings and resources from this research are open-sourced, aiming to facilitate further advancements in the field. The 1.5-Pints model is available in two versions: 2K and 16K context windows.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# ソタヨロ深層学習モデルを用いたGUI要素検出

GUI Element Detection Using SOTA YOLO Deep Learning Models ( http://arxiv.org/abs/2408.03507v1 )

ライセンス: Link先を確認
Seyed Shayan Daneshvar, Shaowei Wang, (参考訳) グラフィカルユーザインタフェース(GUI)要素の検出は、画像やスケッチからの自動コード生成、GUIテスト、GUI検索において重要なタスクである。 近年の研究では、旧来のコンピュータビジョン(CV)技術と近代的なコンピュータビジョン(CV)技術が活用されている。 従来の手法では従来の画像処理アルゴリズム(エッジ検出や輪郭検出など)を用いており、現代の手法では、一般的な物体検出タスクに成熟したディープラーニングソリューションを用いている。 しかし、GUI要素検出は、オブジェクト検出のドメイン固有のケースであり、オブジェクトがより頻繁に重複し、互いに非常に近い位置にある。 したがって、様々な物体検出モデルを比較するために行われた研究は、GUI要素検出には適用されないかもしれない。 本研究では,GUI要素検出における汎用オブジェクト検出タスクにおいて,最新の4つのYOLOモデルの性能評価を行い,その精度について検討した。

Detection of Graphical User Interface (GUI) elements is a crucial task for automatic code generation from images and sketches, GUI testing, and GUI search. Recent studies have leveraged both old-fashioned and modern computer vision (CV) techniques. Oldfashioned methods utilize classic image processing algorithms (e.g. edge detection and contour detection) and modern methods use mature deep learning solutions for general object detection tasks. GUI element detection, however, is a domain-specific case of object detection, in which objects overlap more often, and are located very close to each other, plus the number of object classes is considerably lower, yet there are more objects in the images compared to natural images. Hence, the studies that have been carried out on comparing various object detection models, might not apply to GUI element detection. In this study, we evaluate the performance of the four most recent successful YOLO models for general object detection tasks on GUI element detection and investigate their accuracy performance in detecting various GUI elements.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# ソフトスキルによるソフトウェアエンジニアリング設計能力の確立

Establishing Software Engineering Design Competence with Soft Skills ( http://arxiv.org/abs/2408.03509v1 )

ライセンス: Link先を確認
Luiz Fernando Capretz, (参考訳) 長い間、ソフトウェア産業は、デザイン能力に精通し、追加のトレーニングをほとんど受けずにプロジェクトに貢献する準備ができている学生に需要があることが認識されてきた。 業界のニーズに応えて、カナダのソフトウェアエンジニアリングプログラムに入学した高校生向けのエンジニアリングデザインコースが開発された。 コースの目的は、現実的なデザイン体験を提供すること、学生を業界文化に紹介すること、タイムマネジメントスキルの向上、技術的、知的に挑戦すること、コミュニケーションスキルの向上、学生レベルの専門性の向上、ソフトスキルの強化、ソフトウェアエンジニアリングにおけるヒューマンファクタの認識の向上である。 本研究は、このデザインコースがどのように開発され、提供されたか、そして得られた学習結果の詳細について論じる。

For a long time, it has been recognized that the software industry has a demand for students who are well grounded in design competencies and who are ready to contribute to a project with little additional training. In response to the industry needs, an engineering design course has been developed for senior level students enrolled in the software engineering program in Canada. The goals of the course are to provide a realistic design experience, introduce students to industry culture, improve their time management skills, challenge them technically and intellectually, improve their communication skills, raise student level of professionalism, hone their soft skills, and raise awareness of human factors in software engineering. This work discusses the details of how this design course has been developed and delivered, and the learning outcomes that has been obtained.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# ソフトモードのギャラリー:強磁性量子相転移の理論と実験

A Gallery of Soft Modes: Theory and Experiment at a Ferromagnetic Quantum Phase Transition ( http://arxiv.org/abs/2408.03510v1 )

ライセンス: Link先を確認
P. C. E. Stamp, D. M. Silevitch, M. Libersky, A. A. Geim, T. F. Rosenbaum, (参考訳) 我々は、強磁性量子相転移においてゼロエネルギーに軟化する長距離変動に着目し、逆場等化モデルの物理的実現であるLiHoF$_4$における量子臨界点近傍の低エネルギー励起について検討する。 チューナブルループギャップ共振器構造におけるマイクロ波分光は、ソフトモードと高エネルギーの電子核状態を特定し、特徴づける。 本研究では,これらのモードを,Ising軸に平行に横に印加した周波数と磁場の関数として検討する。 これらは、ソフトフォノンやソフトフォノンと相互作用するソフトエレクトロ核モードの理論モデルとして理解されている。 量子臨界点における競合する赤外線の発散を、光子と電子核ソフトモードから同定する。 これはこれらの発散を不完全にキャンセルし、実験で観察されたミュートだが異なる署名につながる。 縦磁場の応用はソフトモードのギャップを埋める。 量子臨界点からかなり離れた距離で測定すると、強磁性領域のダイナミクスに関連する `Walker'' モードの集合が明らかになる。

We examine the low-energy excitations in the vicinity of the quantum critical point in LiHoF$_4$, a physical realization of the Transverse Field Ising Model, focusing on the long-range fluctuations which soften to zero energy at the ferromagnetic quantum phase transition. Microwave spectroscopy in tunable loop-gap resonator structures identifies and characterizes the soft mode and higher-energy electronuclear states. We study these modes as a function of frequency and magnetic fields applied transverse and parallel to the Ising axis. These are understood in the context of a theoretical model of a soft electronuclear mode that interacts with soft photons as well as soft phonons. We identify competing infrared divergences at the quantum critical point, coming from the photons and the electronuclear soft mode. It is an incomplete cancellation of these divergences that leads to the muted but distinct signatures observed in the experiments. The application of a longitudinal magnetic field gaps the soft mode. Measurements well away from the quantum critical point reveal a set of ``Walker'' modes associated with ferromagnetic domain dynamics.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# MoExtend: モダリティとタスク拡張のための新しいエキスパートのチューニング

MoExtend: Tuning New Experts for Modality and Task Extension ( http://arxiv.org/abs/2408.03511v1 )

ライセンス: Link先を確認
Shanshan Zhong, Shanghua Gao, Zhongzhan Huang, Wushao Wen, Marinka Zitnik, Pan Zhou, (参考訳) 大規模言語モデル(LLM)は様々なタスクに優れるが、主にテキストデータに基づいて訓練され、アプリケーションの範囲が制限される。 視覚言語理解を含むLLM機能の拡張は不可欠だが、それらをスクラッチからマルチモーダルデータでトレーニングすることは困難でコストもかかる。 既存の命令チューニング手法、例えばLLAVAは、トレーニング済みのCLIPビジョンエンコーダとLLMを、完全に微調整されたLLMを介して接続し、モダリティギャップを埋める。 しかし、完全な微調整は破滅的な忘れ、すなわち以前の知識を忘れること、特にタスクやモダリティの増加の時代における高い訓練コストに悩まされている。 そこで本研究では,Mixture-of-Experts(MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークであるMoExtendを紹介する。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、MoEやビジョンエンコーダのようなトレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。 このアプローチは、新しいモーダルデータやタスクへの迅速な適応と拡張を可能にし、LLM内に新しいモーダルを収容するという課題に効果的に対処する。 さらに、MoExtendは事前訓練されたモデルのチューニングを避け、破滅的な忘れ込みのリスクを軽減する。 実験により,LLMのマルチモーダル能力向上におけるMoExtendの有効性と有効性を示し,マルチモーダルAI研究の進歩に寄与した。 コード:https://github.com/zhongshsh/MoExtend.com

Large language models (LLMs) excel in various tasks but are primarily trained on text data, limiting their application scope. Expanding LLM capabilities to include vision-language understanding is vital, yet training them on multimodal data from scratch is challenging and costly. Existing instruction tuning methods, e.g., LLAVA, often connects a pretrained CLIP vision encoder and LLMs via fully fine-tuning LLMs to bridge the modality gap. However, full fine-tuning is plagued by catastrophic forgetting, i.e., forgetting previous knowledge, and high training costs particularly in the era of increasing tasks and modalities. To solve this issue, we introduce MoExtend, an effective framework designed to streamline the modality adaptation and extension of Mixture-of-Experts (MoE) models. MoExtend seamlessly integrates new experts into pre-trained MoE models, endowing them with novel knowledge without the need to tune pretrained models such as MoE and vision encoders. This approach enables rapid adaptation and extension to new modal data or tasks, effectively addressing the challenge of accommodating new modalities within LLMs. Furthermore, MoExtend avoids tuning pretrained models, thus mitigating the risk of catastrophic forgetting. Experimental results demonstrate the efficacy and efficiency of MoExtend in enhancing the multimodal capabilities of LLMs, contributing to advancements in multimodal AI research. Code: https://github.com/zhongshsh/MoExtend.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# LLM内蔵移動ロボットシステムに対するプロンプトインジェクションアタックに関する研究

A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems ( http://arxiv.org/abs/2408.03515v1 )

ライセンス: Link先を確認
Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Braunl, Jin B. Hong, (参考訳) GPT-4oのような大規模言語モデル(LLM)をロボットシステムに統合することは、組み込み人工知能の大幅な進歩を示している。 これらのモデルはマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。 しかし、この統合には課題はない。 主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。 これらのタスクは、安全かつ効果的な操作を保証するために、正確で信頼性の高い応答を必要とする。 マルチモーダルプロンプトは、ロボットの理解を高める一方で、悪意ある悪用が可能な複雑さも導入する。 例えば、モデルを誤解させるように設計された敵の入力は、誤ったあるいは危険なナビゲーション決定につながる可能性がある。 本研究は,LSM統合システムにおける移動ロボットの性能に及ぼす即時注入の影響について検討し,これらのリスクを軽減するための安全な迅速な戦略を探究する。 本研究は、ロバスト防御機構の実装により、攻撃検知とシステム性能の双方において、約30.8%の大幅な全体的な改善が示され、ミッション指向タスクにおけるセキュリティと信頼性の向上における重要な役割を強調した。

The integration of Large Language Models (LLMs) like GPT-4o into robotic systems represents a significant advancement in embodied artificial intelligence. These models can process multi-modal prompts, enabling them to generate more context-aware responses. However, this integration is not without challenges. One of the primary concerns is the potential security risks associated with using LLMs in robotic navigation tasks. These tasks require precise and reliable responses to ensure safe and effective operation. Multi-modal prompts, while enhancing the robot's understanding, also introduce complexities that can be exploited maliciously. For instance, adversarial inputs designed to mislead the model can lead to incorrect or dangerous navigational decisions. This study investigates the impact of prompt injections on mobile robot performance in LLM-integrated systems and explores secure prompt strategies to mitigate these risks. Our findings demonstrate a substantial overall improvement of approximately 30.8% in both attack detection and system performance with the implementation of robust defence mechanisms, highlighting their critical role in enhancing security and reliability in mission-oriented tasks.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# 自律運転におけるオープンボキャブラリ3次元シーン理解のためのLLMの活用

Leveraging LLMs for Enhanced Open-Vocabulary 3D Scene Understanding in Autonomous Driving ( http://arxiv.org/abs/2408.03516v1 )

ライセンス: Link先を確認
Amirhosein Chahe, Lifeng Zhou, (参考訳) 本稿では,Language Embedded 3D Gaussians とLarge Language Models (LLM) を組み合わせることで,自律走行におけるオープンな3Dシーン理解手法を提案する。 そこで本稿では,LLMを用いて文脈に関連のある標準語句を生成し,セグメンテーションとシーン解釈を提案する。 提案手法は,LLMの文脈的・意味的な機能を活用して,標準句の集合を生成し,それを3次元ガウス語に埋め込まれた言語特徴と比較する。 このLLM誘導アプローチは、最も困難な環境や不慣れな環境でも、ゼロショットシーンの理解と関心対象の検出を大幅に改善する。 WayveScenes101データセットの実験結果から、オープン語彙オブジェクトの検出とセグメンテーションの精度と柔軟性の観点から、我々のアプローチが最先端の手法を超えることを示した。 この研究は、よりインテリジェントでコンテキスト対応の自動運転システムへの大きな進歩を示し、高レベルのセマンティック理解を備えた3Dシーン表現を効果的にブリッジする。

This paper introduces a novel method for open-vocabulary 3D scene understanding in autonomous driving by combining Language Embedded 3D Gaussians with Large Language Models (LLMs) for enhanced inference. We propose utilizing LLMs to generate contextually relevant canonical phrases for segmentation and scene interpretation. Our method leverages the contextual and semantic capabilities of LLMs to produce a set of canonical phrases, which are then compared with the language features embedded in the 3D Gaussians. This LLM-guided approach significantly improves zero-shot scene understanding and detection of objects of interest, even in the most challenging or unfamiliar environments. Experimental results on the WayveScenes101 dataset demonstrate that our approach surpasses state-of-the-art methods in terms of accuracy and flexibility for open-vocabulary object detection and segmentation. This work represents a significant advancement towards more intelligent, context-aware autonomous driving systems, effectively bridging 3D scene representation with high-level semantic understanding.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# RepoMasterEval: 実世界のリポジトリを通じてコード補完を評価する

RepoMasterEval: Evaluating Code Completion via Real-World Repositories ( http://arxiv.org/abs/2408.03519v1 )

ライセンス: Link先を確認
Qinyun Wu, Chao Peng, Pengfei Gao, Ruida Hu, Haoyu Gan, Bo Jiang, Jinhe Tang, Zhiwen Deng, Zhanming Guan, Cuiyun Gao, Xia Liu, Ping Yang, (参考訳) ソフトウェア開発における自動コード補完ツールへの依存が高まり、堅牢な評価ベンチマークの必要性が重要になっている。 しかし、既存のベンチマークでは、関数とクラスレベルのコード生成タスクをより重視し、モデルを促すリッチなテキスト記述を提供する。 対照的に、そのような記述的プロンプトは実際の開発では利用できないことが多く、関数の中央やコードブロックなど幅広い状況でコード補完が行われることがある。 これらの制限により、評価はコード補完ツールの実践的なシナリオとよく一致しない。 本稿では,実世界のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークであるRepoMasterEvalを提案する。 各ベンチマークダタムは、1つのソースコードファイルから既存のテストスイートでコードスニペット(グラウンド真理)をマスキングすることで生成される。 モデル生成コードのテスト精度を向上させるために,テストケースの有効性を測定するために突然変異テストを用い,変異スコアの低いテストスイートに対して,手作業で新しいテストケースを作成した。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に不可欠であることを示し、RepoMasterEvalは実世界のシナリオでモデル性能の違いを報告できることを示している。 また、RepoMasterEvalを1ヶ月共同で配置した結果、ベンチマークはモデルのトレーニング中に正確なフィードバックを与えるのに有用であり、スコアは実際のモデルのパフォーマンスと高い相関関係にあることが明らかになった。 私たちの発見に基づいて、我々は、実用的で複雑な開発環境を考慮したコード生成ツールに適したLCMベンチマークを構築するよう、ソフトウェアエンジニアリングコミュニティに呼びかけています。

With the growing reliance on automated code completion tools in software development, the need for robust evaluation benchmarks has become critical. However, existing benchmarks focus more on code generation tasks in function and class level and provide rich text description to prompt the model. By contrast, such descriptive prompt is commonly unavailable in real development and code completion can occur in wider range of situations such as in the middle of a function or a code block. These limitations makes the evaluation poorly align with the practical scenarios of code completion tools. In this paper, we propose RepoMasterEval, a novel benchmark for evaluating code completion models constructed from real-world Python and TypeScript repositories. Each benchmark datum is generated by masking a code snippet (ground truth) from one source code file with existing test suites. To improve test accuracy of model generated code, we employ mutation testing to measure the effectiveness of the test cases and we manually crafted new test cases for those test suites with low mutation score. Our empirical evaluation on 6 state-of-the-art models shows that test argumentation is critical in improving the accuracy of the benchmark and RepoMasterEval is able to report difference in model performance in real-world scenarios. The deployment of RepoMasterEval in a collaborated company for one month also revealed that the benchmark is useful to give accurate feedback during model training and the score is in high correlation with the model's performance in practice. Based on our findings, we call for the software engineering community to build more LLM benchmarks tailored for code generation tools taking the practical and complex development environment into consideration.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# SwinShadow: 曖昧な隣接したシャドウ検出のためのシフトウィンドウ

SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection ( http://arxiv.org/abs/2408.03521v1 )

ライセンス: Link先を確認
Yonghui Wang, Shaokai Liu, Li Li, Wengang Zhou, Houqiang Li, (参考訳) シャドウ検出は多くのコンピュータビジョンアプリケーションにおいて基本的で困難なタスクである。 直感的には、ほとんどの影は物体自体による光の隠蔽によるもので、物体とその影は連続している(この論文では隣接する影と呼ばれる)。 この場合、物体の色が影の色と似ている場合、既存の手法は正確な検出に苦慮する。 この問題を解決するために,隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャであるSwinShadowを提案する。 この機構は2つのステップで機能する。 最初は、単一のウィンドウ内でローカルな自己アテンションを適用し、ネットワークがローカルの詳細に集中できるようにする。 その後、アテンションウィンドウを切り替え、ウィンドウ間アテンションを容易にし、より広い範囲の隣接情報のキャプチャを可能にする。 これらの統合されたステップにより、近くのオブジェクトと影を区別するネットワークの能力が大幅に向上した。 そして、プロセス全体をエンコーダ、デコーダ、機能統合の3つの部分に分けられる。 エンコーディング中、階層的特徴を取得するためにSwin Transformerを採用する。 深層処理において、深層処理において、偽陽性を抑え、シャドー特徴の表現能力を高めるための深層監視(DS)モジュールを提案する一方で、深層処理では、ダブルアテンション(DA)モジュールを利用して、局所およびシフトウィンドウを1段階に統合し、より大きな受容場を実現し、情報の連続性を高める。 最終的に、マスク予測のためにデコードされた特徴を融合するために、新しいマルチレベルアグリゲーション(MLA)機構が適用される。 SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットに対する大規模な実験により、我々のネットワークはバランスエラー率(BER)において優れた性能を発揮することが示された。

Shadow detection is a fundamental and challenging task in many computer vision applications. Intuitively, most shadows come from the occlusion of light by the object itself, resulting in the object and its shadow being contiguous (referred to as the adjacent shadow in this paper). In this case, when the color of the object is similar to that of the shadow, existing methods struggle to achieve accurate detection. To address this problem, we present SwinShadow, a transformer-based architecture that fully utilizes the powerful shifted window mechanism for detecting adjacent shadows. The mechanism operates in two steps. Initially, it applies local self-attention within a single window, enabling the network to focus on local details. Subsequently, it shifts the attention windows to facilitate inter-window attention, enabling the capture of a broader range of adjacent information. These combined steps significantly improve the network's capacity to distinguish shadows from nearby objects. And the whole process can be divided into three parts: encoder, decoder, and feature integration. During encoding, we adopt Swin Transformer to acquire hierarchical features. Then during decoding, for shallow layers, we propose a deep supervision (DS) module to suppress the false positives and boost the representation capability of shadow features for subsequent processing, while for deep layers, we leverage a double attention (DA) module to integrate local and shifted window in one stage to achieve a larger receptive field and enhance the continuity of information. Ultimately, a new multi-level aggregation (MLA) mechanism is applied to fuse the decoded features for mask prediction. Extensive experiments on three shadow detection benchmark datasets, SBU, UCF, and ISTD, demonstrate that our network achieves good performance in terms of balance error rate (BER).
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# EgyBERT:エジプト方言コーパスで事前訓練された大規模言語モデル

EgyBERT: A Large Language Model Pretrained on Egyptian Dialect Corpora ( http://arxiv.org/abs/2408.03524v1 )

ライセンス: Link先を確認
Faisal Qarah, (参考訳) 本研究は、エジプト方言の10.4GBのテキストで事前訓練されたアラビア語の言語モデルであるEgyBERTを提示する。 我々は、EgyBERTの性能を10個の評価データセットで比較し、他の5つの多言語アラビア語モデルと比較した。 EgyBERTは平均F1スコア84.25%、精度87.33%を達成し、MARBERTv2はF1スコア83.68%、精度87.19%という2番目に優れたモデルとなった。 さらに,エジプト語方言コーパス (ETC) には,3億3300万件のツイート (24.89万文) が2.5GBのテキストを含むエジプト語方言コーパス (ETC) と,エジプト語オンラインフォーラムから収集された44.42万件 (7.9GBテキスト) の文からなるエジプト語フォーラムコーパス (EFC) という2つの新しいエジプト語方言コーパスを紹介する。 どちらのコーパスも新しいモデルの事前訓練に使われており、文献で報告されているエジプト最大の方言コーパスである。 さらに、エジプトの方言データセット上で様々な言語モデルの性能を評価する最初の研究であり、より方言固有のモデルの必要性を強調したパフォーマンスの顕著な違いを明らかにしている。 その結果,エジプト方言で表現されるアラビア文字の処理と解析におけるEgyBERTモデルの有効性が,研究に含まれる他の言語モデルを上回った。 EgyBERT モデルは \url{https://huggingface.co/faisalq/EgyBERT} で公開されている。

This study presents EgyBERT, an Arabic language model pretrained on 10.4 GB of Egyptian dialectal texts. We evaluated EgyBERT's performance by comparing it with five other multidialect Arabic language models across 10 evaluation datasets. EgyBERT achieved the highest average F1-score of 84.25% and an accuracy of 87.33%, significantly outperforming all other comparative models, with MARBERTv2 as the second best model achieving an F1-score 83.68% and an accuracy 87.19%. Additionally, we introduce two novel Egyptian dialectal corpora: the Egyptian Tweets Corpus (ETC), containing over 34.33 million tweets (24.89 million sentences) amounting to 2.5 GB of text, and the Egyptian Forums Corpus (EFC), comprising over 44.42 million sentences (7.9 GB of text) collected from various Egyptian online forums. Both corpora are used in pretraining the new model, and they are the largest Egyptian dialectal corpora to date reported in the literature. Furthermore, this is the first study to evaluate the performance of various language models on Egyptian dialect datasets, revealing significant differences in performance that highlight the need for more dialect-specific models. The results confirm the effectiveness of EgyBERT model in processing and analyzing Arabic text expressed in Egyptian dialect, surpassing other language models included in the study. EgyBERT model is publicly available on \url{https://huggingface.co/faisalq/EgyBERT}.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# 中枢神経系に触発された自律ロボットの階層的学習制御

Hierarchical learning control for autonomous robots inspired by central nervous system ( http://arxiv.org/abs/2408.03525v1 )

ライセンス: Link先を確認
Pei Zhang, Zhaobo Hua, Jinliang Ding, (参考訳) 哺乳類は、中枢神経系の様々なレベルでの活動の協調と相互作用を通じて、様々な複雑な環境で自律的な行動を生成することができる。 本稿では,中枢神経系の階層構造と協調行動と相互作用行動を模倣した新しい階層型学習制御フレームワークを提案する。 このフレームワークは、アクティブな制御システムと受動的制御システムを組み合わせて、制御システムの柔軟性と信頼性を改善し、ロボットのより多様な自律的な動作を実現する。 特に、このフレームワークは、異なるレベルで独立したニューラルネットワークコントローラのバックボーンを持ち、大脳皮質、小脳、脊髄の機能から着想を得た3レベルの二重降下経路構造を取る。 提案手法のシミュレーションと,障害物交差や部分損傷後の急激な回復を含む複雑な環境下での六足歩行ロボットの実験を総合的に検証した。 本研究は,中枢神経系の自律行動を管理する原理を明らかにし,階層型学習制御アーキテクチャの健全な特徴と能動的・受動的制御システムの組み合わせによる階層型制御アプローチの有効性を示す。

Mammals can generate autonomous behaviors in various complex environments through the coordination and interaction of activities at different levels of their central nervous system. In this paper, we propose a novel hierarchical learning control framework by mimicking the hierarchical structure of the central nervous system along with their coordination and interaction behaviors. The framework combines the active and passive control systems to improve both the flexibility and reliability of the control system as well as to achieve more diverse autonomous behaviors of robots. Specifically, the framework has a backbone of independent neural network controllers at different levels and takes a three-level dual descending pathway structure, inspired from the functionality of the cerebral cortex, cerebellum, and spinal cord. We comprehensively validated the proposed approach through the simulation as well as the experiment of a hexapod robot in various complex environments, including obstacle crossing and rapid recovery after partial damage. This study reveals the principle that governs the autonomous behavior in the central nervous system and demonstrates the effectiveness of the hierarchical control approach with the salient features of the hierarchical learning control architecture and combination of active and passive control systems.
翻訳日:2024-08-08 14:05:27 公開日:2024-08-07
# LLMを用いた業界全体でのソフトウェア障害の類似度の調査

Exploring the extent of similarities in software failures across industries using LLMs ( http://arxiv.org/abs/2408.03528v1 )

ライセンス: Link先を確認
Martin Detloff, (参考訳) ソフトウェア開発の急速な進化は、高度な安全対策を必要とする。 企業からのソフトウェア障害に関する情報の抽出は、ニュース記事を通じてますます可能になっている。 本研究は, LLM(Failure Analysis Investigation with LLMs)モデルを用いて, 業界固有情報を抽出する。 FAILモデルのデータベースは情報に富んでいるが、さらなる分類と業界固有の洞察の恩恵を受けることができる。 以前の作業では、ニュース記事は信頼できる情報源から収集され、データベース内のインシデントによって分類された。 その後、プロンプトエンジニアリングとLarge Language Models (LLM) が適用され、ソフトウェア障害に関する関連情報を抽出した。 本研究は,これらの手法を,特定のドメインとソフトウェア障害の種類に分類することによって拡張する。 結果はグラフを通して視覚的に表現されます。 この分析は、特定の産業において、データベース全体を通して、いくつかのソフトウェア障害が著しく頻繁に発生することを示している。 この分類は、ソフトウェアエンジニアや企業が共通の失敗を特定し、対処するための貴重なリソースを提供する。 本研究は,ソフトウェア故障解析の自動化と強化を目的として,ソフトウェア工学と大規模言語モデル(LLM)の相乗効果を強調した。 データベースから業界固有のモデルにデータを変換することで、一般的な脆弱性を特定し、潜在的なリスクを予測し、ソフトウェア障害を防止するための積極的な対策を実施するために使用できる貴重なリソースを提供します。 現在のFAILデータベースのパワーとデータの視覚化を活用して、私たちは、より安全でよりセキュアなソフトウェアのための道を提供することを目標にしています。

The rapid evolution of software development necessitates enhanced safety measures. Extracting information about software failures from companies is becoming increasingly more available through news articles. This research utilizes the Failure Analysis Investigation with LLMs (FAIL) model to extract industry-specific information. Although the FAIL model's database is rich in information, it could benefit from further categorization and industry-specific insights to further assist software engineers. In previous work news articles were collected from reputable sources and categorized by incidents inside a database. Prompt engineering and Large Language Models (LLMs) were then applied to extract relevant information regarding the software failure. This research extends these methods by categorizing articles into specific domains and types of software failures. The results are visually represented through graphs. The analysis shows that throughout the database some software failures occur significantly more often in specific industries. This categorization provides a valuable resource for software engineers and companies to identify and address common failures. This research highlights the synergy between software engineering and Large Language Models (LLMs) to automate and enhance the analysis of software failures. By transforming data from the database into an industry specific model, we provide a valuable resource that can be used to identify common vulnerabilities, predict potential risks, and implement proactive measures for preventing software failures. Leveraging the power of the current FAIL database and data visualization, we aim to provide an avenue for safer and more secure software in the future.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 推薦のための大規模言語モデルの生涯パーソナライズされた低ランク適応

Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation ( http://arxiv.org/abs/2408.03533v1 )

ライセンス: Link先を確認
Jiachen Zhu, Jianghao Lin, Xinyi Dai, Bo Chen, Rong Shan, Jieming Zhu, Ruiming Tang, Yong Yu, Weinan Zhang, (参考訳) 我々は、最近積極的に研究され、論理的推論能力とオープンワールド知識を備えたレコメンダシステムを効果的に強化する上で、重要な課題となっている、リコメンデーションのための大規模言語モデル(LLM)の分野に主に焦点を当てている。 現在の主流の取り組みは、入力テンプレートをカスタマイズしたり、予測層におけるセマンティックとレコメンデーション空間間の表現を調整することで、レコメンデーションモデルからLLMにパーソナライズされた情報を注入することを中心にしている。 1) LoRAは既存の作業のコアコンポーネントとして主に使用されているが、LoRAパラメータではパーソナライズが十分に確立されていない。 2)生涯にわたるパーソナライズ行動シーケンスはパーソナライズに理想的であるが,LLMはテキストの長さを延長するためにトレーニングと推論のエスカレーションを必要とするため,有効性と効率の問題を提起する。 (3) 既存のアプローチは、トレーニング効率の制約のため、大規模なデータセットには拡張性がない。 従って、LLMはデータセット全体ではなく、データセットのごく一部(例:10%未満)しか見ることができず、完全なトレーニングスペースへの露出を制限することができる。 これらの問題に対処するため、RecLoRAを提案する。 このモデルにはパーソナライズされたLoRAモジュールが組み込まれており、異なるユーザに対して独立したLoRAをメンテナンスし、異なるモダリティに対して異なる履歴長を検索し、最小の時間コストを追加しながらパフォーマンスを大幅に改善するLong-Short Modality Retrieverが組み込まれている。 さらに、Few2Manyラーニング戦略を設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。 公開データセットに関する大規模な実験は、既存のベースラインモデルと比較して、RecLoRAの有効性を示している。

We primarily focus on the field of large language models (LLMs) for recommendation, which has been actively explored recently and poses a significant challenge in effectively enhancing recommender systems with logical reasoning abilities and open-world knowledge. Current mainstream efforts mainly center around injecting personalized information from recommendation models into LLMs by customizing input templates or aligning representations between semantic and recommendation spaces at the prediction layer. However, they face three significant limitations: (1) LoRA is mostly used as a core component in existing works, but personalization is not well established in LoRA parameters as the LoRA matrix shared by every user may not cater to different users' characteristics, leading to suboptimal performance. (2) Although lifelong personalized behavior sequences are ideal for personalization, their use raises effectiveness and efficiency issues since LLMs require escalating training and inference time to extend text lengths. (3) Existing approaches aren't scalable for large datasets due to training efficiency constraints. Thus, LLMs only see a small fraction of the datasets (e.g., less than 10%) instead of the whole datasets, limiting their exposure to the full training space. To address these problems, we propose RecLoRA. This model incorporates a Personalized LoRA module that maintains independent LoRAs for different users and a Long-Short Modality Retriever that retrieves different history lengths for different modalities, significantly improving performance while adding minimal time cost. Furthermore, we design a Few2Many Learning Strategy, using a conventional recommendation model as a lens to magnify small training spaces to full spaces. Extensive experiments on public datasets demonstrate the efficacy of our RecLoRA compared to existing baseline models.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# NeurAM: ニューラルアクティブ多様体による不確かさ定量化のための非線形次元性低減

NeurAM: nonlinear dimensionality reduction for uncertainty quantification through neural active manifolds ( http://arxiv.org/abs/2408.03534v1 )

ライセンス: Link先を確認
Andrea Zanoni, Gianluca Geraci, Matteo Salvador, Alison L. Marsden, Daniele E. Schiavazzi, (参考訳) 本稿では,計算コストの高い数理モデルに特化して設計された非線形次元減少に対する新しいアプローチを提案する。 オートエンコーダを用いて1次元のニューラルアクティブ多様体(NeurAM)がモデル出力の変動を捉え、同時に学習したサロゲートモデルをこの多様体に入力する。 提案した次元減少フレームワークは、感度解析や不確実性伝播といった外ループ多値処理に応用できる。 特に、理論上は理想化された条件下で、また挑戦的なテストケースでは数値的にも、NeurAMがモデル間で発見された低次元および共有多様体上のモデルをサンプリングすることによって、ばらつきを低減した多相サンプリング推定器を得ることができることを示す。 いくつかの数値的な例は、提案された次元削減戦略の主な特徴を示し、文献における既存のアプローチに関してその利点を強調している。

We present a new approach for nonlinear dimensionality reduction, specifically designed for computationally expensive mathematical models. We leverage autoencoders to discover a one-dimensional neural active manifold (NeurAM) capturing the model output variability, plus a simultaneously learnt surrogate model with inputs on this manifold. The proposed dimensionality reduction framework can then be applied to perform outer loop many-query tasks, like sensitivity analysis and uncertainty propagation. In particular, we prove, both theoretically under idealized conditions, and numerically in challenging test cases, how NeurAM can be used to obtain multifidelity sampling estimators with reduced variance by sampling the models on the discovered low-dimensional and shared manifold among models. Several numerical examples illustrate the main features of the proposed dimensionality reduction strategy, and highlight its advantages with respect to existing approaches in the literature.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# PRTGS: リアルタイム高品質リライトのためのガウスプレートの事前放射移動

PRTGS: Precomputed Radiance Transfer of Gaussian Splats for Real-Time High-Quality Relighting ( http://arxiv.org/abs/2408.03538v1 )

ライセンス: Link先を確認
Yijia Guo, Yuanxi Bai, Liwen Hu, Ziyi Guo, Mianzhi Liu, Yu Cai, Tiejun Huang, Lei Ma, (参考訳) 低周波照明環境におけるガウススプラッツのリアルタイム高画質リライティング手法であるガウススプラッツ(PRTGS)のプリコンプテッド・ラディアンス・トランスファーを提案し、3次元ガウススプラッツのラディアンス・トランスファーをプリコンプリートすることで、ソフト・シャドウとインターリフレクションを捉える。 既存の研究では、3Dガウススプラッティング(3DGS)が動的照明シナリオのニューラルネットワークの効率より優れていることが示されている。 しかし、3DGSに基づく現在の照明法は、高画質の影と間接照明を動的光に対してリアルタイムに計算するのに依然として苦労しており、非現実的なレンダリング結果をもたらす。 この問題は、シャドーイングのような複雑な伝達関数に必要な高価な輸送シミュレーションを事前計算することで解決し、結果として得られる伝達関数はガウススプラット毎にベクトルや行列の密集集合として表される。 本研究では,3次元ガウシアンスプラットのトレーニング速度を向上し,環境光に関する正確な間接照明を計算するために,トレーニングおよびレンダリング段階に適した個別プリ計算手法と,ユニークな光追跡および間接照明プリ計算技術を導入する。 実験により,本手法は,競争訓練時間を維持しながら最先端の視覚的品質を実現し,高画質のリアルタイム(30fps以上)で1080p解像度のダイナミックライトと比較的複雑なシーンをリライトできることを示した。

We proposed Precomputed RadianceTransfer of GaussianSplats (PRTGS), a real-time high-quality relighting method for Gaussian splats in low-frequency lighting environments that captures soft shadows and interreflections by precomputing 3D Gaussian splats' radiance transfer. Existing studies have demonstrated that 3D Gaussian splatting (3DGS) outperforms neural fields' efficiency for dynamic lighting scenarios. However, the current relighting method based on 3DGS still struggles to compute high-quality shadow and indirect illumination in real time for dynamic light, leading to unrealistic rendering results. We solve this problem by precomputing the expensive transport simulations required for complex transfer functions like shadowing, the resulting transfer functions are represented as dense sets of vectors or matrices for every Gaussian splat. We introduce distinct precomputing methods tailored for training and rendering stages, along with unique ray tracing and indirect lighting precomputation techniques for 3D Gaussian splats to accelerate training speed and compute accurate indirect lighting related to environment light. Experimental analyses demonstrate that our approach achieves state-of-the-art visual quality while maintaining competitive training times and allows high-quality real-time (30+ fps) relighting for dynamic light and relatively complex scenes at 1080p resolution.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# PoseMamba: 双方向グローバルローカル時空間モデルによる単眼的3次元人物位置推定

PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model ( http://arxiv.org/abs/2408.03540v1 )

ライセンス: Link先を確認
Yunlong Huang, Junshuo Liu, Ke Xian, Robert Caiming Qiu, (参考訳) トランスフォーマーは3次元人間のポーズ推定(HPE)の分野を著しく進歩させてきた。 しかし、既存のトランスフォーマーベースの手法は、主に時空間モデリングに自己注意機構を使用し、二次的な複雑さ、時空間関係の一方向モデリング、時空間相関の学習に不十分な結果をもたらす。 近年、状態空間モデル(SSM)を利用したMambaアーキテクチャは、線形複雑度を持つ様々な視覚タスクにおいて、より優れた長距離モデリング能力を示している。 本稿では,PoseMambaを提案する。PoseMambaは,モノクロビデオにおける3次元ポーズ推定のための線形複雑度を持つ,純粋にSSMに基づくアプローチである。 具体的には、フレーム間の時間的相関だけでなく、個々のフレーム内での人間の関節関係を包括的にモデル化する双方向グローバル局所時空間SSMブロックを提案する。 本稿では、この双方向グローバル局所時空間SSMブロックにおいて、SSMの局所モデリング能力を高めるための並べ替え戦略を導入する。 この戦略により、より論理的な幾何走査順序が提供され、グローバルSSMと統合され、グローバル局所空間スキャンが組み合わされる。 我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットを用いて、我々のアプローチを定量的に定性的に評価した。 大規模な実験では、PoseMambaはモデルサイズを小さくし、計算コストを削減しながら、両方のデータセットで最先端のパフォーマンスを達成する。 コードとモデルはリリースされる。

Transformers have significantly advanced the field of 3D human pose estimation (HPE). However, existing transformer-based methods primarily use self-attention mechanisms for spatio-temporal modeling, leading to a quadratic complexity, unidirectional modeling of spatio-temporal relationships, and insufficient learning of spatial-temporal correlations. Recently, the Mamba architecture, utilizing the state space model (SSM), has exhibited superior long-range modeling capabilities in a variety of vision tasks with linear complexity. In this paper, we propose PoseMamba, a novel purely SSM-based approach with linear complexity for 3D human pose estimation in monocular video. Specifically, we propose a bidirectional global-local spatio-temporal SSM block that comprehensively models human joint relations within individual frames as well as temporal correlations across frames. Within this bidirectional global-local spatio-temporal SSM block, we introduce a reordering strategy to enhance the local modeling capability of the SSM. This strategy provides a more logical geometric scanning order and integrates it with the global SSM, resulting in a combined global-local spatial scan. We have quantitatively and qualitatively evaluated our approach using two benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments demonstrate that PoseMamba achieves state-of-the-art performance on both datasets while maintaining a smaller model size and reducing computational costs. The code and models will be released.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# EXAONE 3.0 7.8Bインストラクションチューニング言語モデル

EXAONE 3.0 7.8B Instruction Tuned Language Model ( http://arxiv.org/abs/2408.03541v1 )

ライセンス: Link先を確認
LG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun, (参考訳) 本稿では,LG AI Research が開発したLarge Language Models (LLM) シリーズの最初のオープンモデルである EXAONE 3.0 命令調整言語モデルを紹介する。 様々なモデルサイズの中で、オープンな研究とイノベーションを促進するために、7.8Bの命令調整モデルを公開する。 EXAONE 3.0は、様々な公開および社内ベンチマークの広範な評価を通じて、同様の大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。 比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般タスクや複雑な推論において魅力的な性能を実現していることがわかった。 強力な実世界の有効性とバイリンガル能力によって、EXAONEがExpert AIの進歩に寄与し続けることを願っています。 私たちのEXAONE 3.0命令チューニングモデルはhttps://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instructで利用可能です。

We introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open research and innovations. Through extensive evaluations across a wide range of public and in-house benchmarks, EXAONE 3.0 demonstrates highly competitive real-world performance with instruction-following capability against other state-of-the-art open models of similar size. Our comparative analysis shows that EXAONE 3.0 excels particularly in Korean, while achieving compelling performance across general tasks and complex reasoning. With its strong real-world effectiveness and bilingual proficiency, we hope that EXAONE keeps contributing to advancements in Expert AI. Our EXAONE 3.0 instruction-tuned model is available at https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# スペイン・デヘサ (Pastureland) Extremadura におけるトウモロコシ林に覆われた地域の自動同定

Automatic identification of the area covered by acorn trees in the dehesa (pastureland) Extremadura of Spain ( http://arxiv.org/abs/2408.03542v1 )

ライセンス: Link先を確認
Ojeda-Magaña Benjamin, Ruelas Ruben, Quintanilla-Dominguez Joel, Gomez-Barba Leopoldo, Lopez de Herrera Juan, Robledo-Hernandez Jose, Tarquis Ana, (参考訳) アコーンはオークの果実であり、スペイン・デヘサ・エクストリーム・ナで重要な作物であり、特に「アコーン」認定を得るためにイベリアの豚肉に提供される価値のためである。 このため、適切な重量でイベリア豚の生産を最大化したい。 そのため、ドングリの樹冠が覆っている地域を知る必要があるため、スペイン領アルボラダ・キュビエタ(英語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版)) (スペイン語版) (スペイン語版) (スペイン語版)) (スペイン語版) (スペイン語版) (スペイン語版) (英語)) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (スペイン語版) (英語) (スペイン語) (スペイン語) (スペイン語) (スペイン語) (スペイン語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) (英語) ( 本研究では,エストレマドゥラの牧草地の空中デジタル画像(orthophotos)を用いて,CWAの自動推定を提案し,それを用いて,特定の土地で解放されるイベリア豚の数を決定する可能性を提案する。 自動検出の主な課題は、まず、アコーンの木を正しく識別し、次に、アコーン木の陰を正しく識別し、最後に、アーバスクル(まだ生産的でない若いアコーンの木、またはオークでない低木)を検出することである。 これらの困難は、自動セグメンテーションプロセスと手動セグメンテーションの両方において、真の課題である。 本研究では,Gustafson-Kessel (GK) によるクラスタリングアルゴリズムに基づく自動セグメンテーション手法を提案する。 得られた結果は,実画像との比較と手分割画像との比較において有望である。 この作品で使用される全写真は、およそ142ヘクタールの面積に対応しており、この結果は、認証された「アコーン」豚肉の生産者にとって大きな関心を集めている。

The acorn is the fruit of the oak and is an important crop in the Spanish dehesa extreme\~na, especially for the value it provides in the Iberian pig food to obtain the "acorn" certification. For this reason, we want to maximise the production of Iberian pigs with the appropriate weight. Hence the need to know the area covered by the crowns of the acorn trees, to determine the covered wooded area (CWA, from the Spanish Superficie Arbolada Cubierta SAC) and thereby estimate the number of Iberian pigs that can be released per hectare, as indicated by the royal decree 4/2014. In this work, we propose the automatic estimation of the CWA, through aerial digital images (orthophotos) of the pastureland of Extremadura, and with this, to offer the possibility of determining the number of Iberian pigs to be released in a specific plot of land. Among the main issues for automatic detection are, first, the correct identification of acorn trees, secondly, correctly discriminating the shades of the acorn trees and, finally, detect the arbuscles (young acorn trees not yet productive, or shrubs that are not oaks). These difficulties represent a real challenge, both for the automatic segmentation process and for manual segmentation. In this work, the proposed method for automatic segmentation is based on the clustering algorithm proposed by Gustafson-Kessel (GK) but the modified version of Babuska (GK-B) and on the use of real orthophotos. The obtained results are promising both in their comparison with the real images and when compared with the images segmented by hand. The whole set of orthophotos used in this work correspond to an approximate area of 142 hectares, and the results are of great interest to producers of certified "acorn" pork.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 雑音に基づく散逸系における古典的量子対応

Classical-quantum correspondence in the noise-based dissipative systems ( http://arxiv.org/abs/2408.03543v1 )

ライセンス: Link先を確認
Jiarui Zeng, Guo-Hao Xu, Weijie Huang, Yao Yao, (参考訳) 古典雑音と量子環境の対応について検討する。 古典的なノイズは、純粋に嫌悪され、無限温度の散逸過程のみに量子環境にマッピングできることが知られているが、補助的なシステムと保存を導入することで、この制限を回避できると述べる。 2段階の系を例として、古典的な雑音として変動する結合を持ついわゆる中心スピンモデルを構築し、その統計平均ダイナミクスを取得し、無限温度を超える散逸を捉える。 補助系の数と初期状態を調整することで、ノイズベースモデルはマルコフ的および非マルコフ的進化を再現する。 また、2レベルシステムの異なる量は異なるモデルパラメータによって制御され、構築されたモデルは現実的なオープンシステムの等価な形式ではなく、特定の可観測物に対する効率的なシミュレータであることを示す。 さらに、モデルはまた、開系、例えば負の温度、非対称の等距離クエンチの局所的な機構の研究にも適用できる。

We investigate the correspondence between classical noise and quantum environments. Although it has been known that the classical noise can be mapped to the quantum environments only for pure dephasing and infinite-temperature dissipation processes, we describe that this limitation can be circumvented by introducing auxiliary systems and conservation. Taking a two-level system as an example, we construct the so-called central spin model with its couplings fluctuating as the classical noise, and then acquire its statistical-average dynamics which captures the dissipations beyond the infinite temperature. By adjusting the number of the auxiliary systems and their initial states, the noise-based model reproduces both Markovian and non-Markovian evolutions. It is also found that different quantities of the two-level system are governed by different model parameters, indicating that the constructed model is an efficient simulator for specific observables, rather than an equivalent form of a realistic open system. In addition, the model is also applicable to investigate topical mechanisms of the open systems, e.g. negative temperatures and asymmetric equidistant quenches.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 非負の言語コンテキスト制限を解き放つ:ネイティブ言語プロンプトは知識の抽出を促進する

Unlocking the Non-Native Language Context Limitation: Native Language Prompting Facilitates Knowledge Elicitation ( http://arxiv.org/abs/2408.03544v1 )

ライセンス: Link先を確認
Baixuan Li, Yunlong Fan, Zhiqiang Gao, (参考訳) MLLM(Multilingual Large Language Model)は、支配的言語コーパスから関連知識を既に取得しているにもかかわらず、非支配言語で提起された質問に答えることに苦慮している。 対照的に、人間の多言語は、Positive Native Language Transfer (PNLT)を通じてネイティブ言語テキストから取得した比較的豊富な知識を呼び出すことで、この問題を克服することができる。 そこで我々は,MLLMの主流言語を人間の多言語ネイティブ言語に類似させ,人間の多言語で観察されるPNLTをシミュレートするNative Language Prompting (NatLan)を提案する。 MLLMのネイティブ言語コンテキストを明示的に作成し、質問応答中のリッチなネイティブ言語知識の活用を容易にし、非ネイティブ言語コンテキストが知識の効果的な適用に課す制限を解除する。 マルチMLLMコラボレーションを利用することで、NatLanはPNLTのシミュレーションにおいて各MLLMのワークロードを削減し、セマンティックトランスファーを洗練する。 C-Evalベンチマークでは、NatLanは平均精度を最大10.1%向上させ、5つのMLLMでハードレベルサブセットを最大5.0%増加させ、トップノッチ関連のメソッドをすべて上回っている。 私たちのコードはhttps://github.com/AnonyNLP/NatLan.comで公開されています。

Multilingual large language models (MLLMs) struggle to answer questions posed in non-dominant languages, even though they have already acquired the relevant knowledge from their dominant language corpus. In contrast, human multilinguals can overcome this issue by invoking the relatively rich knowledge acquired from native language texts through Positive Native Language Transfer (PNLT). Inspired by this, we analogize the dominant language of MLLMs to the native language of human multilinguals, and propose Native Language Prompting (NatLan) to simulate the PNLT observed in human multilinguals. It explicitly creates native language contexts for MLLMs to facilitate the elicitation of the rich native language knowledge during question-answering, unlocking the limitations imposed by non-native language contexts on the effective application of knowledge. By employing multi-MLLM collaboration, NatLan reduces the workload on each MLLM in simulating PNLT and refines semantic transfer. On the C-Eval benchmark, NatLan provides up to a 10.1% average accuracy improvement and up to a 5.0% increase in the hard-level subset across five MLLMs, surpassing all top-notch related methods. Our code is available at https://github.com/AnonyNLP/NatLan.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 画像翻訳のためのポイントクラウドによるCLIPベースのポイントクラウド分類

CLIP-based Point Cloud Classification via Point Cloud to Image Translation ( http://arxiv.org/abs/2408.03545v1 )

ライセンス: Link先を確認
Shuvozit Ghose, Manyi Li, Yiming Qian, Yang Wang, (参考訳) ポイントクラウドの理解は、3次元空間におけるポイントクラウドの希薄で非秩序な構造のため、本質的に難しい問題である。 近年,CLIPベースのポイントクラウド分類モデルであるPointCLIPでは,ポイントクラウド分類研究領域に新たな方向性が加えられている。 この方法では、まず点雲から多視点深度マップを抽出し、CLIPビジュアルエンコーダを通過する。 3D知識をネットワークに転送するには、CLIPビジュアルエンコーダ上にアダプタと呼ばれる小さなネットワークを微調整する。 PointCLIPには2つの制限がある。 まず、クラウドの深度マップには、分類や認識といったタスクに不可欠な画像情報がない。 第二に、アダプタはマルチビュー機能のグローバル表現にのみ依存する。 そこで本研究では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。PPCITNet(Pretrained Point Cloud to Image Translation Network)は,PPCITNet(Pretrained Point Cloud to Image Translation Network)とPPCITNet(Pretrained Point Cloud to Image Translation Network)を併用することで,点クラウドの分類と理解における有望なパフォーマンスを実現する。 さらに,各視点で処理される視点特徴と,多視点特徴にまたがるグローバルな相互理解とを結合した視点適応器を提案する。 実験結果は,ModelNet10,ModelNet40,ScanobjectNNデータセット上の既存の最先端CLIPモデルよりも優れた性能を示す。

Point cloud understanding is an inherently challenging problem because of the sparse and unordered structure of the point cloud in the 3D space. Recently, Contrastive Vision-Language Pre-training (CLIP) based point cloud classification model i.e. PointCLIP has added a new direction in the point cloud classification research domain. In this method, at first multi-view depth maps are extracted from the point cloud and passed through the CLIP visual encoder. To transfer the 3D knowledge to the network, a small network called an adapter is fine-tuned on top of the CLIP visual encoder. PointCLIP has two limitations. Firstly, the point cloud depth maps lack image information which is essential for tasks like classification and recognition. Secondly, the adapter only relies on the global representation of the multi-view features. Motivated by this observation, we propose a Pretrained Point Cloud to Image Translation Network (PPCITNet) that produces generalized colored images along with additional salient visual cues to the point cloud depth maps so that it can achieve promising performance on point cloud classification and understanding. In addition, we propose a novel viewpoint adapter that combines the view feature processed by each viewpoint as well as the global intertwined knowledge that exists across the multi-view features. The experimental results demonstrate the superior performance of the proposed model over existing state-of-the-art CLIP-based models on ModelNet10, ModelNet40, and ScanobjectNN datasets.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 光の効率的な量子源として周期的にポーリングされた薄膜リチウムニオブ酸リチウム環マッハツェンダーカップリング干渉計

Periodically poled thin-film lithium niobate ring Mach Zehnder coupling interferometer as an efficient quantum source of light ( http://arxiv.org/abs/2408.03550v1 )

ライセンス: Link先を確認
Mrinmoy Kundu, Bejoy Sikder, Heqing Huang, Mark Earnshaw, A. Sayem, (参考訳) 単一光子と励起光は、量子計算と量子通信の2つの主要な仕事場である。 高効率な単一光子を高純度かつ共有効率で生成することは、フォトニック量子コンピュータの前提条件である。 同時に、高効率でスケーラブルな圧縮光を生成することが、センサアプリケーションとともに連続可変量子コンピューティングの前提条件である。 本稿では, 周期的に偏極したニオブ酸リチウム(PPLN)導波路を効率よく励起光源とし, 単光子源とする対称リングMach-Zehnder干渉計(RMZI)を提案する。 提案設計では, サブミリワット (mW) のポンプパワーで, スクイーズレベルが -12dB よりも高い調整可能なシャープ光を発生可能であることを数値的に示す。 提案装置は、20ps長パルスのみを用いて、シャーディング効率94(99)%で99(95)%以上の純度を持つ単一光子を生成することができる。 提案した設計は、現在の製造技術と完全に互換性がある。

Single photons and squeezed light are the two primary workhorses for quantum computation and quantum communication. Generating high-efficiency single photons with high purity and heralding efficiency is the prerequisite for photonic quantum computers. At the same time, generating high-efficiency scalable squeezed light is the prerequisite for continuous variable quantum computing along with sensing applications. Here, we propose a symmetric ring-Mach-Zehnder interferometer (RMZI), which includes a periodically poled lithium niobate (PPLN) waveguide as an efficient source of squeezed light and a single-photon source. We numerically show that our proposed design can generate tunable squeezed light with a squeezing level higher than -12dB with sub-milli-watt (mW) pump power. The proposed device can also generate single photons with purity as high as 99(95)% with heralding efficiency 94(99)% using only 20ps long pulses. Our proposed design is fully compatible with current fabrication technology.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# VPOcc: モノクローナルな3Dセマンティックアクシデント予測のためのバニシングポイントの爆発的発見

VPOcc: Exploiting Vanishing Point for Monocular 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2408.03551v1 )

ライセンス: Link先を確認
Junsu Kim, Junhee Lee, Ukcheol Shin, Jean Oh, Kyungdon Joo, (参考訳) 単一RGBカメラの小型化により,ロボットビジョンにおいてモノクロ3Dセマンティック占有予測の重要性が高まっている。 しかし、既存の手法ではカメラの視点形状を適切に考慮していないことが多く、その結果、画像の深さ範囲に沿って情報の不均衡が生じる。 この問題に対処するため,VPOcc という名前の単分子的3次元セマンティック占有予測フレームワークを廃止点 (VP) として提案する。 フレームワークはVPを利用する3つの新しいモジュールで構成されています。 まず、VPZoomerモジュールにおいて、まず、VPに基づいたズームイン画像を生成することにより、機能抽出におけるVPを利用して、シーン間のバランスのとれた特徴抽出を実現する。 第2に、VP-guided cross-attention (VPCA)モジュールを用いて、VPに向かって点をサンプリングすることで、視点幾何認識機能アグリゲーションを実行する。 最後に,オリジナルおよびズームインされた特徴量と,バランス付特徴量融合(BVFV)モジュールとを効果的に融合させることにより,情報バランスの取れた特徴量を生成する。 実験により, セマンティックKITTIとSCBench-KITTI360におけるIoUとmIoUの両方の最先端性能が得られた。 これらの結果は、VPの活用により、画像内の情報不均衡を効果的に解決することで得られる。 私たちのコードはwww.github.com/anonymousで公開されます。

Monocular 3D semantic occupancy prediction is becoming important in robot vision due to the compactness of using a single RGB camera. However, existing methods often do not adequately account for camera perspective geometry, resulting in information imbalance along the depth range of the image. To address this issue, we propose a vanishing point (VP) guided monocular 3D semantic occupancy prediction framework named VPOcc. Our framework consists of three novel modules utilizing VP. First, in the VPZoomer module, we initially utilize VP in feature extraction to achieve information balanced feature extraction across the scene by generating a zoom-in image based on VP. Second, we perform perspective geometry-aware feature aggregation by sampling points towards VP using a VP-guided cross-attention (VPCA) module. Finally, we create an information-balanced feature volume by effectively fusing original and zoom-in voxel feature volumes with a balanced feature volume fusion (BVFV) module. Experiments demonstrate that our method achieves state-of-the-art performance for both IoU and mIoU on SemanticKITTI and SSCBench-KITTI360. These results are obtained by effectively addressing the information imbalance in images through the utilization of VP. Our code will be available at www.github.com/anonymous.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# 視覚プロンプト注入によるゴールハイジャックに対する大規模視線モデルの実験的検討

Empirical Analysis of Large Vision-Language Models against Goal Hijacking via Visual Prompt Injection ( http://arxiv.org/abs/2408.03554v1 )

ライセンス: Link先を確認
Subaru Kimura, Ryota Tanaka, Shumpei Miyawaki, Jun Suzuki, Keisuke Sakaguchi, (参考訳) 入力画像上に描画された指示に従うために,大規模視覚言語モデル(LVLM)を悪用する視覚的プロンプトインジェクション(VPI)について検討する。 本稿では,LVLMの実行タスクを元のタスクから攻撃者が指定した代替タスクに置き換える新しいVPI手法「GHVPI(Goal Hijacking via visual prompt Injection)」を提案する。 定量的分析により、GPT-4VはGHVPIに弱いことが示され、15.8%の攻撃成功率を示す。 また,GHVPIを成功させるためには,LVLMにおいて高い文字認識能力と命令追従能力が必要であることを示した。

We explore visual prompt injection (VPI) that maliciously exploits the ability of large vision-language models (LVLMs) to follow instructions drawn onto the input image. We propose a new VPI method, "goal hijacking via visual prompt injection" (GHVPI), that swaps the execution task of LVLMs from an original task to an alternative task designated by an attacker. The quantitative analysis indicates that GPT-4V is vulnerable to the GHVPI and demonstrates a notable attack success rate of 15.8%, which is an unignorable security risk. Our analysis also shows that successful GHVPI requires high character recognition capability and instruction-following ability in LVLMs.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# D2Styler:離散拡散法による任意スタイル転送の改善

D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods ( http://arxiv.org/abs/2408.03558v1 )

ライセンス: Link先を確認
Onkar Susladkar, Gayatri Deshmukh, Sparsh Mittal, Parth Shastri, (参考訳) 画像処理において最も難しい課題の1つは、様々な芸術的アプローチを用いて画像の意味を表現することである。 任意のスタイル転送(AST)のための既存の技術は、スタイルとコンテンツイメージの相違により、しばしばモード崩壊、オーバースティル化、アンダースティル化を経験する。 本稿では,D$^2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。 本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。 これにより、スタイルイメージからコンテンツイメージへの機能をバイアスなく簡単に移動できる。 提案手法は,スタイル変換画像の視覚的品質を大幅に向上させ,コンテンツとスタイルの組み合わせを視覚的に魅力的な方法で実現する。 WikiArtデータセットのスタイルイメージとCOCOデータセットのコンテンツイメージを取ります。 実験の結果、D$^2$Stylerは高品質なスタイル変換画像を生成し、ほぼ全てのメトリクスで既存の12の手法より優れていることが示された。 定性的な結果とアブレーション研究により,本手法の有効性についてさらなる知見が得られた。 コードはhttps://github.com/Onkarsus13/D2Stylerで入手できる。

In image processing, one of the most challenging tasks is to render an image's semantic meaning using a variety of artistic approaches. Existing techniques for arbitrary style transfer (AST) frequently experience mode-collapse, over-stylization, or under-stylization due to a disparity between the style and content images. We propose a novel framework called D$^2$Styler (Discrete Diffusion Styler) that leverages the discrete representational capability of VQ-GANs and the advantages of discrete diffusion, including stable training and avoidance of mode collapse. Our method uses Adaptive Instance Normalization (AdaIN) features as a context guide for the reverse diffusion process. This makes it easy to move features from the style image to the content image without bias. The proposed method substantially enhances the visual quality of style-transferred images, allowing the combination of content and style in a visually appealing manner. We take style images from the WikiArt dataset and content images from the COCO dataset. Experimental results demonstrate that D$^2$Styler produces high-quality style-transferred images and outperforms twelve existing methods on nearly all the metrics. The qualitative results and ablation studies provide further insights into the efficacy of our technique. The code is available at https://github.com/Onkarsus13/D2Styler.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# ドローンキャプチャ画像とディープラーニングによる超解像再構成によるハーミットクレーブのモニタリングとYOLOv8の改良

Monitoring of Hermit Crabs Using drone-captured imagery and Deep Learning based Super-Resolution Reconstruction and Improved YOLOv8 ( http://arxiv.org/abs/2408.03559v1 )

ライセンス: Link先を確認
Fan Zhao, Yijia Chen, Dianhan Xi, Yongying Liu, Jiaqi Wang, Shigeru Tabeta, Katsunori Mizuno, (参考訳) ハーミットカニは、種を分散させ、ゴミを浄化し、土壌を乱すことによって、沿岸生態系において重要な役割を担っている。 気候変動や汚染に対処し、海洋環境の健康にとって重要な指標となっている。 従来の調査手法、例えば四重項サンプリングは、労働集約、時間消費、環境依存である。 本研究は,UAVを用いたリモートセンシングとスーパーリゾリューション(SRR)を併用し,YOLOv8sを改良したCRAB-YOLO検出ネットワークによるハーミットカニの監視手法を提案する。 SRRは、動きのぼやけや解像度の不足といった問題に対処することで画質を向上し、従来の低解像度ファジィ画像に対する検出精度を大幅に向上させる。 CRAB-YOLOネットワークは、検出精度、ハーミットカニ特性、計算効率の3つの改善を統合し、他の主流検出モデルと比較して最先端(SOTA)性能を達成する。 RDNネットワークは最高の画像再構成性能を示し、CRAB-YOLOはSRRテストセットの平均平均精度(mAP)を69.5%達成した。 以上の結果から,本手法はハニガニの検出に有効であることが示唆された。

Hermit crabs play a crucial role in coastal ecosystems by dispersing seeds, cleaning up debris, and disturbing soil. They serve as vital indicators of marine environmental health, responding to climate change and pollution. Traditional survey methods, like quadrat sampling, are labor-intensive, time-consuming, and environmentally dependent. This study presents an innovative approach combining UAV-based remote sensing with Super-Resolution Reconstruction (SRR) and the CRAB-YOLO detection network, a modification of YOLOv8s, to monitor hermit crabs. SRR enhances image quality by addressing issues such as motion blur and insufficient resolution, significantly improving detection accuracy over conventional low-resolution fuzzy images. The CRAB-YOLO network integrates three improvements for detection accuracy, hermit crab characteristics, and computational efficiency, achieving state-of-the-art (SOTA) performance compared to other mainstream detection models. The RDN networks demonstrated the best image reconstruction performance, and CRAB-YOLO achieved a mean average precision (mAP) of 69.5% on the SRR test set, a 40% improvement over the conventional Bicubic method with a magnification factor of 4. These results indicate that the proposed method is effective in detecting hermit crabs, offering a cost-effective and automated solution for extensive hermit crab monitoring, thereby aiding coastal benthos conservation.
翻訳日:2024-08-08 13:53:42 公開日:2024-08-07
# In2Core:大規模言語モデルの命令微調整におけるコアセット選択に対する影響関数の活用

In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models ( http://arxiv.org/abs/2408.03560v1 )

ライセンス: Link先を確認
Ayrton San Joaquin, Bin Wang, Zhengyuan Liu, Nicholas Asher, Brian Lim, Philippe Muller, Nancy Chen, (参考訳) 進歩にもかかわらず、モデル一般化のためのパラメータ数とかなりのデータ要求のため、微調整の大規模言語モデル(LLM)はコストがかかるままである。 コンピューティングリソースへのアクセシビリティは、オープンソースコミュニティにとって依然として障壁である。 この課題に対処するために、トレーニングと評価サンプルの相関関係を学習モデルを用いて解析し、コアセットを選択するIn2Coreアルゴリズムを提案する。 特に、モデルの内部勾配を評価して、各トレーニングポイントの貢献度をランク付けすることを目的として、この関係を推定する。 効率を向上させるために、同様の精度を達成しつつ、少ない層数で影響関数を計算する最適化を提案する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。 時間の経過とともに、特定のテストサンプルに対するモデルカバレッジを分析するために影響関数を使用すると、これらのテストポイントのトレーニングセットのカバレッジに対する信頼性と解釈可能な信号が得られる。

Despite advancements, fine-tuning Large Language Models (LLMs) remains costly due to the extensive parameter count and substantial data requirements for model generalization. Accessibility to computing resources remains a barrier for the open-source community. To address this challenge, we propose the In2Core algorithm, which selects a coreset by analyzing the correlation between training and evaluation samples with a trained model. Notably, we assess the model's internal gradients to estimate this relationship, aiming to rank the contribution of each training point. To enhance efficiency, we propose an optimization to compute influence functions with a reduced number of layers while achieving similar accuracy. By applying our algorithm to instruction fine-tuning data of LLMs, we can achieve similar performance with just 50% of the training data. Meantime, using influence functions to analyze model coverage to certain testing samples could provide a reliable and interpretable signal on the training set's coverage of those test points.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# MPC最小化セキュアLLM推論

MPC-Minimized Secure LLM Inference ( http://arxiv.org/abs/2408.03561v1 )

ライセンス: Link先を確認
Deevashwer Rathee, Dacheng Li, Ion Stoica, Hao Zhang, Raluca Popa, (参考訳) 大規模言語モデル(LLM)に基づく多くの推論サービスは、サービスへのユーザのプロンプトや、ユーザに対するプロプライエタリな重みを明らかにすることによって、プライバシ上の懸念を生じさせる。 セキュア推論は、セキュアなマルチパーティ計算(MPC)を通じてこの問題に対する解決策を提供するが、MPCによって課される大きなオーバーヘッドのため、現代のLLMワークロードには実用的ではない。 このオーバーヘッドに対処するため、セキュアな推論におけるMPC使用量を最小限に抑えるためにLLM微調整を施したフレームワークであるMarillを提案する。 Marill氏は、微調整中に高いレベルのアーキテクチャ変更を導入し、推論中にMPC内で必要な高価な操作の数を大幅に減らした。 その結果,マリル生成モデルはすべてのセキュアな推論プロトコルにおいてより効率的であり,本手法はMPCフレンドリな近似を補完する。 標準的な微調整と比較すると、Marillは3.6-11.3倍のランタイムと2.4-6.9倍の通信能力を持つ。

Many inference services based on large language models (LLMs) pose a privacy concern, either revealing user prompts to the service or the proprietary weights to the user. Secure inference offers a solution to this problem through secure multi-party computation (MPC), however, it is still impractical for modern LLM workload due to the large overhead imposed by MPC. To address this overhead, we propose Marill, a framework that adapts LLM fine-tuning to minimize MPC usage during secure inference. Marill introduces high-level architectural changes during fine-tuning that significantly reduce the number of expensive operations needed within MPC during inference, by removing some and relocating others outside MPC without compromising security. As a result, Marill-generated models are more efficient across all secure inference protocols and our approach complements MPC-friendly approximations for such operations. Compared to standard fine-tuning, Marill results in 3.6-11.3x better runtime and 2.4-6.9x better communication during secure inference across various MPC settings, while typically preserving over 90% performance across downstream tasks.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# LLMファインタニング法と評価基準と旅行チャットボット使用例の比較

A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case ( http://arxiv.org/abs/2408.03562v1 )

ライセンス: Link先を確認
Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren, (参考訳) 本研究は,大規模言語モデル (LLM) の微調整手法である量子化低ランク適応器 (QLoRA) やRetrieval Augmented Fine-tuning (RAFT) ,Reinforcement Learning from Human Feedback (RLHF) などを比較し,従来の自然言語処理 (NLP) メトリクス,RAGアセスメント (Ragas) メトリクス,OpenAI GPT-4 評価指標,旅行チャットボットのユースケースを用いた人的評価方法と比較した。 旅行データセットは、旅行関連のサブレディットからの投稿をリクエストして、旅行関連の会話プロンプトとパーソナライズされた旅行体験を取得し、それぞれの微調整方法に拡張することでReddit APIからソースされた。 LLaMa 2 7B と Mistral 7B の2種類のプレトレーニング LLM を用いて微調整を行った。 QLoRAとRAFTは2つの事前訓練されたモデルに適用される。 これらのモデルからの推測は、上記の指標に対して広範囲に評価される。 人的評価といくつかのGPT-4指標による最良のモデルがMistral RAFTであり、それによってRLHF(Reinforcement Learning from Human Feedback)トレーニングパイプラインが実行され、最終的には最良のモデルとして評価された。 私たちの主な発見は以下のとおりです。 1)定量的かつRagasメトリクスは人的評価と一致しない。 2)オープンAI GPT-4の評価は人的評価に最も適している。 3) 評価のためには,人間をループに留めておくことが不可欠である。 4)従来のNLP指標は不十分である。 5)ミストラルは一般的にLLaMaより優れていた。 6)RAFTはQLoRAより優れていますが、それでも後処理が必要です。 7) RLHFはモデル性能を大幅に改善する。 次のステップには、データ品質の改善、データ量の増加、RAGメソッドの探索、特定の都市におけるデータ収集の集中などが含まれます。

This research compares large language model (LLM) fine-tuning methods, including Quantized Low Rank Adapter (QLoRA), Retrieval Augmented fine-tuning (RAFT), and Reinforcement Learning from Human Feedback (RLHF), and additionally compared LLM evaluation methods including End to End (E2E) benchmark method of "Golden Answers", traditional natural language processing (NLP) metrics, RAG Assessment (Ragas), OpenAI GPT-4 evaluation metrics, and human evaluation, using the travel chatbot use case. The travel dataset was sourced from the the Reddit API by requesting posts from travel-related subreddits to get travel-related conversation prompts and personalized travel experiences, and augmented for each fine-tuning method. We used two pretrained LLMs utilized for fine-tuning research: LLaMa 2 7B, and Mistral 7B. QLoRA and RAFT are applied to the two pretrained models. The inferences from these models are extensively evaluated against the aforementioned metrics. The best model according to human evaluation and some GPT-4 metrics was Mistral RAFT, so this underwent a Reinforcement Learning from Human Feedback (RLHF) training pipeline, and ultimately was evaluated as the best model. Our main findings are that: 1) quantitative and Ragas metrics do not align with human evaluation, 2) Open AI GPT-4 evaluation most aligns with human evaluation, 3) it is essential to keep humans in the loop for evaluation because, 4) traditional NLP metrics insufficient, 5) Mistral generally outperformed LLaMa, 6) RAFT outperforms QLoRA, but still needs postprocessing, 7) RLHF improves model performance significantly. Next steps include improving data quality, increasing data quantity, exploring RAG methods, and focusing data collection on a specific city, which would improve data quality by narrowing the focus, while creating a useful product.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 消費者用空中水速スキャナ(AASS)と深層学習に基づく超高分解能再構築・検出ネットワークを用いた水中リッターモニタリング

Underwater litter monitoring using consumer-grade aerial-aquatic speedy scanner (AASS) and deep learning based super-resolution reconstruction and detection network ( http://arxiv.org/abs/2408.03564v1 )

ライセンス: Link先を確認
Fan Zhao, Yongying Liu, Jiaqi Wang, Yijia Chen, Dianhan Xi, Xinlei Shao, Shigeru Tabeta, Katsunori Mizuno, (参考訳) 水中のゴミは湖、川、海などの水生環境に広く散らばっており、自然生態系に大きな影響を与えている。 調査効率、コスト、環境条件における水中ゴミ検出の現在のモニタリング技術は、自動検出のための効率的でコンシューマレベルの技術の必要性を強調している。 本研究では,Aerial-Aquatic Speedy Scanner (AASS) とSuper-Resolution Reconstruction (SRR) と改良されたYOLOv8検出ネットワークを紹介する。 AASSは従来の手法よりもデータ取得効率を高め、水中の廃棄物を正確に識別する高品質な画像をキャプチャする。 SRRは、動きのぼやけと解像度の不十分さを軽減し、画像分解能を向上させる。 具体的には、RCANモデルは、試験されたSRRモデルのうち、再構成された画像の精度を78.6%と最も高い平均精度(mAP)を達成した。 倍率係数が4のSRRテストセットは,従来のバイコビックセットに比べて改善されたmAPを示す。 これらの結果から,提案手法の有効性が示唆された。

Underwater litter is widely spread across aquatic environments such as lakes, rivers, and oceans, significantly impacting natural ecosystems. Current monitoring technologies for detecting underwater litter face limitations in survey efficiency, cost, and environmental conditions, highlighting the need for efficient, consumer-grade technologies for automatic detection. This research introduces the Aerial-Aquatic Speedy Scanner (AASS) combined with Super-Resolution Reconstruction (SRR) and an improved YOLOv8 detection network. AASS enhances data acquisition efficiency over traditional methods, capturing high-quality images that accurately identify underwater waste. SRR improves image-resolution by mitigating motion blur and insufficient resolution, thereby enhancing detection tasks. Specifically, the RCAN model achieved the highest mean average precision (mAP) of 78.6% for detection accuracy on reconstructed images among the tested SRR models. With a magnification factor of 4, the SRR test set shows an improved mAP compared to the conventional bicubic set. These results demonstrate the effectiveness of the proposed method in detecting underwater litter.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# エゴセントリックなビデオ表現学習のための外心的ビデオ言語データのアンロック

Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning ( http://arxiv.org/abs/2408.03567v1 )

ライセンス: Link先を確認
Zi-Yi Dou, Xitong Yang, Tushar Nagarajan, Huiyu Wang, Jing Huang, Nanyun Peng, Kris Kitani, Fu-Jen Chu, (参考訳) EMBED(Egocentric Models built with Exocentric Data)は,エゴセントリックなビデオ表現学習のために,エゴセントリックなビデオ言語データを変換する手法である。 大規模なエキソセントリックデータは、エゴセントリックな学習に重要な可能性を持つ多様なアクティビティをカバーしているが、エゴセントリックなデータとエゴセントリックなデータの相違は、一方の視点をシームレスに活用する上で困難をもたらす。 エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。 さらに、エゴセントリックデータセットの物語は、通常、アクション中心であり、エゴセントリックデータセットに見られる物語スタイルとは対照的に、視覚内容と密接に関連している。 これらの課題に対処するために、私たちは、エゴセントリックなトレーニングにエゴセントリックなデータを適用するためにデータ変換フレームワークを使用し、手動オブジェクトのインタラクションを強調する特定のビデオクリップを特定し、エゴセントリックな視点に合わせてナレーションスタイルを変換することに重点を置いています。 視覚と言語スタイルの転送の両方を適用することで、我々のフレームワークは、エゴセントリックなビデオ言語データから派生した新しいエゴセントリックなデータセットを作成する。 Epic-Kitchens-100マルチインスタンス検索では4.7%、ゼロショット設定ではEGTEA分類ベンチマークでは6.2%が絶対的に改善されている。 さらに、EMBEDは、エゴセントリックなビデオ言語モデルが、エゴセントリックなタスクで競合的に実行できるようにする。 最後に,EMBEDの応用例を,様々なデータ中心のデータセットに適用した場合に,強力な一般化能力を示す。

We present EMBED (Egocentric Models Built with Exocentric Data), a method designed to transform exocentric video-language data for egocentric video representation learning. Large-scale exocentric data covers diverse activities with significant potential for egocentric learning, but inherent disparities between egocentric and exocentric data pose challenges in utilizing one view for the other seamlessly. Egocentric videos predominantly feature close-up hand-object interactions, whereas exocentric videos offer a broader perspective on human activities. Additionally, narratives in egocentric datasets are typically more action-centric and closely linked with the visual content, in contrast to the narrative styles found in exocentric datasets. To address these challenges, we employ a data transformation framework to adapt exocentric data for egocentric training, focusing on identifying specific video clips that emphasize hand-object interactions and transforming narration styles to align with egocentric perspectives. By applying both vision and language style transfer, our framework creates a new egocentric dataset derived from exocentric video-language data. Through extensive evaluations, we demonstrate the effectiveness of EMBED, achieving state-of-the-art results across various egocentric downstream tasks, including an absolute improvement of 4.7% on the Epic-Kitchens-100 multi-instance retrieval and 6.2% on the EGTEA classification benchmarks in zero-shot settings. Furthermore, EMBED enables egocentric video-language models to perform competitively in exocentric tasks. Finally, we showcase EMBED's application across various exocentric datasets, exhibiting strong generalization capabilities when applied to different exocentric datasets.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# ディープラーニングと従来手法に基づく画像認識アルゴリズムにおける生成逆ネットワークの比較研究

A comparative study of generative adversarial networks for image recognition algorithms based on deep learning and traditional methods ( http://arxiv.org/abs/2408.03568v1 )

ライセンス: Link先を確認
Yihao Zhong, Yijing Wei, Yingbin Liang, Xiqing Liu, Rongwei Ji, Yiru Cang, (参考訳) 本稿では,GAN(Deep Learning and Generative Adversarial Network)とGAN(Generative Adversarial Network)を組み合わせた画像認識アルゴリズムについて,従来の画像認識手法と比較した。 本研究の目的は,画像認識分野におけるディープラーニング技術,特にGANのメリットと応用可能性を評価することである。 まず,SIFT,HOGなどの特徴抽出に基づく古典的アルゴリズムと,サポートベクターマシン(SVM),ランダムフォレスト,その他の分類器の組み合わせを含む,従来の画像認識手法の基本原理と手法を概観する。 そして、画像生成および認識におけるGANの動作原理、ネットワーク構造、およびユニークな利点を紹介する。 画像認識におけるGANの有効性を検証するために、複数の公開画像データセットを用いて一連の実験を設計・実施する。 実験の結果,GANは従来の手法と比較して,複雑な画像の処理,認識精度,アンチノイズ能力に優れていた。 具体的には、Gangsは高次元の特徴と画像の詳細をキャプチャし、認識性能を大幅に改善する。 さらに、ガンズは画像ノイズ、部分欠落情報、高品質な画像の生成において、ユニークな利点を示している。

In this paper, an image recognition algorithm based on the combination of deep learning and generative adversarial network (GAN) is studied, and compared with traditional image recognition methods. The purpose of this study is to evaluate the advantages and application prospects of deep learning technology, especially GAN, in the field of image recognition. Firstly, this paper reviews the basic principles and techniques of traditional image recognition methods, including the classical algorithms based on feature extraction such as SIFT, HOG and their combination with support vector machine (SVM), random forest, and other classifiers. Then, the working principle, network structure, and unique advantages of GAN in image generation and recognition are introduced. In order to verify the effectiveness of GAN in image recognition, a series of experiments are designed and carried out using multiple public image data sets for training and testing. The experimental results show that compared with traditional methods, GAN has excellent performance in processing complex images, recognition accuracy, and anti-noise ability. Specifically, Gans are better able to capture high-dimensional features and details of images, significantly improving recognition performance. In addition, Gans shows unique advantages in dealing with image noise, partial missing information, and generating high-quality images.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 有理多項式カオス展開を用いたベイズ最適化を用いた線形構造ダイナミクスモデルの最適後誤差推定

Maximum a Posteriori Estimation for Linear Structural Dynamics Models Using Bayesian Optimization with Rational Polynomial Chaos Expansions ( http://arxiv.org/abs/2408.03569v1 )

ライセンス: Link先を確認
Felix Schneider, Iason Papaioannou, Bruno Sudret, Gerhard Müller, (参考訳) ベイズ解析は、事前知識と測定データを組み合わせてモデルパラメータを学習することを可能にする。 一般に、パラメータの点推定だけが興味のある場合、最大後続推定(MAP)を計算する。 システム応答を周波数応答関数で記述できる構造力学モデルの文脈でMAP推定を適用する。 複雑係数を持つ2つの多項式の有理値としてシステム周波数応答を表現した有理多項式カオス拡張(RPCE)サロゲートモデルを用いる。 そこで本研究では,定位係数の後方分布に対するLaplaceの近似に基づいて,RPCEに対する既存の疎ベイズ学習手法の拡張を提案する。 さらに,MAP推定の最適化プロセスを通じて実験設計を適応的に強化するベイズ最適化手法を提案する。 そこで,提案手法は,大きな目的関数値に関連付けられる可能性のある入力空間のサンプル点を同定する手段として,期待される改善獲得関数を利用する。 取得関数は,スパースベイズ学習過程において同定された拡張係数の後方分布に基づいてモンテカルロサンプリングにより推定される。 提案手法を逐次実験設計と組み合わせることで,MAP推定問題におけるモデル評価の回数を効果的に削減する。 本稿では, 代数的2自由度系のパラメータ更新問題に対する提案手法の適用性と, クロス積層板の有限要素モデルについて述べる。

Bayesian analysis enables combining prior knowledge with measurement data to learn model parameters. Commonly, one resorts to computing the maximum a posteriori (MAP) estimate, when only a point estimate of the parameters is of interest. We apply MAP estimation in the context of structural dynamic models, where the system response can be described by the frequency response function. To alleviate high computational demands from repeated expensive model calls, we utilize a rational polynomial chaos expansion (RPCE) surrogate model that expresses the system frequency response as a rational of two polynomials with complex coefficients. We propose an extension to an existing sparse Bayesian learning approach for RPCE based on Laplace's approximation for the posterior distribution of the denominator coefficients. Furthermore, we introduce a Bayesian optimization approach, which allows to adaptively enrich the experimental design throughout the optimization process of MAP estimation. Thereby, we utilize the expected improvement acquisition function as a means to identify sample points in the input space that are possibly associated with large objective function values. The acquisition function is estimated through Monte Carlo sampling based on the posterior distribution of the expansion coefficients identified in the sparse Bayesian learning process. By combining the sparsity-inducing learning procedure with the sequential experimental design, we effectively reduce the number of model evaluations in the MAP estimation problem. We demonstrate the applicability of the presented methods on the parameter updating problem of an algebraic two-degree-of-freedom system and the finite element model of a cross-laminated timber plate.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 2D-OOB: 共同評価フレームワークによるデータの貢献

2D-OOB: Attributing Data Contribution through Joint Valuation Framework ( http://arxiv.org/abs/2408.03572v1 )

ライセンス: Link先を確認
Yifan Sun, Jingyan Shen, Yongchan Kwon, (参考訳) データバリュエーションは、特定の機械学習モデルのトレーニングに対する各ダムの貢献を定量化するための強力なフレームワークとして登場した。 しかし、1つのデータポイント内の様々なセルの品質が実際に大きく異なる可能性があることを認識することが重要である。 例えば、異常なデータポイントであっても、すべての細胞がうるさいとは限らない。 既存の方法で割り当てられた単一のスカラー評価は、データポイントのノイズとクリーンなセルの区別を曖昧にし、その結果、評価の解釈可能性を損なう。 本稿では,有用な(あるいは有害な)サンプルを共同で決定するための2D-OOBと,それらを駆動する特定の細胞を提案する。 包括的実験により,2D-OOBは複数のユースケースにまたがって最先端の性能を実現し,指数関数的に高速であることが示された。 2D-OOBは、細胞レベルでの微細なアウトリーチの検出と修正、データ中毒攻撃におけるバックドアトリガーの局所化に優れています。

Data valuation has emerged as a powerful framework to quantify the contribution of each datum to the training of a particular machine learning model. However, it is crucial to recognize that the quality of various cells within a single data point can vary greatly in practice. For example, even in the case of an abnormal data point, not all cells are necessarily noisy. The single scalar valuation assigned by existing methods blurs the distinction between noisy and clean cells of a data point, thereby compromising the interpretability of the valuation. In this paper, we propose 2D-OOB, an out-of-bag estimation framework for jointly determining helpful (or detrimental) samples, as well as the particular cells that drive them. Our comprehensive experiments demonstrate that 2D-OOB achieves state-of-the-art performance across multiple use cases, while being exponentially faster. 2D-OOB excels in detecting and rectifying fine-grained outliers at the cell level, as well as localizing backdoor triggers in data poisoning attacks.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# マルチステージサンプリングによる大規模言語モデルのアクティブテスト

Active Testing of Large Language Model via Multi-Stage Sampling ( http://arxiv.org/abs/2408.03573v1 )

ライセンス: Link先を確認
Yuheng Huang, Jiayang Song, Qiang Hu, Felix Juefei-Xu, Lei Ma, (参考訳) 大規模言語モデル(LLM)の開発ライフサイクルにおいて,性能評価が重要な役割を担っている。 モデルの性能を推定し、行動特性を解明し、潜在的な問題や制限の特定を容易にし、さらなる改善を導く。 LLMの多様なタスクハンドリング能力は、大量のトレーニングデータに由来するため、様々な下流タスク間でLLMのパフォーマンスを評価するために、豊富な、注釈付き、代表的テストデータも必要である。 しかし、高品質なテストデータの要求は、しばしばかなりの時間、計算資源、手作業を必要とし、時にはその評価が非効率または非実用的になる。 これらの課題に対処するため、研究者はアクティブテストを提案し、テストデータのサブセットを選択することで全体のパフォーマンスを見積もる。 それでも既存のアクティブテストメソッドは、LSMのユニークな新しい課題(例えば、多様なタスクタイプ、モデルの複雑さの増加、トレーニングデータの有効性)を考えると、非効率である傾向があります。 このような制限を緩和し、LLMの開発サイクルを短縮するため、本研究では、LLMに対してほぼ最適な性能推定を実現するために、LLMの小さなサブセットを戦略的に選択する、LCMに適したアクティブなテストフレームワークであるAcTracerを導入する。 AcTracerは、LCMの内部情報と外部情報の両方を利用して、テストサンプリングプロセスをガイドし、マルチステージプールベースのアクティブセレクションによるばらつきを低減する。 実験の結果,従来のSOTAに比べて最大38.83%の改善がみられた。

Performance evaluation plays a crucial role in the development life cycle of large language models (LLMs). It estimates the model's capability, elucidates behavior characteristics, and facilitates the identification of potential issues and limitations, thereby guiding further improvement. Given that LLMs' diverse task-handling abilities stem from large volumes of training data, a comprehensive evaluation also necessitates abundant, well-annotated, and representative test data to assess LLM performance across various downstream tasks. However, the demand for high-quality test data often entails substantial time, computational resources, and manual efforts, sometimes causing the evaluation to be inefficient or impractical. To address these challenges, researchers propose active testing, which estimates the overall performance by selecting a subset of test data. Nevertheless, the existing active testing methods tend to be inefficient, even inapplicable, given the unique new challenges of LLMs (e.g., diverse task types, increased model complexity, and unavailability of training data). To mitigate such limitations and expedite the development cycle of LLMs, in this work, we introduce AcTracer, an active testing framework tailored for LLMs that strategically selects a small subset of test data to achieve a nearly optimal performance estimation for LLMs. AcTracer utilizes both internal and external information from LLMs to guide the test sampling process, reducing variance through a multi-stage pool-based active selection. Our experiment results demonstrate that AcTracer achieves state-of-the-art performance compared to existing methods across various tasks, with up to 38.83% improvement over previous SOTA.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 日常回帰のための数字センスを開発するためのTeach CLIP

Teach CLIP to Develop a Number Sense for Ordinal Regression ( http://arxiv.org/abs/2408.03574v1 )

ライセンス: Link先を確認
Yao Du, Qiang Zhai, Weihang Dai, Xiaomeng Li, (参考訳) 正規回帰はコンピュータビジョンの分野における根本的問題であり、特定のタスクに関するカスタマイズされたよく訓練されたモデルである。 事前学習された視覚言語モデル(VLM)は、様々な視覚タスクにおいて印象的な性能を示したが、順序回帰の可能性は、より少ない探索を受けた。 本研究では,CLIPの順序回帰の可能性について検討し,そのモデルが様々な順序回帰タスクやシナリオに一般化されることを期待する。 残念なことに、vanilla CLIPは、現在のVLMは、数値センスのような構成概念をカプセル化するための、十分に文書化された制限があるため、このタスクで失敗する。 本稿では,VLMの定量的理解を改善するため,NumCLIPと呼ばれるシンプルで効果的な手法を提案する。 正確な画像と数字固有のテキストマッチング問題を粗い分類と微妙な予測段階に分解する。 私たちは、CLIPで利用可能な事前学習アライメントをよりよく活用するために、各数値ビンを共通言語の概念で識別し、言い換える。 順序回帰の本質的な連続性を考慮するため,CLIPの特徴空間における意味的・順序的アライメントの両面に特化して,厳密なクロスモーダルランキングに基づく正規化損失を提案する。 3つの一般順序回帰タスクの実験結果から,NumCLIPの有効性が示され,歴史画像の年代測定と画像美学評価の精度が10%,3.83%向上した。 コードはhttps://github.com/xmed-lab/NumCLIPで公開されている。

Ordinal regression is a fundamental problem within the field of computer vision, with customised well-trained models on specific tasks. While pre-trained vision-language models (VLMs) have exhibited impressive performance on various vision tasks, their potential for ordinal regression has received less exploration. In this study, we first investigate CLIP's potential for ordinal regression, from which we expect the model could generalise to different ordinal regression tasks and scenarios. Unfortunately, vanilla CLIP fails on this task, since current VLMs have a well-documented limitation of encapsulating compositional concepts such as number sense. We propose a simple yet effective method called NumCLIP to improve the quantitative understanding of VLMs. We disassemble the exact image to number-specific text matching problem into coarse classification and fine prediction stages. We discretize and phrase each numerical bin with common language concept to better leverage the available pre-trained alignment in CLIP. To consider the inherent continuous property of ordinal regression, we propose a novel fine-grained cross-modal ranking-based regularisation loss specifically designed to keep both semantic and ordinal alignment in CLIP's feature space. Experimental results on three general ordinal regression tasks demonstrate the effectiveness of NumCLIP, with 10% and 3.83% accuracy improvement on historical image dating and image aesthetics assessment task, respectively. Code is publicly available at https://github.com/xmed-lab/NumCLIP.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# Atom-Field-Medium相互作用 I:誘電体量子場における$N$高調波原子の傾斜効果

Atom-Field-Medium Interactions I: Graded Influence Actions for $N$ Harmonic Atoms in a Dielectric-Altered Quantum Field ( http://arxiv.org/abs/2408.03580v1 )

ライセンス: Link先を確認
Jen-Tsung Hsiang, Bei-Lok Hu, (参考訳) この一連の論文には2つの大きな目的がある。 1) 自己整合なバックアクションを持つ複数の構造の層からなる多部開量子系の理論を構築する。 次数的影響作用形式論 ( graded influence action formalism) \cite{BehHu10,BH11} を開発し、連続的なサブ層が興味のある変数の力学に与える影響を考慮に入れた。 2) これらの手法を原子-フィールド-ナトリウム相互作用の研究に適用し, 従来の方法に対するメリットを強調した。 我々は、$N$調和振動子の系を考え、$N$中性原子(A)の内部自由度(idf)をモデル化し、量子場(F)と相互作用し、単純のため、誘電体媒体(M)の存在によって変化する。 本稿では, 連続する構造層における動的変数の密度行列の減少に対する確率方程式を導出するために, 影響関数形式論における粗粒度および確率的有効作用を用いる。 グレード(graded)とは、粗いグレーニング手順の特定の順序をいう。 まず、誘電体発振器の共沸浴に結合する3つの粗粒化処理を行い、誘電体の放散特性だけでなく、誘電体の非マルコフ的空間相関のような必須なニュアンス的特徴を出現させる。 第二に、媒質変数を全体として統合することにより、誘電体修飾量子場、すなわち周波数依存の誘電関数を通して現れる量子場に対する媒質の影響が生じる。 最後に、原子のidfと相互作用するこの誘電体の量子場を積分すると、影響作用が生じる。 そこから、誘電体中変調量子場と相互作用する原子のidfの非平衡確率力学を記述する確率方程式を得る。

This series of papers has two broader aims: 1) Construct a theory for multi-partite open quantum systems comprising several layers of structure with self-consistent back-actions. Develop the graded influence action formalism \cite{BehHu10,BH11} to account for the influences of successive sub-layers on the dynamics of the variables of interest. 2) Apply these methods to the study of atom-field-medium interactions and highlight their merits over conventional methods. We consider a system of $N$ harmonic oscillators, modeling the internal degrees of freedom (idf) of $N$ neutral atoms (A), interacting with a quantum field (F), scalar here, for simplicity, altered by the presence of a dielectric medium (M). In this paper we use the coarse-grained and stochastic effective actions in the influence functional formalism to derive the stochastic equations for the reduced density matrices of the dynamical variables in the successive layers of structure. The word `graded' refers to the specific ordering of the coarse-graining procedures. Three layers of coarse-graining are performed, firstly, integrating over the common bath of the dielectric oscillators results not only in the appearance of necessary dissipative properties of the dielectric but also essential nuanced features such as nonMarkovian spatial correlations in the dielectric. Secondly, integrating over the medium variables as a whole results in a dielectric-modified quantum field, the influence of the medium on the quantum field manifesting through a frequency-dependent permittivity function. Finally, integrating over this dielectric-altered quantum field which interacts with the idfs of the atoms yields an influence action. From it we obtain the stochastic equation of motion which describes the nonequilibrium stochastic dynamics of the idf of the atoms interacting with a dielectric medium-modified quantum field.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 実世界TSPシナリオのための階層型ニューラルコンストラクティブソルバー

Hierarchical Neural Constructive Solver for Real-world TSP Scenarios ( http://arxiv.org/abs/2408.03585v1 )

ライセンス: Link先を確認
Yong Liang Goh, Zhiguang Cao, Yining Ma, Yanfei Dong, Mohammed Haroon Dupty, Wee Sun Lee, (参考訳) ルーティング問題に対する既存のニューラルコンストラクティブソルバは、主にトランスフォーマーアーキテクチャを採用しており、経路構築をセット・ツー・シーケンス学習タスクとして概念化している。 しかし、それらの効果は、実世界のシナリオを不適切にキャプチャする全くランダムな問題インスタンスで主に実証されてきた。 本稿では,産業環境に関連する現実的なトラベリングセールスマン問題 (TSP) のシナリオを紹介し,(1) 最適な次のノード(または都市)は,現在位置に基づくバイアス選択の潜在的なメリットを示唆する。 2) TSP を効果的に解くには,未確認ノードのロバストな追跡と,グループ化戦略の簡潔化が必要である。 これらの知見に基づいて,Hypernetworksにインスパイアされた学習可能な選択層を統合して,現在位置に基づいて選択を優先順位付けする手法と,期待・最大化アルゴリズムにインスパイアされた学習可能な近似クラスタリングアルゴリズムを提案する。 これら2つのコントリビューションは、直近の局所近傍と中間ノード表現のセットの両方を学習することにより、現実的なTSPを解決するための階層的なアプローチを形成する。 我々の階層的アプローチは、古典的および最近のトランスモデルと比較して優れた性能を示し、鍵設計の有効性を示す。

Existing neural constructive solvers for routing problems have predominantly employed transformer architectures, conceptualizing the route construction as a set-to-sequence learning task. However, their efficacy has primarily been demonstrated on entirely random problem instances that inadequately capture real-world scenarios. In this paper, we introduce realistic Traveling Salesman Problem (TSP) scenarios relevant to industrial settings and derive the following insights: (1) The optimal next node (or city) to visit often lies within proximity to the current node, suggesting the potential benefits of biasing choices based on current locations. (2) Effectively solving the TSP requires robust tracking of unvisited nodes and warrants succinct grouping strategies. Building upon these insights, we propose integrating a learnable choice layer inspired by Hypernetworks to prioritize choices based on the current location, and a learnable approximate clustering algorithm inspired by the Expectation-Maximization algorithm to facilitate grouping the unvisited cities. Together, these two contributions form a hierarchical approach towards solving the realistic TSP by considering both immediate local neighbourhoods and learning an intermediate set of node representations. Our hierarchical approach yields superior performance compared to both classical and recent transformer models, showcasing the efficacy of the key designs.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# Facing the Music: 映像音源分離における歌声分離処理

Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation ( http://arxiv.org/abs/2408.03588v1 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife, (参考訳) シネマティックオーディオソース分離(CASS)は、かなり新しいオーディオソース分離のサブタスクである。 CASSの典型的なセットアップは3段階の問題であり、混合物を対話幹(DX)、音楽幹(MX)、エフェクト茎(FX)に分離することを目的としている。 しかし、実際にはこれらの3つの幹のどちらにも適さない音源がいくつか存在するため、追加の補助茎を生産に使用する必要がある。 非常に一般的なエッジケースの1つは、映画音声における歌声であり、DXまたはMXに属する可能性がある。 本研究では,専用デコーダBanditとクエリベースの単一デコーダBanquetモデルを4段階問題に拡張し,非音楽対話,楽器音楽,歌唱音声,エフェクトを別々のステムとして扱う。 興味深いことに、クエリベースのBanquetモデルは、専用デコーダのBanditモデルよりも優れていた。 これは、バンド非依存のFiLM層が実施するボトルネックにおいて、より優れた機能アライメントが原因である、という仮説を立てた。 Datasetとモデルの実装はhttps://github.com/kwatcharasupat/source-separation-landing.comで公開される。

Cinematic audio source separation (CASS) is a fairly new subtask of audio source separation. A typical setup of CASS is a three-stem problem, with the aim of separating the mixture into the dialogue stem (DX), music stem (MX), and effects stem (FX). In practice, however, several edge cases exist as some sound sources do not fit neatly in either of these three stems, necessitating the use of additional auxiliary stems in production. One very common edge case is the singing voice in film audio, which may belong in either the DX or MX, depending heavily on the cinematic context. In this work, we demonstrate a very straightforward extension of the dedicated-decoder Bandit and query-based single-decoder Banquet models to a four-stem problem, treating non-musical dialogue, instrumental music, singing voice, and effects as separate stems. Interestingly, the query-based Banquet model outperformed the dedicated-decoder Bandit model. We hypothesized that this is due to a better feature alignment at the bottleneck as enforced by the band-agnostic FiLM layer. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 最適予後モデルを用いた感度解析

Sensitivity analysis using the Metamodel of Optimal Prognosis ( http://arxiv.org/abs/2408.03590v1 )

ライセンス: Link先を確認
Thomas Most, Johannes Will, (参考訳) 仮想プロトタイピングプロセスの実際の応用では、物理モデルの複雑さを減らし、迅速に解ける数値モデルが得られるとは限らない。 通常、全ての数値シミュレーションには数時間や数日を要する。 数値解法や高性能計算の進歩はあるものの、そのような場合、様々なモデル構成を探索することは不可能であり、効率的な代理モデルが必要である。 一般に、利用可能なメタモデル技術は、調査された問題によっていくつかの利点と欠点を示す。 本稿では,実際の問題に対して最適なメタモデルを選択するための自動アプローチを提案する。 高度なフィルタ技術を用いて変数空間を自動還元することにより、高次元問題にも効率的な近似が可能となる。 このフィルタ技術により、メタモデルに基づく感度解析を行い、重要な変数の影響を評価し、最も正確な確率論的解析を可能にする対応する代理モデルを用いて最適な部分空間を同定する、より小さな部分空間への高次元変数空間の縮小が可能となる。 そこで本研究では, 移動最小二乗およびクリグとして, 高度なメタモデルと組み合わせて, 分散に基づく, モーメントフリーの感度測定について検討する。

In real case applications within the virtual prototyping process, it is not always possible to reduce the complexity of the physical models and to obtain numerical models which can be solved quickly. Usually, every single numerical simulation takes hours or even days. Although the progresses in numerical methods and high performance computing, in such cases, it is not possible to explore various model configurations, hence efficient surrogate models are required. Generally the available meta-model techniques show several advantages and disadvantages depending on the investigated problem. In this paper we present an automatic approach for the selection of the optimal suitable meta-model for the actual problem. Together with an automatic reduction of the variable space using advanced filter techniques an efficient approximation is enabled also for high dimensional problems. This filter techniques enable a reduction of the high dimensional variable space to a much smaller subspace where meta-model-based sensitivity analyses are carried out to assess the influence of important variables and to identify the optimal subspace with corresponding surrogate model which enables the most accurate probabilistic analysis. For this purpose we investigate variance-based and moment-free sensitivity measures in combination with advanced meta-models as moving least squares and kriging.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# 焦点深度推定: 校正自由, 主観的, 日時不変アプローチ

Focal Depth Estimation: A Calibration-Free, Subject- and Daytime Invariant Approach ( http://arxiv.org/abs/2408.03591v1 )

ライセンス: Link先を確認
Benedikt W. Hosp, Björn Severitt, Rajat Agarwala, Evgenia Rusak, Yannick Sauer, Siegfried Wahl, (参考訳) パーソナライズされたテクノロジーが日々の生活とますます絡み合っている時代において、従来の視線追跡システムとオートフォーカスメガネは重要な課題に直面している。 本研究では、焦点深度を推定するための画期的なキャリブレーションのない手法を導入し、機械学習技術を利用して短いシーケンス内での眼球運動の特徴を解析する。 LSTMネットワークとドメイン固有の特徴工学を革新的に活用することで,10cm未満の平均絶対誤差(MAE)を達成し,新たな焦点深度推定精度基準を設定した。 この進歩は、自動焦点メガネの使い勝手を向上し、拡張現実環境へのシームレスな統合の道を開くことを約束し、パーソナライズされたビジュアルテクノロジーにおける大きな飛躍を告げる。

In an era where personalized technology is increasingly intertwined with daily life, traditional eye-tracking systems and autofocal glasses face a significant challenge: the need for frequent, user-specific calibration, which impedes their practicality. This study introduces a groundbreaking calibration-free method for estimating focal depth, leveraging machine learning techniques to analyze eye movement features within short sequences. Our approach, distinguished by its innovative use of LSTM networks and domain-specific feature engineering, achieves a mean absolute error (MAE) of less than 10 cm, setting a new focal depth estimation accuracy standard. This advancement promises to enhance the usability of autofocal glasses and pave the way for their seamless integration into extended reality environments, marking a significant leap forward in personalized visual technology.
翻訳日:2024-08-08 13:43:46 公開日:2024-08-07
# HistoSPACE: ヒストロジカルインスパイアされた空間トランスクリプトーム予測とキャラクタリゼーションエンジン

HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine ( http://arxiv.org/abs/2408.03592v1 )

ライセンス: Link先を確認
Shivam Kumar, Samrat Chatterjee, (参考訳) 空間転写学(ST)は、組織形態学の文脈における遺伝子発現の可視化を可能にする。 この新たな分野は、精密医療を設計するためのツール開発の基礎として機能する可能性がある。 しかし、こうした実験に必要なコストや専門知識が高ければ高いほど、通常の臨床実践への翻訳は困難である可能性がある。 AIを用いた組織画像から得られる情報を強化するための近代的な深層学習の実装にもかかわらず、情報の多様性の制限によって努力が制限されている。 本稿では,組織像から分子的洞察を抽出するために,STデータを用いた組織像の多様性を探索するHistoSPACEモデルを開発した。 本研究は,ユニバーサルイメージオートエンコーダをベースとした画像エンコーダを構築した。 この画像エンコーダは、最終モデルを構築するために畳み込みブロックに接続された。 さらにST-Dataの助けを借りて調整された。 このモデルは、伝統的な組織学モデルと比較して特に軽量である。 提案手法は, 従来のアルゴリズムと比較して高い効率性を示し, その相関関係は0.56であることがわかった。 最後に、その堅牢性は独立したデータセットを通して検証され、事前に定義された疾患の病理とよく一致した予測を示す。

Spatial transcriptomics (ST) enables the visualization of gene expression within the context of tissue morphology. This emerging discipline has the potential to serve as a foundation for developing tools to design precision medicines. However, due to the higher costs and expertise required for such experiments, its translation into a regular clinical practice might be challenging. Despite the implementation of modern deep learning to enhance information obtained from histological images using AI, efforts have been constrained by limitations in the diversity of information. In this paper, we developed a model, HistoSPACE that explore the diversity of histological images available with ST data to extract molecular insights from tissue image. Our proposed study built an image encoder derived from universal image autoencoder. This image encoder was connected to convolution blocks to built the final model. It was further fine tuned with the help of ST-Data. This model is notably lightweight in compared to traditional histological models. Our developed model demonstrates significant efficiency compared to contemporary algorithms, revealing a correlation of 0.56 in leave-one-out cross-validation. Finally, its robustness was validated through an independent dataset, showing a well matched preditction with predefined disease pathology.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 機能的MRI理解のための階層型量子制御ゲート

Hierarchical Quantum Control Gates for Functional MRI Understanding ( http://arxiv.org/abs/2408.03596v1 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Hoang-Quan Nguyen, Hugh Churchill, Samee U. Khan, Khoa Luu, (参考訳) 量子コンピューティングは、古典的コンピュータ、特に暗号、最適化、ニューロコンピューティングといった一般的な分野において、難解な複雑な問題を解決する強力なツールとして登場した。 本稿では,fMRI(Functional Magnetic Resonance Imaging)データを効率的に理解するために,HQCG(Hierarchical Quantum Control Gates)法という新しい量子ベース手法を提案する。 このアプローチには、それぞれfMRI信号の局所的特徴とグローバルな特徴を抽出するために設計されたローカル量子制御ゲート(LQCG)とグローバル量子制御ゲート(GQCG)の2つの新しいモジュールが含まれている。 提案手法は,量子マシン上でエンドツーエンドで動作し,量子力学を利用して,古典コンピュータの課題である30,000サンプルなどの超高次元fMRI信号のパターンを学習する。 実験結果から,本手法は古典的手法よりも有意に優れていることが示された。 さらに、提案した量子モデルは古典的手法よりも安定性が高く、過度に適合する傾向が低いことが判明した。

Quantum computing has emerged as a powerful tool for solving complex problems intractable for classical computers, particularly in popular fields such as cryptography, optimization, and neurocomputing. In this paper, we present a new quantum-based approach named the Hierarchical Quantum Control Gates (HQCG) method for efficient understanding of Functional Magnetic Resonance Imaging (fMRI) data. This approach includes two novel modules: the Local Quantum Control Gate (LQCG) and the Global Quantum Control Gate (GQCG), which are designed to extract local and global features of fMRI signals, respectively. Our method operates end-to-end on a quantum machine, leveraging quantum mechanics to learn patterns within extremely high-dimensional fMRI signals, such as 30,000 samples which is a challenge for classical computers. Empirical results demonstrate that our approach significantly outperforms classical methods. Additionally, we found that the proposed quantum model is more stable and less prone to overfitting than the classical methods.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# PRISM: スケール不変画像マッチングのためのプログレッシブ依存関係の最大化

PRISM: PRogressive dependency maxImization for Scale-invariant image Matching ( http://arxiv.org/abs/2408.03598v1 )

ライセンス: Link先を確認
Xudong Cai, Yongcai Wang, Lun Luo, Minhang Wang, Deying Li, Jintao Xu, Weihao Gu, Rui Ai, (参考訳) 画像マッチングは、画像間の対応する点を特定することを目的としている。 現在、検出器なしの手法は、密集したマッチングとグローバルな受容場を生成する能力のおかげで、挑戦的なシナリオで顕著な性能を示している。 しかし、すべての画像領域がマッチングプロセスに寄与するわけではないため、機能相互作用や画像全体の一致の提案は不要である。 不整合領域での相互作用とマッチングはエラーを発生させ、マッチング精度と効率を低下させる。 一方、スケールの相違は依然として既存の手法を悩ませている。 上記の問題に対処するため、スケール不変画像マッチング(PRISM)のためのPRogressive dependency maxImizationを提案し、不適切なパッチ特徴を共同で引き起こし、スケールの相違に対処する。 そこで我々はまず,2つの特徴集合間の依存関係を最大化し,無関係な特徴を適応的に引き起こすマルチスケール・プルーニング・モジュール(MPM)を提案する。 さらに,SADPA (Scale-Aware Dynamic Pruning Attention) を設計し,階層設計により異なるスケールからの情報を集約する。 提案手法は,各種評価ベンチマークや下流タスクの精度向上により,より優れたマッチング性能と一般化能力を確認した。 コードはhttps://github.com/Master-cai/PRISMで公開されている。

Image matching aims at identifying corresponding points between a pair of images. Currently, detector-free methods have shown impressive performance in challenging scenarios, thanks to their capability of generating dense matches and global receptive field. However, performing feature interaction and proposing matches across the entire image is unnecessary, because not all image regions contribute to the matching process. Interacting and matching in unmatchable areas can introduce errors, reducing matching accuracy and efficiency. Meanwhile, the scale discrepancy issue still troubles existing methods. To address above issues, we propose PRogressive dependency maxImization for Scale-invariant image Matching (PRISM), which jointly prunes irrelevant patch features and tackles the scale discrepancy. To do this, we firstly present a Multi-scale Pruning Module (MPM) to adaptively prune irrelevant features by maximizing the dependency between the two feature sets. Moreover, we design the Scale-Aware Dynamic Pruning Attention (SADPA) to aggregate information from different scales via a hierarchical design. Our method's superior matching performance and generalization capability are confirmed by leading accuracy across various evaluation benchmarks and downstream tasks. The code is publicly available at https://github.com/Master-cai/PRISM.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 拡張によるアクティベーション:ニューラルネットワークのパフォーマンス向上のためのフレームワーク

Activations Through Extensions: A Framework To Boost Performance Of Neural Networks ( http://arxiv.org/abs/2408.03599v1 )

ライセンス: Link先を確認
Chandramouli Kamanchi, Sumatra Mukherjee, Kameshwaran Sampath, Pankaj Dayama, Arindam Jati, Vijay Ekambaram, Dzung Phan, (参考訳) 活性化関数はニューラルネットワークの非線形性であり、入力と出力の間の複雑なマッピングを学習することができる。 アクティベーション関数の典型的な選択は、アプリケーションドメインに依存しているReLU、Tanh、Sigmoidなどである。 本研究では,アクティベーション関数に関するいくつかの研究を統一したフレームワーク/ストラテジーを提案し,これらの成果を理論的に説明する。 また、この枠組みから派生した新しい手法を提案し、活性化関数の操作を通してニューラルネットワークの「拡張」(すなわち、与えられたニューラルネットワークの特殊一般化)を得られるようにした。 ニューラルネットワークの'extensions''は、標準的なテスト関数において、空間と時間的複雑さが重要でないバニラニューラルネットワークと比較してパフォーマンス上の利点があることを示す。 また、実世界のデータセットの時系列領域において、ニューラルネットワーク ``extensions'' の利点を示す。

Activation functions are non-linearities in neural networks that allow them to learn complex mapping between inputs and outputs. Typical choices for activation functions are ReLU, Tanh, Sigmoid etc., where the choice generally depends on the application domain. In this work, we propose a framework/strategy that unifies several works on activation functions and theoretically explains the performance benefits of these works. We also propose novel techniques that originate from the framework and allow us to obtain ``extensions'' (i.e. special generalizations of a given neural network) of neural networks through operations on activation functions. We theoretically and empirically show that ``extensions'' of neural networks have performance benefits compared to vanilla neural networks with insignificant space and time complexity costs on standard test functions. We also show the benefits of neural network ``extensions'' in the time-series domain on real-world datasets.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# EnJa: 大規模言語モデルでジェイルブレイクを封じ込め

EnJa: Ensemble Jailbreak on Large Language Models ( http://arxiv.org/abs/2408.03603v1 )

ライセンス: Link先を確認
Jiahao Zhang, Zilong Wang, Ruofan Wang, Xingjun Ma, Yu-Gang Jiang, (参考訳) 大きな言語モデル(LLM)が安全クリティカルなアプリケーションにますますデプロイされている中、LLMの安全性メカニズムを無効にできる悪意のあるプロンプトである、潜在的なジェイルブレイクに対する脆弱性が研究の注目を集めている。 LLMをジェイルブレイクから守るためのアライメント手法が提案されているが、多くの研究者は、不正なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、LLMのアライメントが依然としてジェイルブレイク可能であることを発見している。 LLMに対する既存のジェイルブレイク攻撃は、安全アライメントを回避するためにストーリー/ロジックを構成するプロンプトレベルメソッドと、逆トークンを見つけるための勾配手法を利用するトークンレベルアタックメソッドに分類することができる。 本研究では,エンサンブル・ジェイルブレイクの概念を導入し,プロンプトレベルとトークンレベルのジェイルブレイクをより強力なハイブリッド・ジェイルブレイク攻撃に統合する手法を探究する。 具体的には,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,勾配ベースの攻撃を用いて攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新規なEnJa攻撃を提案する。 本稿では,複数のアライメントモデルにおけるEnJaの有効性を評価し,より少ないクエリで最先端の攻撃成功率を実現し,個々のジェイルブレイクよりもはるかに強力であることを示す。

As Large Language Models (LLMs) are increasingly being deployed in safety-critical applications, their vulnerability to potential jailbreaks -- malicious prompts that can disable the safety mechanism of LLMs -- has attracted growing research attention. While alignment methods have been proposed to protect LLMs from jailbreaks, many have found that aligned LLMs can still be jailbroken by carefully crafted malicious prompts, producing content that violates policy regulations. Existing jailbreak attacks on LLMs can be categorized into prompt-level methods which make up stories/logic to circumvent safety alignment and token-level attack methods which leverage gradient methods to find adversarial tokens. In this work, we introduce the concept of Ensemble Jailbreak and explore methods that can integrate prompt-level and token-level jailbreak into a more powerful hybrid jailbreak attack. Specifically, we propose a novel EnJa attack to hide harmful instructions using prompt-level jailbreak, boost the attack success rate using a gradient-based attack, and connect the two types of jailbreak attacks via a template-based connector. We evaluate the effectiveness of EnJa on several aligned models and show that it achieves a state-of-the-art attack success rate with fewer queries and is much stronger than any individual jailbreak.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# InPer: 因果介入と摂動による全プロセス領域の一般化

InPer: Whole-Process Domain Generalization via Causal Intervention and Perturbation ( http://arxiv.org/abs/2408.03608v1 )

ライセンス: Link先を確認
Luyao Tang, Yuxuan Yuan, Chaoqi Chen, Xinghao Ding, Yue Huang, (参考訳) ディープニューラルネットワークによって達成されたかなりの進歩にもかかわらず、テスト環境がトレーニング環境から逸脱する傾向にある。 ドメイン一般化(DG)は、ドメイン関連情報に依存しない表現を学習することでこの問題を解決し、未知の環境への外挿を容易にする。 既存のアプローチは典型的には、ソースデータから共有された特徴を抽出するための調整済みのトレーニング目標の定式化に重点を置いている。 しかし、解離したトレーニングとテストの手順は、特に展開中に予期せぬ変動に直面した場合、堅牢性を損なう可能性がある。 本稿では,因果関係を基礎とした新しい枠組みInPerを提案する。このフレームワークは,訓練中の因果的介入と試験中の因果的摂動を組み込むことで,モデル一般化の促進を目的としている。 具体的には、トレーニングフェーズにおいて、エントロピーに基づく因果介入(EnIn)を用いて因果変数の選択を洗練させる。 対象領域から反干渉因果変数を持つサンプルを同定するために, 因果摂動(HoPer)を通した新しい計量, ホメオスタティックスコアを提案し, 試行時間内にプロトタイプ分類器を構築する。 複数のクロスドメインタスクにまたがる実験結果から、InPerの有効性が確認された。

Despite the considerable advancements achieved by deep neural networks, their performance tends to degenerate when the test environment diverges from the training ones. Domain generalization (DG) solves this issue by learning representations independent of domain-related information, thus facilitating extrapolation to unseen environments. Existing approaches typically focus on formulating tailored training objectives to extract shared features from the source data. However, the disjointed training and testing procedures may compromise robustness, particularly in the face of unforeseen variations during deployment. In this paper, we propose a novel and holistic framework based on causality, named InPer, designed to enhance model generalization by incorporating causal intervention during training and causal perturbation during testing. Specifically, during the training phase, we employ entropy-based causal intervention (EnIn) to refine the selection of causal variables. To identify samples with anti-interference causal variables from the target domain, we propose a novel metric, homeostatic score, through causal perturbation (HoPer) to construct a prototype classifier in test time. Experimental results across multiple cross-domain tasks confirm the efficacy of InPer.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# JARViS:Unified Actor-Scene Context Relation Modeling を用いた映像中の行動検出

JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling ( http://arxiv.org/abs/2408.03612v1 )

ライセンス: Link先を確認
Seok Hwan Lee, Taein Son, Soo Won Seo, Jisong Kim, Jun Won Choi, (参考訳) ビデオアクション検出(英語: Video Action Detection, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的な視覚タスクである。 希少なVADアーキテクチャのうち、2段階のVAD法は、訓練済みの人検知器を用いて興味のある特徴領域を抽出し、その後これらの特徴をアクション検出に利用する。 しかし,2段階のVAD手法の性能は,アクションセマンティクスを推論するための局所的なアクター機能にのみ依存するため,制限されている。 本研究では,視覚セマンティックス(JARViS)をベースとして,空間的・時間的空間的に分布するクロスモーダル・アクション・セマンティクスをトランスフォーマー・アテンション(Transformer attention)を用いて効果的に統合する2段階のVADフレームワークを提案する。 JARViSは人検知器を使用して、キーフレームから密にサンプリングされたアクター特徴を生成する。 同時に、ビデオのバックボーンを使って、ビデオクリップから時空間の特徴を生成する。 最後に、アクターとシーン間のきめ細かいインタラクションは、Unified Action-Scene Context Transformerを通じてモデル化され、アクションの最終セットを直接並列に出力する。 AVA, UCF101-24, JHMDB51-21 を含む3つのVADデータセットにおいて, JARViS が既存手法より大幅に優れ, 最先端の性能を実現していることを示す。

Video action detection (VAD) is a formidable vision task that involves the localization and classification of actions within the spatial and temporal dimensions of a video clip. Among the myriad VAD architectures, two-stage VAD methods utilize a pre-trained person detector to extract the region of interest features, subsequently employing these features for action detection. However, the performance of two-stage VAD methods has been limited as they depend solely on localized actor features to infer action semantics. In this study, we propose a new two-stage VAD framework called Joint Actor-scene context Relation modeling based on Visual Semantics (JARViS), which effectively consolidates cross-modal action semantics distributed globally across spatial and temporal dimensions using Transformer attention. JARViS employs a person detector to produce densely sampled actor features from a keyframe. Concurrently, it uses a video backbone to create spatio-temporal scene features from a video clip. Finally, the fine-grained interactions between actors and scenes are modeled through a Unified Action-Scene Context Transformer to directly output the final set of actions in parallel. Our experimental results demonstrate that JARViS outperforms existing methods by significant margins and achieves state-of-the-art performance on three popular VAD datasets, including AVA, UCF101-24, and JHMDB51-21.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 最適化問題に対する最適量子解法選択のための予測的アプローチ

A Predictive Approach for Selecting the Best Quantum Solver for an Optimization Problem ( http://arxiv.org/abs/2408.03613v1 )

ライセンス: Link先を確認
Deborah Volpe, Nils Quetschlich, Mariagrazia Graziano, Giovanna Turvani, Robert Wille, (参考訳) 最適化問題に対する量子コンピュータの活用は、様々なアプリケーション領域における約束を果たす。 それでも、各量子コンピューティングの解法を利用するには、準非制約バイナリ最適化(QUBO)の定式化に従って最適化問題を記述し、適切な設定で関心を持つための適切な解法を選択する必要がある。 どちらも量子コンピューティング、QUBOの定式化、量子解法など、量子コンピューティングの専門家というよりはドメインの専門家であるエンドユーザーによって想定できない背景を必要とする。 ツールがQUBOの定式化を支援する一方で、最良の解決方法を選択するためのサポートはいまだに存在しない。 問題に対する最良の解法を選択することは、問題自体に大きく依存するため、これはさらに難しくなります。 本研究では,この課題を受け入れ,この課題におけるエンドユーザを支援する予測的選択手法を提案する。 この目的のために、まず、教師付き機械学習により解決するのに適した分類タスクとして解決者選択タスクを定式化する。 そこで本研究では,問題の大きさと特性に基づいて解法パラメータを調整する手法を提案する。 500以上の異なるQUBO問題を考慮し,提案手法の利点を検証した。 実際、70%以上のケースにおいて、最良解法が選択され、約90%の場合には、最良解法、すなわち、最良解法または最も近い準最適解法が選択される。 この探索は、量子ソルバ選択における機械学習の可能性を証明し、その自動化の基礎を築き、より広い範囲のユーザに対する量子最適化へのアクセスを拡大する。

Leveraging quantum computers for optimization problems holds promise across various application domains. Nevertheless, utilizing respective quantum computing solvers requires describing the optimization problem according to the Quadratic Unconstrained Binary Optimization (QUBO) formalism and selecting a proper solver for the application of interest with a reasonable setting. Both demand significant proficiency in quantum computing, QUBO formulation, and quantum solvers, a background that usually cannot be assumed by end users who are domain experts rather than quantum computing specialists. While tools aid in QUBO formulations, support for selecting the best-solving approach remains absent. This becomes even more challenging because selecting the best solver for a problem heavily depends on the problem itself. In this work, we are accepting this challenge and propose a predictive selection approach, which aids end users in this task. To this end, the solver selection task is first formulated as a classification task that is suitable to be solved by supervised machine learning. Based on that, we then propose strategies for adjusting solver parameters based on problem size and characteristics. Experimental evaluations, considering more than 500 different QUBO problems, confirm the benefits of the proposed solution. In fact, we show that in more than 70% of the cases, the best solver is selected, and in about 90% of the problems, a solver in the top two, i.e., the best or its closest suboptimum, is selected. This exploration proves the potential of machine learning in quantum solver selection and lays the foundations for its automation, broadening access to quantum optimization for a wider range of users.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# Optimus-1: 長距離タスクにおけるハイブリッドマルチモーダルメモリ駆動エージェントExcel

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks ( http://arxiv.org/abs/2408.03615v1 )

ライセンス: Link先を確認
Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie, (参考訳) 汎用エージェントの構築は、人工知能分野における長年のビジョンである。 既存のエージェントは多くのドメインで顕著な進歩を遂げてきたが、オープンな世界での長期のタスクを完了させるのに苦戦している。 これは,様々な長期的タスクを通じてエージェントを誘導できる,必要な世界知識とマルチモーダル体験の欠如によるものである。 本稿では,上記の課題に対処するハイブリッドマルチモーダルメモリモジュールを提案する。 それ 1)知識を階層的指向知識グラフに変換し、エージェントが明示的に世界知識を表現し学習できるようにする。 2) 歴史的情報を抽象化したマルチモーダル体験プールに要約し, エージェントに文脈内学習のための豊富な参照を提供する。 マルチモーダルエージェントであるOptimus-1は、Hybrid Multimodal Memoryモジュールの上に、知識誘導型プランナーとエクスペリエンス駆動リフレクタで構築されており、Minecraftの長期タスクの面における計画とリフレクションの改善に貢献している。 大規模な実験結果から,Optimus-1は長期タスクベンチマークにおいて既存のエージェントを著しく上回り,多くのタスクにおいて人間レベルに近い性能を示すことがわかった。 さらに,オプティマス1のバックボーンとして,MLLM(Multimodal Large Language Models)を導入する。 実験の結果,Optimus-1はHybrid Multimodal Memoryモジュールの助けを借りて強力な一般化を示し,多くのタスクにおいてGPT-4Vベースラインを上回った。

Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 医用1ショット画像分割のための画像再構成による蒸留学習

Distillation Learning Guided by Image Reconstruction for One-Shot Medical Image Segmentation ( http://arxiv.org/abs/2408.03616v1 )

ライセンス: Link先を確認
Feng Zhou, Yanjie Zhou, Longjie Wang, Yun Peng, David E. Carlson, Liyun Tu, (参考訳) 従来のワンショット医療画像セグメンテーション(MIS)法では、登録ネットワークを使用して、基準アトラスからラベルを伝達したり、あるいは総合的なサンプリング戦略を使って、トレーニング用に合成ラベル付きデータを生成する。 しかし、これらの手法は、しばしば登録エラーや低品質の合成画像に苦しむため、性能や一般化は不十分である。 そこで我々は,知識蒸留に基づく新しい一発MISフレームワークを導入し,画像再構成によって導かれる蒸留プロセスを通じて,実画像を直接「見る」ことを可能にする。 単一のラベル付き画像とラベルなし画像の解剖学的構造に焦点を当てている。 登録ベースのデータ拡張ネットワークは、現実的なラベル付きサンプルを生成し、特徴蒸留モジュールは、教師ネットワークによってガイドされたこれらのサンプルから、学生ネットワークがセグメンテーションを学ぶのを助ける。 推論中、合理化された学生ネットワークは、新しい画像を正確に分割する。 T1脳MRIのOASIS, 腹部CTのBCV, 脊椎CTのVerSeの3つの公開データセットの評価では, 先行法と比較して, 異なる医用画像データセットとモダリティのセグメンテーション性能と一般化が優れていた。 私たちのコードはhttps://github.com/NoviceFodder/OS-MedSegで利用可能です。

Traditional one-shot medical image segmentation (MIS) methods use registration networks to propagate labels from a reference atlas or rely on comprehensive sampling strategies to generate synthetic labeled data for training. However, these methods often struggle with registration errors and low-quality synthetic images, leading to poor performance and generalization. To overcome this, we introduce a novel one-shot MIS framework based on knowledge distillation, which allows the network to directly 'see' real images through a distillation process guided by image reconstruction. It focuses on anatomical structures in a single labeled image and a few unlabeled ones. A registration-based data augmentation network creates realistic, labeled samples, while a feature distillation module helps the student network learn segmentation from these samples, guided by the teacher network. During inference, the streamlined student network accurately segments new images. Evaluations on three public datasets (OASIS for T1 brain MRI, BCV for abdomen CT, and VerSe for vertebrae CT) show superior segmentation performance and generalization across different medical image datasets and modalities compared to leading methods. Our code is available at https://github.com/NoviceFodder/OS-MedSeg.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 幼児向け音声学習は言語モデルに有効か?

Is Child-Directed Speech Effective Training Data for Language Models? ( http://arxiv.org/abs/2408.03617v1 )

ライセンス: Link先を確認
Steven Y. Feng, Noah D. Goodman, Michael C. Frank, (参考訳) ハイパフォーマンスな言語モデルは典型的には数十億の単語で訓練されるが、人間の子供は、はるかに少ない量のデータを持つ流動的な言語ユーザーになる。 これらの機能は、言語モデリングの目的をどのようにサポートするのか? そこで本研究では,英語の子供指向音声29万語と,マッチングされた新しい合成データセット(TinyDialogues)を用いてGPT-2モデルを学習し,BabyLMチャレンジからの異種混合データセットと比較した。 我々は,これらのモデルの構文的知識と意味的知識の両方を,発達にインスパイアされた評価を用いて評価する。 プレトレーニング実験を通じて、子どものトレーニングデータのグローバルな発達順序や局所的な言論順序が、他のデータセットと比較して高いパフォーマンスをサポートするかどうかを検証した。 データの局所的な特性はモデルの結果に影響を与えるが、驚くべきことに、グローバルな性質は影響しない。 さらに、子言語の入力は、言語モデルのトレーニングに特有ではない。 これらの知見は、より良いデータから進むのではなく、子供たちの学習は現在の言語モデリング技術よりもはるかに効率的である、という仮説を支持している。

While high-performing language models are typically trained on hundreds of billions of words, human children become fluent language users with a much smaller amount of data. What are the features of the data they receive, and how do these features support language modeling objectives? To investigate this question, we train GPT-2 models on 29M words of English-language child-directed speech and a new matched, synthetic dataset (TinyDialogues), comparing to a heterogeneous blend of datasets from the BabyLM challenge. We evaluate both the syntactic and semantic knowledge of these models using developmentally-inspired evaluations. Through pretraining experiments, we test whether the global developmental ordering or the local discourse ordering of children's training data support high performance relative to other datasets. The local properties of the data affect model results, but somewhat surprisingly, global properties do not. Further, child language input is not uniquely valuable for training language models. These findings support the hypothesis that, rather than proceeding from better data, children's learning is instead substantially more efficient than current language modeling techniques.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 論証生成のための論理的誤り表現型フレームワーク

A Logical Fallacy-Informed Framework for Argument Generation ( http://arxiv.org/abs/2408.03618v1 )

ライセンス: Link先を確認
Luca Mouchel, Debjit Paul, Shaobo Cui, Robert West, Antoine Bosselut, Boi Faltings, (参考訳) LLM(Large Language Models)の顕著なパフォーマンスにもかかわらず、彼らは論理的に健全な議論を発生させることに苦慮し、誤報の拡散などの潜在的なリスクをもたらす。 LLMのコヒーレントな引数生成における準最適性能に寄与する重要な要因は、論理的誤りの監視である。 この問題に対処するために,LLMを論理的に健全な議論に向かわせるために,好み最適化手法を活用する誤検出インフォームドフレームワークであるFIPOを導入する。 FIPOには分類損失が含まれており、誤用カテゴリに関する詳細な情報を収集する。 議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。 さらに,提案手法により生成した議論の質は,DPOなどの事前選好最適化手法と同様に,微調整ベースラインを著しく上回っていることを示す。 これらの知見は、効果的な議論生成のための論理的誤りをモデルが認識することの重要性を強調している。

Despite the remarkable performance of Large Language Models (LLMs), they still struggle with generating logically sound arguments, resulting in potential risks such as spreading misinformation. An important factor contributing to LLMs' suboptimal performance in generating coherent arguments is their oversight of logical fallacies. To address this issue, we introduce FIPO, a fallacy-informed framework that leverages preference optimization methods to steer LLMs toward logically sound arguments. FIPO includes a classification loss, to capture the fine-grained information on fallacy categories. Our results on argumentation datasets show that our method reduces the fallacy errors by up to 17.5%. Furthermore, our human evaluation results indicate that the quality of the generated arguments by our method significantly outperforms the fine-tuned baselines, as well as prior preference optimization methods, such as DPO. These findings highlight the importance of ensuring models are aware of logical fallacies for effective argument generation.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# ロバスト・ジェネラライザーのソフト・アクセント・ディフレッシュ化

Making Robust Generalizers Less Rigid with Soft Ascent-Descent ( http://arxiv.org/abs/2408.03619v1 )

ライセンス: Link先を確認
Matthew J. Holland, Toma Hamada, (参考訳) 従来の機械学習タスクの定式化は、平均的なパフォーマンスの観点ではありますが、実際には、トレーニングされたモデルがテスト時に珍しい、あるいは難しいデータポイントでどれだけうまく機能するかに関心があります。 より堅牢でバランスの取れた一般化を実現するために、最悪の例のサブセットにシャープネスを意識した最小化を適用する手法は、画像分類タスクで成功したが、最も困難なポイントが最も一般的でないシナリオでは、ディープニューラルネットワークのみを使用した。 本研究では,このような戦略が,より多様なモデルの下で劇的に破壊されることを示すとともに,従来のシャープさの代わりに,CVaRやDROなどの損失変換と容易に組み合わされるような,損失集中の低下を罰する訓練基準を提案し,評価する。

While the traditional formulation of machine learning tasks is in terms of performance on average, in practice we are often interested in how well a trained model performs on rare or difficult data points at test time. To achieve more robust and balanced generalization, methods applying sharpness-aware minimization to a subset of worst-case examples have proven successful for image classification tasks, but only using deep neural networks in a scenario where the most difficult points are also the least common. In this work, we show how such a strategy can dramatically break down under more diverse models, and as a more robust alternative, instead of typical sharpness we propose and evaluate a training criterion which penalizes poor loss concentration, which can be easily combined with loss transformations such as CVaR or DRO that control tail emphasis.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 新しい綴り訂正システムによるペルシア語臨床テキストの品質向上

Improving the quality of Persian clinical text with a novel spelling correction system ( http://arxiv.org/abs/2408.03622v1 )

ライセンス: Link先を確認
Seyed Mohammad Sadegh Dashti, Seyedeh Fatemeh Dashti, (参考訳) 背景:Electronic Health Records (EHRs) におけるスペルの精度は, 効率的な臨床ケア, 研究, 患者の安全確保にとって重要な要素である。 ペルシャ語は語彙が豊富で複雑な特徴を持つため、実際の単語の誤り訂正には独自の課題が生じる。 本研究は,ペルシャ語臨床テキストにおける綴り誤りの検出と修正のための革新的なアプローチを開発することを目的とした。 方法: ペルシャのクリニカルドメインにおけるスペル補正に特化して精巧に微調整された,最先端の事前訓練モデルを用いている。 このモデルは、文字の視覚的類似性を利用してランク付け候補のランク付けを行う、革新的な正書法類似性マッチングアルゴリズムPERTOによって補完される。 結果:ペルシャ語臨床テキストにおける単語誤りの検出と修正における頑健さと精度について検討した。 非単語誤り訂正では,PERTOアルゴリズムを用いた場合,F1スコア90.0%を達成した。 実単語誤り検出では,F1スコア90.6%を達成し,高い性能を示した。 さらに、PERTOアルゴリズムが採用されたとき、実単語誤り訂正のためのF1スコアは91.5%に達した。 結論:ペルシャ語の臨床テキストの綴り誤り検出と訂正の分野では,一定の限界があるにもかかわらず,本手法は著しく進歩している。 ペルシャ語がもたらす固有の課題を効果的に解決することで、我々のアプローチはより正確で効率的な臨床文書作成の道を開き、患者のケアと安全性の向上に貢献します。 将来の研究は、ペルシャの医療領域の他の領域での使用を探求し、その影響と実用性を高める可能性がある。

Background: The accuracy of spelling in Electronic Health Records (EHRs) is a critical factor for efficient clinical care, research, and ensuring patient safety. The Persian language, with its abundant vocabulary and complex characteristics, poses unique challenges for real-word error correction. This research aimed to develop an innovative approach for detecting and correcting spelling errors in Persian clinical text. Methods: Our strategy employs a state-of-the-art pre-trained model that has been meticulously fine-tuned specifically for the task of spelling correction in the Persian clinical domain. This model is complemented by an innovative orthographic similarity matching algorithm, PERTO, which uses visual similarity of characters for ranking correction candidates. Results: The evaluation of our approach demonstrated its robustness and precision in detecting and rectifying word errors in Persian clinical text. In terms of non-word error correction, our model achieved an F1-Score of 90.0% when the PERTO algorithm was employed. For real-word error detection, our model demonstrated its highest performance, achieving an F1-Score of 90.6%. Furthermore, the model reached its highest F1-Score of 91.5% for real-word error correction when the PERTO algorithm was employed. Conclusions: Despite certain limitations, our method represents a substantial advancement in the field of spelling error detection and correction for Persian clinical text. By effectively addressing the unique challenges posed by the Persian language, our approach paves the way for more accurate and efficient clinical documentation, contributing to improved patient care and safety. Future research could explore its use in other areas of the Persian medical domain, enhancing its impact and utility.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# 検索のための検索による検索用コードコメント生成の改善

Improving Retrieval-Augmented Code Comment Generation by Retrieving for Generation ( http://arxiv.org/abs/2408.03623v1 )

ライセンス: Link先を確認
Hanzhen Lu, Zhongxin Liu, (参考訳) コードコメント生成は、ソースコードから高品質なコメントを自動的に生成することを目的としており、長年研究されてきた。 近年の研究では、情報検索技術とニューラルジェネレーションモデルを統合することでこの問題に対処し、すなわちRetrieval-Augmented Comment Generation (RACG)アプローチを導入し、最先端の結果を得た。 しかし、以前の作業のレトリバーは、ジェネレータとは独立して構築されている。 その結果、検索された例題は、既存のアプローチのパフォーマンスを制限し、コメントを生成するのに必ずしも最も有用なものではない。 この制限に対処するため,検索者が生成者のフィードバックから学習し,生成のための模範を検索できるように,新たなトレーニング戦略を提案する。 具体的には、学習中は、検索器を用いてトップk例を検索し、検索スコアを算出し、生成器を用いて各例に基づいてサンプルの生成損失を算出する。 検索者が検索したハイスコアな例題とジェネレータが観測した低損失な例題とを合わせることで、検索者は生成したコメントの質を最も良くする例題を検索することができる。 この戦略に基づき、JOINTCOMという新しいRACG手法を提案し、JCSDとPCSDの2つの実世界のデータセット上で評価する。 実験の結果,本手法は2つのデータセットの5つの指標から,最先端のベースラインを7.3%から30.0%超えることがわかった。 また、JOINTCOMと最高のパフォーマンスのベースラインを比較するために、人間による評価も行います。 その結果、JOINTCOMはベースラインを上回り、より自然で、情報的で、有用なコメントを生成します。

Code comment generation aims to generate high-quality comments from source code automatically and has been studied for years. Recent studies proposed to integrate information retrieval techniques with neural generation models to tackle this problem, i.e., Retrieval-Augmented Comment Generation (RACG) approaches, and achieved state-of-the-art results. However, the retrievers in previous work are built independently of their generators. This results in that the retrieved exemplars are not necessarily the most useful ones for generating comments, limiting the performance of existing approaches. To address this limitation, we propose a novel training strategy to enable the retriever to learn from the feedback of the generator and retrieve exemplars for generation. Specifically, during training, we use the retriever to retrieve the top-k exemplars and calculate their retrieval scores, and use the generator to calculate a generation loss for the sample based on each exemplar. By aligning high-score exemplars retrieved by the retriever with low-loss exemplars observed by the generator, the retriever can learn to retrieve exemplars that can best improve the quality of the generated comments. Based on this strategy, we propose a novel RACG approach named JOINTCOM and evaluate it on two real-world datasets, JCSD and PCSD. The experimental results demonstrate that our approach surpasses the state-of-the-art baselines by 7.3% to 30.0% in terms of five metrics on the two datasets. We also conduct a human evaluation to compare JOINTCOM with the best-performing baselines. The results indicate that JOINTCOM outperforms the baselines, producing comments that are more natural, informative, and useful.
翻訳日:2024-08-08 13:34:00 公開日:2024-08-07
# AgentsCoMerge:大規模言語モデルを活用したランプマージのための協調的意思決定

AgentsCoMerge: Large Language Model Empowered Collaborative Decision Making for Ramp Merging ( http://arxiv.org/abs/2408.03624v1 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Zihan Fang, Yiqin Deng, Xianhao Chen, Yuguang Fang, Sam Kwong, (参考訳) ランプの合流は交通システムのボトルネックの1つであり、交通渋滞、事故、深刻な二酸化炭素排出を引き起こすのが普通である。 この本質的な問題に対処し、多車線統合地帯におけるコネクテッド・自動運転車(CAV)の安全性と効率を高めるために、大規模言語モデル(LLM)を活用するための新しい協調的意思決定フレームワークであるAgentsCoMergeを提案する。 具体的には、まず、エージェントが交通環境を捕捉できるように、シーン観察理解モジュールを設計する。 そこで本研究では,エージェントの観察状況とエージェント自身の状態に基づいて,エージェントが意思決定を行い,トラジェクトリを計画するための階層的計画モジュールを提案する。 また,複数のエージェント間の協調を容易にするために,周辺エージェントが必要な情報を交換し,行動を調整するための通信モジュールを導入する。 最後に,フレームワークの意思決定能力をさらに向上させるために,強化反射誘導訓練パラダイムを開発する。 提案手法の性能評価実験を行い, マルチエージェント協調意思決定において, 各種のランプマージシナリオにおいて, 高い効率と有効性を示す。

Ramp merging is one of the bottlenecks in traffic systems, which commonly cause traffic congestion, accidents, and severe carbon emissions. In order to address this essential issue and enhance the safety and efficiency of connected and autonomous vehicles (CAVs) at multi-lane merging zones, we propose a novel collaborative decision-making framework, named AgentsCoMerge, to leverage large language models (LLMs). Specifically, we first design a scene observation and understanding module to allow an agent to capture the traffic environment. Then we propose a hierarchical planning module to enable the agent to make decisions and plan trajectories based on the observation and the agent's own state. In addition, in order to facilitate collaboration among multiple agents, we introduce a communication module to enable the surrounding agents to exchange necessary information and coordinate their actions. Finally, we develop a reinforcement reflection guided training paradigm to further enhance the decision-making capability of the framework. Extensive experiments are conducted to evaluate the performance of our proposed method, demonstrating its superior efficiency and effectiveness for multi-agent collaborative decision-making under various ramp merging scenarios.
翻訳日:2024-08-08 13:24:07 公開日:2024-08-07
# ランダム特徴写像における非訓練的内部重みの選択について

On the choice of the non-trainable internal weights in random feature maps ( http://arxiv.org/abs/2408.03626v1 )

ライセンス: Link先を確認
Pinak Mandal, Georg A. Gottwald, (参考訳) ランダム特徴写像の計算に安価な機械学習アーキテクチャは、隠れた層の重みがランダムだが固定され、外重みのみが線形回帰によって学習される単一層フィードフォワードネットワークと見なすことができる。 内部重量は、通常所定の分布から選ばれる。 内部重みの選択は、ランダムな特徴写像の精度に大きな影響を及ぼす。 ここでは、内部重みを最適に選択する方法のタスクに対処する。 特に,動的システムのための一段階プロパゲータマップをランダムな特徴写像を用いて学習する予測問題を考える。 計算的に安価なヒット・アンド・ランアルゴリズムを提供し、優れた内部重みを選択することで予測能力が向上する。 本研究は, ランダムな特徴マップの予測スキルを制御し, 有効特徴次元として機能する要因として, 良質な特徴の数が重要であることを示す。 最後に, 内部重みを勾配降下法を用いて学習する単一層フィードフォワードニューラルネットワークを用いて, ランダムな特徴写像を比較した。 ランダムな特徴写像は計算コストを桁違いに抑えながら予測能力に優れていた。

The computationally cheap machine learning architecture of random feature maps can be viewed as a single-layer feedforward network in which the weights of the hidden layer are random but fixed and only the outer weights are learned via linear regression. The internal weights are typically chosen from a prescribed distribution. The choice of the internal weights significantly impacts the accuracy of random feature maps. We address here the task of how to best select the internal weights. In particular, we consider the forecasting problem whereby random feature maps are used to learn a one-step propagator map for a dynamical system. We provide a computationally cheap hit-and-run algorithm to select good internal weights which lead to good forecasting skill. We show that the number of good features is the main factor controlling the forecasting skill of random feature maps and acts as an effective feature dimension. Lastly, we compare random feature maps with single-layer feedforward neural networks in which the internal weights are now learned using gradient descent. We find that random feature maps have superior forecasting capabilities whilst having several orders of magnitude lower computational cost.
翻訳日:2024-08-08 13:24:07 公開日:2024-08-07
# 小SAR ATRにおけるバッチインスタンス識別と特徴クラスタリングによる弱コントラスト学習

Weakly Contrastive Learning via Batch Instance Discrimination and Feature Clustering for Small Sample SAR ATR ( http://arxiv.org/abs/2408.03627v1 )

ライセンス: Link先を確認
Yikui Zhai, Wenlve Zhou, Bing Sun, Jingwen Li, Qirui Ke, Zilu Ying, Junying Gan, Chaoyun Mai, Ruggero Donida Labati, Vincenzo Piuri, Fabio Scotti, (参考訳) 近年,SAR (Synthetic Aperture Radar) Automatic Target Recognition (ATR) において,ディープラーニング技術の優れた性能が認められている。 この技術には大量の注釈付きデータが必要であるため、ラベル付きデータが少ないことによって高い認識率を得るという問題に対して、厳しい課題が生じる。 この問題を解決するために,BIDFC(Batch Instance Discrimination and Feature Clustering)という新しいフレームワークを提案した。 本枠組みでは, 一般的なコントラスト学習法と異なり, SAR画像におけるサンプル間の類似度が高いため, サンプル間の埋め込み距離は適度である。 その結果, フレキシブルフレームワークは, 組込み距離を調整可能とし, 弱いコントラスト学習と呼ぶ。 技術的には、バッチ毎の未ラベルデータにインスタンスラベルを割り当て、これらの拡張データに対してランダムな拡張とトレーニングを数回行う。 一方、新しい動的重み付き分散損失(DWV損失)関数は、各サンプルに対する拡張バージョンの埋め込みをクラスタ化する。 移動・静止目標獲得・認識(MSTAR)データベースの実験結果から,3.13%のトレーニングデータに基づいて,本手法の91.25%の分類精度が得られた。 同じトレーニングデータで線形評価が行われたとしても、精度は90.13%に達する。 また,OpenSarShipデータベースにおけるBIDFCの有効性を検証し,本手法が他のデータセットに一般化可能であることを示す。 私たちのコードは、https://github.com/Wenlve-Zhou/BIDFC-masterで評価できます。

In recent years, impressive performance of deep learning technology has been recognized in Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR). Since a large amount of annotated data is required in this technique, it poses a trenchant challenge to the issue of obtaining a high recognition rate through less labeled data. To overcome this problem, inspired by the contrastive learning, we proposed a novel framework named Batch Instance Discrimination and Feature Clustering (BIDFC). In this framework, different from that of the objective of general contrastive learning methods, embedding distance between samples should be moderate because of the high similarity between samples in the SAR images. Consequently, our flexible framework is equipped with adjustable distance between embedding, which we term as weakly contrastive learning. Technically, instance labels are assigned to the unlabeled data in per batch and random augmentation and training are performed few times on these augmented data. Meanwhile, a novel Dynamic-Weighted Variance loss (DWV loss) function is also posed to cluster the embedding of enhanced versions for each sample. Experimental results on the moving and stationary target acquisition and recognition (MSTAR) database indicate a 91.25% classification accuracy of our method fine-tuned on only 3.13% training data. Even though a linear evaluation is performed on the same training data, the accuracy can still reach 90.13%. We also verified the effectiveness of BIDFC in OpenSarShip database, indicating that our method can be generalized to other datasets. Our code is avaliable at: https://github.com/Wenlve-Zhou/BIDFC-master.
翻訳日:2024-08-08 13:24:07 公開日:2024-08-07
# PAGED: ドキュメントから手続きグラフを抽出するためのベンチマーク

PAGED: A Benchmark for Procedural Graphs Extraction from Documents ( http://arxiv.org/abs/2408.03630v1 )

ライセンス: Link先を確認
Weihong Du, Wenrui Liao, Hongru Liang, Wenqiang Lei, (参考訳) 文書からの手続きグラフの自動抽出は,視覚グラフをスキップすることで複雑な手順を簡単に理解するための低コストな方法である。 最近の研究の進展にもかかわらず、既存の研究がこの課題をうまく解決したかどうか(Q1)と、新たな大規模言語モデル(LLM)がこの課題に新たな機会をもたらすかどうか(Q2)は未解決である。 そこで本研究では,高品質なデータセットと標準評価を備えた新しいベンチマークPAGEDを提案する。 5つの最先端のベースラインを調査し、手書きのルールと限られた利用可能なデータに依存するため、最適な手続きグラフをうまく抽出できないことを明らかにした。 さらに,PAGEDの3つの先進LLMを包含し,新たな自己定義戦略により強化する。 その結果,文章要素の同定におけるLLMの利点と論理構造構築におけるそのギャップが指摘された。 我々は、PAGEDが自動手続きグラフ抽出の主要なランドマークとなり、PAGEDの調査によって、非順序要素間の論理的推論の研究に関する洞察が得られることを願っている。

Automatic extraction of procedural graphs from documents creates a low-cost way for users to easily understand a complex procedure by skimming visual graphs. Despite the progress in recent studies, it remains unanswered: whether the existing studies have well solved this task (Q1) and whether the emerging large language models (LLMs) can bring new opportunities to this task (Q2). To this end, we propose a new benchmark PAGED, equipped with a large high-quality dataset and standard evaluations. It investigates five state-of-the-art baselines, revealing that they fail to extract optimal procedural graphs well because of their heavy reliance on hand-written rules and limited available data. We further involve three advanced LLMs in PAGED and enhance them with a novel self-refine strategy. The results point out the advantages of LLMs in identifying textual elements and their gaps in building logical structures. We hope PAGED can serve as a major landmark for automatic procedural graph extraction and the investigations in PAGED can offer insights into the research on logic reasoning among non-sequential elements.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# 基地局シッティングのための大規模言語モデル: Prompt または Agent に基づくインテリジェントデプロイメント

Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent ( http://arxiv.org/abs/2408.03631v1 )

ライセンス: Link先を確認
Yanhu Wang, Muhammad Muzammil Afzal, Zhengyang Li, Jie Zhou, Chenyuan Feng, Shuaishuai Guo, Tony Q. S. Quek, (参考訳) 従来のベースステーションシッティング(BSS)手法は、ドライブテストとユーザフィードバックに大きく依存しており、通信、ネットワーク、最適化に広範な専門知識を必要とする。 大規模言語モデル(LLM)とその関連技術、特に迅速なエンジニアリングとエージェントエンジニアリングの領域において、ネットワーク最適化は革命的なアプローチを目撃する。 このアプローチは、これらの洗練されたLLMに、人間の経験や知識を注入するための巧妙なプロンプトの戦略的利用と、自然言語を使用して機械学習ベースのLLMと人間のユーザをシームレスに接続するための通信ブリッジとしての自律エージェントの展開を伴います。 この統合は、サービスとしての人工知能(AI)と、より容易なAIの将来のパラダイムを表している。 予備的な探索として,本研究はまず,新しいLEMを用いたBSS最適化フレームワークを開発し,Prompt-timized LLM (PoL), Human-in-the-Loop LLM (HiLL), LLM-empowered autonomous BSS agent (LaBa), Cooperative multiple LLM-based autonomous BSS agent (CLaBa) の4つの実装を提案する。 実世界のデータを用いた評価により, 高速で費用対効果が高く信頼性の高いネットワーク配置を実現し, BSS最適化の効率を著しく向上し, 自明な手動参加を低減できることを示した。

Traditional base station siting (BSS) methods rely heavily on drive testing and user feedback, which are laborious and require extensive expertise in communication, networking, and optimization. As large language models (LLMs) and their associated technologies advance, particularly in the realms of prompt engineering and agent engineering, network optimization will witness a revolutionary approach. This approach entails the strategic use of well-crafted prompts to infuse human experience and knowledge into these sophisticated LLMs, and the deployment of autonomous agents as a communication bridge to seamlessly connect the machine language based LLMs with human users using natural language. This integration represents the future paradigm of artificial intelligence (AI) as a service and AI for more ease. As a preliminary exploration, this research first develops a novel LLM-empowered BSS optimization framework, and heuristically proposes four different potential implementations: the strategies based on Prompt-optimized LLM (PoL), human-in-the-Loop LLM (HiLL), LLM-empowered autonomous BSS agent (LaBa), and Cooperative multiple LLM-based autonomous BSS agents (CLaBa). Through evaluation on real-world data, the experiments demonstrate that prompt-assisted LLMs and LLM-based agents can generate more efficient, cost-effective, and reliable network deployments, noticeably enhancing the efficiency of BSS optimization and reducing trivial manual participation.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# 概念導体:テキスト・画像合成における複数のパーソナライズされた概念のオーケストレーション

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis ( http://arxiv.org/abs/2408.03632v1 )

ライセンス: Link先を確認
Zebin Yao, Fangxiang Feng, Ruifan Li, Xiaojie Wang, (参考訳) テキスト・ツー・イメージ・モデルのカスタマイズは大きな進歩を遂げているが、複数のパーソナライズされた概念を生成することは難しい課題である。 現在の手法では、複数の概念を扱う際に属性の漏洩とレイアウトの混乱に悩まされ、概念の忠実度とセマンティック一貫性が低下する。 本研究では,マルチコンセプトのカスタマイズにおいて,視覚的忠実度と正確なレイアウトを確保するために設計された,新しいトレーニングフリーフレームワークであるConcept Conductorを紹介する。 コンセプションコンダクタは、複数のカスタムモデルのサンプリングプロセスを分離し、異なる概念間の属性の漏洩を防止し、自己注意に基づく空間ガイダンスを通じて誤ったレイアウトを修正する。 また,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。 この技術は,注目層における特徴融合を通じてパーソナライズされた概念の構造と外観を注入し,最終的な画像の調和を確保する。 大規模定性的かつ定量的な実験により、Concept Conductorは、各概念の視覚的詳細を保存しながら、正確なレイアウトを持つ合成イメージを一貫して生成できることが示されている。 既存のベースラインと比較して、Concept Conductorは大幅なパフォーマンス向上を示している。 本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。 コードとモデルはhttps://github.com/Nihukat/Concept-Conductor.comで公開されている。

The customization of text-to-image models has seen significant advancements, yet generating multiple personalized concepts remains a challenging task. Current methods struggle with attribute leakage and layout confusion when handling multiple concepts, leading to reduced concept fidelity and semantic consistency. In this work, we introduce a novel training-free framework, Concept Conductor, designed to ensure visual fidelity and correct layout in multi-concept customization. Concept Conductor isolates the sampling processes of multiple custom models to prevent attribute leakage between different concepts and corrects erroneous layouts through self-attention-based spatial guidance. Additionally, we present a concept injection technique that employs shape-aware masks to specify the generation area for each concept. This technique injects the structure and appearance of personalized concepts through feature fusion in the attention layers, ensuring harmony in the final image. Extensive qualitative and quantitative experiments demonstrate that Concept Conductor can consistently generate composite images with accurate layouts while preserving the visual details of each concept. Compared to existing baselines, Concept Conductor shows significant performance improvements. Our method supports the combination of any number of concepts and maintains high fidelity even when dealing with visually similar concepts. The code and models are available at https://github.com/Nihukat/Concept-Conductor.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# CARE: ユーザマニュアルを読むためのCSRのためのクローズガイドアシスタント

CARE: A Clue-guided Assistant for CSRs to Read User Manuals ( http://arxiv.org/abs/2408.03633v1 )

ライセンス: Link先を確認
Weihong Du, Jia Liu, Zujie Wen, Dingnan Jin, Hongru Liang, Wenqiang Lei, (参考訳) ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 現在のソリューションは、ユーザの質問への注意の欠如やレスポンスの可能性のため、オンラインカスタムサービスのシナリオに適していません。 そこで我々は,CARE という,CSR のための時間節約かつ注意深い読解アシスタントを開発することを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。 具体的には、各手がかり連鎖は、ユーザマニュアルを推測して形成され、ユーザ質問に一致した質問ヒントから始まり、可能な応答で終了する。 教師付きデータの不足を克服するために,モデル学習のための自己教師型戦略を採用する。 オフライン実験は、CAREがユーザマニュアルから正確なレスポンスを自動的に推測するのに効率的であることを示している。 オンライン実験は、CAREがCSRの読み込み負担を減らし、高いサービス品質を維持するために、特に35%の時間を消費し、0.75 ICCスコアを維持するために優れていることをさらに示している。

It is time-saving to build a reading assistant for customer service representations (CSRs) when reading user manuals, especially information-rich ones. Current solutions don't fit the online custom service scenarios well due to the lack of attention to user questions and possible responses. Hence, we propose to develop a time-saving and careful reading assistant for CSRs, named CARE. It can help the CSRs quickly find proper responses from the user manuals via explicit clue chains. Specifically, each of the clue chains is formed by inferring over the user manuals, starting from the question clue aligned with the user question and ending at a possible response. To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning. The offline experiment shows that CARE is efficient in automatically inferring accurate responses from the user manual. The online experiment further demonstrates the superiority of CARE to reduce CSRs' reading burden and keep high service quality, in particular with >35% decrease in time spent and keeping a >0.75 ICC score.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# TALE:Adaptive Latent ManipulationとEnergy-Guided Optimizationによる非トレーニング用クロスドメイン画像合成

TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization ( http://arxiv.org/abs/2408.03637v1 )

ライセンス: Link先を確認
Kien T. Pham, Jingye Chen, Qifeng Chen, (参考訳) 本稿では,テキストから画像への拡散モデルの生成能力を生かした新しい学習自由フレームワークTALEについて述べる。 従来の手法では、補助的なネットワークのトレーニングや、カスタマイズされたデータセット上の微細な拡散モデルの訓練がしばしば行われており、これは高価であり、事前訓練された拡散モデルの堅牢なテキストや視覚的先行性を損なう可能性がある。 いくつかの最近の研究は、無訓練の回避策を提案し、注意マップを操作して暗黙的に認知過程を暗黙的に処理することで障壁を壊そうとしている。 しかし、注意写像による構成は必ずしも望ましい構成結果をもたらすとは限らない。 これらのアプローチは意味情報のみを保持することができ、通常、入力オブジェクトのアイデンティティ特性の保存に不足したり、生成した画像に限られた背景オブジェクトスタイルの適応を示す。 対照的に、TALEは、これらの問題を解決するための合成プロセスに対して、明示的で効果的なガイダンスを提供するために、遅延空間を直接操作する新しい方法である。 具体的には、TALEにAdaptive Latent ManipulationとEnergy-guided Latent Optimizationという2つのメカニズムを備える。 前駆体は、前駆体と前駆体とを直接利用することにより、合成過程の開始及び操舵を誘導し、後者は、前駆体を補完する特定の条件に従って、所定のエネルギー関数を利用して、所望の最終結果を生成する。 実験により,TALEは従来のベースラインを超越し,様々なフォトリアリスティックおよび芸術領域における画像誘導合成の最先端性能を実現することができた。

We present TALE, a novel training-free framework harnessing the generative capabilities of text-to-image diffusion models to address the cross-domain image composition task that focuses on flawlessly incorporating user-specified objects into a designated visual contexts regardless of domain disparity. Previous methods often involve either training auxiliary networks or finetuning diffusion models on customized datasets, which are expensive and may undermine the robust textual and visual priors of pre-trained diffusion models. Some recent works attempt to break the barrier by proposing training-free workarounds that rely on manipulating attention maps to tame the denoising process implicitly. However, composing via attention maps does not necessarily yield desired compositional outcomes. These approaches could only retain some semantic information and usually fall short in preserving identity characteristics of input objects or exhibit limited background-object style adaptation in generated images. In contrast, TALE is a novel method that operates directly on latent space to provide explicit and effective guidance for the composition process to resolve these problems. Specifically, we equip TALE with two mechanisms dubbed Adaptive Latent Manipulation and Energy-guided Latent Optimization. The former formulates noisy latents conducive to initiating and steering the composition process by directly leveraging background and foreground latents at corresponding timesteps, and the latter exploits designated energy functions to further optimize intermediate latents conforming to specific conditions that complement the former to generate desired final results. Our experiments demonstrate that TALE surpasses prior baselines and attains state-of-the-art performance in image-guided composition across various photorealistic and artistic domains.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# HiQuE:マルチモーダルデプレッション検出のための階層型質問埋め込みネットワーク

HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection ( http://arxiv.org/abs/2408.03648v1 )

ライセンス: Link先を確認
Juho Jung, Chaewon Kang, Jeewoo Yoon, Seungbae Kim, Jinyoung Han, (参考訳) 自動うつ病検出の活用は、うつ病を患う個人に対する早期介入を著しく促進する。 記録された臨床インタビュービデオを用いた自動うつ病検出に関する多くの提案があるが、面接質問の階層構造を考慮し、限られた注意が払われている。 うつ病を診断するための臨床面接において、臨床医は、定期的なベースライン質問とフォローアップ質問を含む構造化されたアンケートを使用して、面接者の状態を評価する。 本稿では, 臨床面接における一次質問とフォローアップ質問の階層的関係を生かした新しい抑うつ検出フレームワークであるHiQuE(Hierarchical Question Embedding Network)を紹介する。 HiQuEは、複数のモードにわたる相互情報を学習することで、うつ病の診断における各質問の重要性を効果的に捉えることができる。 我々は,DAIC-WOZ(DAIC-WOZ)という,広く利用されている臨床面接データについて広範な実験を行い,そのモデルが他の最先端のマルチモーダルうつ病検出モデルや感情認識モデルより優れており,うつ病検出におけるその臨床的有用性を示している。

The utilization of automated depression detection significantly enhances early intervention for individuals experiencing depression. Despite numerous proposals on automated depression detection using recorded clinical interview videos, limited attention has been paid to considering the hierarchical structure of the interview questions. In clinical interviews for diagnosing depression, clinicians use a structured questionnaire that includes routine baseline questions and follow-up questions to assess the interviewee's condition. This paper introduces HiQuE (Hierarchical Question Embedding network), a novel depression detection framework that leverages the hierarchical relationship between primary and follow-up questions in clinical interviews. HiQuE can effectively capture the importance of each question in diagnosing depression by learning mutual information across multiple modalities. We conduct extensive experiments on the widely-used clinical interview data, DAIC-WOZ, where our model outperforms other state-of-the-art multimodal depression detection models and emotion recognition models, showcasing its clinical utility in depression detection.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# SAM2-PATH:デジタル病理における意味的セグメンテーションのためのより良いセグメンテーションモデル

SAM2-PATH: A better segment anything model for semantic segmentation in digital pathology ( http://arxiv.org/abs/2408.03651v1 )

ライセンス: Link先を確認
Mingya Zhang, Liang Wang, Limei Gu, Zhao Li, Yaohui Wang, Tingshen Ling, Xianping Tao, (参考訳) 病理学における意味的セグメンテーションの課題は、組織病変の病態を決定するために医師を支援するのに欠かせない役割を担っている。 SAM (Segment Anything Model) やSAM2のような基礎モデルは、日常の自然のシーンにおけるインスタンスのセグメンテーションにおいて、例外的なパフォーマンスを示す。 SAM-PATHはまた、病理学の分野におけるセマンティックセグメンテーションにおいて印象的な結果を得た。 しかし、計算病理学では、上記のモデルには以下の制限がある。 事前訓練されたエンコーダモデルは、病理画像データの不足に悩まされており、SAMとSAM2はセマンティックセグメンテーションには適していない。 本稿では,SAM2ワークフロー内にトレーニング可能なKAN分類モジュールを設計し,これまでで最大規模で事前学習された病理組織学用視覚エンコーダ(UNI)を導入した。 提案フレームワークであるSAM2-PATHは,デジタル病理のセマンティックセグメンテーションを自律的に行うSAM2の機能を強化し,人為的な入力プロンプトの必要性を排除した。 実験の結果,KAN分類モジュールとデコーダを微調整した結果,我々のデータセットは公開病理データに対して競合する結果を得た。 コードはオープンソース化され、以下のアドレスで見ることができる。

The semantic segmentation task in pathology plays an indispensable role in assisting physicians in determining the condition of tissue lesions. Foundation models, such as the SAM (Segment Anything Model) and SAM2, exhibit exceptional performance in instance segmentation within everyday natural scenes. SAM-PATH has also achieved impressive results in semantic segmentation within the field of pathology. However, in computational pathology, the models mentioned above still have the following limitations. The pre-trained encoder models suffer from a scarcity of pathology image data; SAM and SAM2 are not suitable for semantic segmentation. In this paper, we have designed a trainable Kolmogorov-Arnold Networks(KAN) classification module within the SAM2 workflow, and we have introduced the largest pretrained vision encoder for histopathology (UNI) to date. Our proposed framework, SAM2-PATH, augments SAM2's capability to perform semantic segmentation in digital pathology autonomously, eliminating the need for human provided input prompts. The experimental results demonstrate that, after fine-tuning the KAN classification module and decoder, Our dataset has achieved competitive results on publicly available pathology data. The code has been open-sourced and can be found at the following address: https://github.com/simzhangbest/SAM2PATH.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# mucAI at WojoodNER 2024: アラビア名のエンティティ認識

mucAI at WojoodNER 2024: Arabic Named Entity Recognition with Nearest Neighbor Search ( http://arxiv.org/abs/2408.03652v1 )

ライセンス: Link先を確認
Ahmed Abdou, Tasneem Mohsen, (参考訳) 名前付きエンティティ認識(NER)は、自然言語処理(NLP)におけるタスクであり、テキスト内のエンティティを事前に定義されたカテゴリに識別し分類することを目的としている。 しかし、アラビア語のデータに適用すると、NERは言語が豊富な形態素のインフレクション、大文字化の手がかりの欠如、スペルの変種から生じる固有の課題に遭遇し、1つの単語が複数の形態素から構成される。 本稿では,Wojood NER Shared Task 2024(アラビア語NLP 2024)へのアラビア語KNN-NERの提出について紹介する。 我々は、共有サブタスク1フラットNERに参加した。 この共有サブタスクでは、アラビア文字の細粒度平坦度認識に取り組み、各単語の1つの主実体と、おそらくは0または複数のサブエンティティを識別する。 アラビアKNN-NERは、キャッシュされたトレーニングデータ上でKNN検索を実行することに由来する別のラベル確率分布で、微調整モデルの確率分布を増大させる。 我々の提出は、WojoodFineデータセット上でのテストセットで91%を獲得し、アラビア語のKNN-NERを共有タスクのリーダーボードの上に配置しました。

Named Entity Recognition (NER) is a task in Natural Language Processing (NLP) that aims to identify and classify entities in text into predefined categories. However, when applied to Arabic data, NER encounters unique challenges stemming from the language's rich morphological inflections, absence of capitalization cues, and spelling variants, where a single word can comprise multiple morphemes. In this paper, we introduce Arabic KNN-NER, our submission to the Wojood NER Shared Task 2024 (ArabicNLP 2024). We have participated in the shared sub-task 1 Flat NER. In this shared sub-task, we tackle fine-grained flat-entity recognition for Arabic text, where we identify a single main entity and possibly zero or multiple sub-entities for each word. Arabic KNN-NER augments the probability distribution of a fine-tuned model with another label probability distribution derived from performing a KNN search over the cached training data. Our submission achieved 91% on the test set on the WojoodFine dataset, placing Arabic KNN-NER on top of the leaderboard for the shared task.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# Denoising Diffusion Modelを用いた胎児脳異常の教師なし検出

Unsupervised Detection of Fetal Brain Anomalies using Denoising Diffusion Models ( http://arxiv.org/abs/2408.03654v1 )

ライセンス: Link先を確認
Markus Ditlev Sjøgren Olsen, Jakob Ambsdorf, Manxi Lin, Caroline Taksøe-Vester, Morten Bo Søndergaard Svendsen, Anders Nymark Christensen, Mads Nielsen, Martin Grønnebæk Tolsgaard, Aasa Feragen, Paraskevas Pegios, (参考訳) 脳の先天性奇形は胎児の発生に影響を与える最も一般的な胎児の異常の一つである。 従来の超音波画像の異常検出手法は,教師付き学習,手動アノテーションの活用,未表現のカテゴリの欠如に基づく。 本研究では、拡散モデルを用いて胎児脳異常検出を教師なしタスクとしてフレーム化する。 そこで本研究では,複数のノイズレベルからの拡散再構成胎児脳画像を用いて,その異常を識別する,塗料をベースとしたノイズ非依存型異常検出手法を提案する。 本手法では, 正常な胎児脳超音波画像の訓練のみを要し, 異常データの利用率の限界に対処する。 実世界の臨床データセットを用いた実験は、胎児脳の異常検出に教師なしの手法を用いることの可能性を示している。 さらに,胎児異常検出領域において,異なるノイズタイプが拡散モデルに与える影響を包括的に評価した。

Congenital malformations of the brain are among the most common fetal abnormalities that impact fetal development. Previous anomaly detection methods on ultrasound images are based on supervised learning, rely on manual annotations, and risk missing underrepresented categories. In this work, we frame fetal brain anomaly detection as an unsupervised task using diffusion models. To this end, we employ an inpainting-based Noise Agnostic Anomaly Detection approach that identifies the abnormality using diffusion-reconstructed fetal brain images from multiple noise levels. Our approach only requires normal fetal brain ultrasound images for training, addressing the limited availability of abnormal data. Our experiments on a real-world clinical dataset show the potential of using unsupervised methods for fetal brain anomaly detection. Additionally, we comprehensively evaluate how different noise types affect diffusion models in the fetal anomaly detection domain.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# PHOCUS:超音波分解能向上のための物理に基づくデコンボリューション

PHOCUS: Physics-Based Deconvolution for Ultrasound Resolution Enhancement ( http://arxiv.org/abs/2408.03657v1 )

ライセンス: Link先を確認
Felix Duelmer, Walter Simson, Mohammad Farid Azampour, Magdalena Wysocki, Angelos Karlas, Nassir Navab, (参考訳) 超音波は、アクセス可能で強力な画像撮影を可能にする医療診断において広く用いられているが、画像システムの回折や有限開口による解像度制限に悩まされ、診断の使用が制限される。 超音波イメージングシステムのインパルス機能はポイントスプレッド機能(PSF)と呼ばれ、画像形成過程における反射体の空間分布と結びついている。 畳み込み処理によって引き起こされる画像歪みを除去して高分解能反射率分布を復元することにより、画像の明瞭度とディテールを向上させる。 従来、デコンボリューション技術は、無線周波数(RF)データを直接処理して、イメージングシステムの依存するPSFを修正しようとしていた。 しかし、RFデータはアクセスできないことが多い。 そこで本研究では,より一般的なBモード画像を直接処理する,モデル付きPSFを用いた物理ベースのデコンボリューションプロセスを提案する。 Inlicit Neural Representations (INR) を利用することで、空間位置からそれぞれのエコー原性値への連続的なマッピングを学習し、離散化された画像空間を効果的に補償する。 コントリビューションは,Bモード画像から直接連続エコー原性マップを取得するための新しい手法により構成される。 合成データに対する我々のアプローチを質的かつ定量的に評価し、PSNRやSSIMといったメトリクスにおける従来の手法よりも改善したことを示す。 さらに, 超音波ファントムの質的改善, 頸動脈のin-vivo獲得について検討した。

Ultrasound is widely used in medical diagnostics allowing for accessible and powerful imaging but suffers from resolution limitations due to diffraction and the finite aperture of the imaging system, which restricts diagnostic use. The impulse function of an ultrasound imaging system is called the point spread function (PSF), which is convolved with the spatial distribution of reflectors in the image formation process. Recovering high-resolution reflector distributions by removing image distortions induced by the convolution process improves image clarity and detail. Conventionally, deconvolution techniques attempt to rectify the imaging system's dependent PSF, working directly on the radio-frequency (RF) data. However, RF data is often not readily accessible. Therefore, we introduce a physics-based deconvolution process using a modeled PSF, working directly on the more commonly available B-mode images. By leveraging Implicit Neural Representations (INRs), we learn a continuous mapping from spatial locations to their respective echogenicity values, effectively compensating for the discretized image space. Our contribution consists of a novel methodology for retrieving a continuous echogenicity map directly from a B-mode image through a differentiable physics-based rendering pipeline for ultrasound resolution enhancement. We qualitatively and quantitatively evaluate our approach on synthetic data, demonstrating improvements over traditional methods in metrics such as PSNR and SSIM. Furthermore, we show qualitative enhancements on an ultrasound phantom and an in-vivo acquisition of a carotid artery.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# オンデバイスビジョンタスクのための超高効率CNNの設計

Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks ( http://arxiv.org/abs/2408.03663v1 )

ライセンス: Link先を確認
Jaewook Lee, Yoel Park, Seulki Lee, (参考訳) 本稿では、メモリ効率のよいCNN(畳み込みニューラルネットワーク)を導入し、画像分類やオブジェクト検出などのデバイス上でのビジョンタスク、すなわち、画像Net分類において63KBしか使用できないような、リソース制約のあるローエンドの組込みおよびIoTデバイスを実現する。 MobileNetのボトルネックブロックに基づいて、CNNのピークメモリ使用量を大幅に削減し、ローエンドデバイスの限られたKBメモリに適合させる3つの設計原則を提案する。 まず、「入力セグメンテーション」は、入力画像を他の部分と重なり合う中央パッチを含む一連のパッチに分割し、大きな入力画像のサイズ(およびメモリ要求)を小さくする。 第2に、"パッチトンネリング"は、パッチ毎に複数のボトルネックブロックで構成される独立したトンネルのようなパスを構築し、入力パッチからネットワークの最後の層へモデル全体を通して浸透し、ネットワーク全体の軽量メモリ使用率を維持する。 最後に、'bottleneck reordering' はボトルネックブロック内での畳み込み操作の実行順序を再構成し、畳み込み出力チャネルのサイズに関わらずメモリ使用量が一定となるようにする。 実験の結果,提案したネットワークは,競合するトップ1の精度(61.58\%)を達成しつつ,極めて低いメモリ(63KB)でImageNetを分類した。 我々の知る限りでは、提案したネットワークのメモリ使用量は最先端のメモリ効率ネットワーク、すなわちMobileNet(5.6MB)とMCUNet(196KB)の最大89倍と3.1倍にはるかに小さい。

In this paper, we introduce a memory-efficient CNN (convolutional neural network), which enables resource-constrained low-end embedded and IoT devices to perform on-device vision tasks, such as image classification and object detection, using extremely low memory, i.e., only 63 KB on ImageNet classification. Based on the bottleneck block of MobileNet, we propose three design principles that significantly curtail the peak memory usage of a CNN so that it can fit the limited KB memory of the low-end device. First, 'input segmentation' divides an input image into a set of patches, including the central patch overlapped with the others, reducing the size (and memory requirement) of a large input image. Second, 'patch tunneling' builds independent tunnel-like paths consisting of multiple bottleneck blocks per patch, penetrating through the entire model from an input patch to the last layer of the network, maintaining lightweight memory usage throughout the whole network. Lastly, 'bottleneck reordering' rearranges the execution order of convolution operations inside the bottleneck block such that the memory usage remains constant regardless of the size of the convolution output channels. The experiment result shows that the proposed network classifies ImageNet with extremely low memory (i.e., 63 KB) while achieving competitive top-1 accuracy (i.e., 61.58\%). To the best of our knowledge, the memory usage of the proposed network is far smaller than state-of-the-art memory-efficient networks, i.e., up to 89x and 3.1x smaller than MobileNet (i.e., 5.6 MB) and MCUNet (i.e., 196 KB), respectively.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# 最大量子非局所性はデバイス非依存ランダムネス生成に必ずしも十分ではない

Maximum Quantum Non-Locality is not always Sufficient for Device-Independent Randomness Generation ( http://arxiv.org/abs/2408.03665v1 )

ライセンス: Link先を確認
Ravishankar Ramanathan, Yuan Liu, Stefano Pironio, (参考訳) 絡み合った量子系の局所的な測定の結果はベル不等式に違反して真にランダムであると証明できる。 敵に対する結果のランダム性は、特定のベル違反の観測、または入力出力動作全体の観察に基づいて、推測確率によって定量化される。 古典的あるいは量子的敵に対する標準のデバイス非依存のランダムネス生成プロトコルが任意のベル不等式、すなわち、不等式の極大違反を観測した場合でも、任意の入力に対して推測確率が1であるベル不等式(Bell inequality)が存在するかという問題である。 質問の強化されたバージョンは、任意の任意の入力に対して最大非局所性を示すが、証明可能なランダム性がない量子的挙動が存在するかどうかを問うものである。 本稿では,古典的敵に対するランダム性を証明できない量子境界上の非局所的行動の族と$n \geq 2$に対する$n$-playerの非局所的ゲーム群を構成することにより,両質問に対する肯定的な回答を示す。 以上の結果から, デバイス非依存なランダム性と量子非局所性は, 最大で非等価な資源であることが示唆された。

The outcomes of local measurements on entangled quantum systems can be certified to be genuinely random through the violation of a Bell Inequality. The randomness of the outcomes with respect to an adversary is quantified by the guessing probability, conditioned upon the observation of a specific amount of Bell violation or upon the observation of the entire input-output behavior. It has been an open question whether standard device-independent randomness generation protocols against classical or quantum adversaries can be constructed on the basis of any arbitrary Bell inequality, i.e., does there exist a Bell inequality for which the guessing probability is one for any chosen input even upon observing the maximal violation of the inequality? A strengthened version of the question asks whether there exists a quantum behavior that exhibits maximum non-locality but zero certifiable randomness for any arbitrary input. In this paper, we present an affirmative answer to both questions by constructing families of $n$-player non-local games for $n \geq 2$ and families of non-local behaviors on the quantum boundary that do not allow to certify any randomness against a classical adversary. Our results show the existence of a form of bound randomness against classical adversaries, highlighting that device-independent randomness and quantum non-locality can be maximally inequivalent resources.
翻訳日:2024-08-08 13:24:06 公開日:2024-08-07
# 任意の体積の立方体空洞におけるフェルミ気体の熱力学

Thermodynamics of the Fermi gas in a cubic cavity of an arbitrary volume ( http://arxiv.org/abs/2408.03667v1 )

ライセンス: Link先を確認
Yu. M. Poluektov, A. A. Soroka, (参考訳) 固定体積の立方体空洞内の空間を充填するフェルミガスでは、任意の温度と粒子数で熱力学特性、すなわちエントロピー、熱力学ポテンシャル、エネルギー、圧力、熱容量、熱力学係数が計算される。 エネルギー準位の離散構造を考慮し、低温におけるサイズ効果を研究する。 連続極限への遷移を考える。

For the Fermi gas filling the space inside a cubic cavity of a fixed volume, at arbitrary temperatures and number of particles, the thermodynamic characteristics are calculated, namely: entropy, thermodynamic potential, energy, pressure, heat capacities and thermodynamic coefficients. The discrete structure of energy levels is taken into account and size effects at low temperatures are studied. The transition to the continual limit is considered.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# オーバースムーシングを超えて - ディープグラフニューラルネットワークのトレーナビリティ問題を明らかにする

Beyond Over-smoothing: Uncovering the Trainability Challenges in Deep Graph Neural Networks ( http://arxiv.org/abs/2408.03669v1 )

ライセンス: Link先を確認
Jie Peng, Runlin Lei, Zhewei Wei, (参考訳) グラフ伝播層の深さが8-10を超えるグラフニューラルネットワーク(GNN)の劇的な性能劣化は,過度なスムーシング現象によるものと広く考えられている。 近年の研究では、過度な平滑化がこのような性能劣化の主要な原因ではないことが示唆されているが、理論的な観点から厳密な分析を提供しておらず、さらなる調査が保証されている。 本稿では,深部GNNにおける真の支配的問題を系統的に解析し,これらのGNNが過度にスムースに対処する上での課題を,経験的実験と理論的勾配解析によって明らかにする。 提案手法は,深層MLPの訓練が困難であるということが理論的に証明されており,オーバースムースに対処すると考えられる既存の手法は,その性能向上の主な理由であるMPPのトレーニング性の向上を実際に実現している。 トレーニング性に関するさらなる研究により,GNNのトレーニング性の向上が顕著に示された。 多様なデータセットに関する実験結果は、我々の理論的発見と経験的証拠との整合性を実証している。 我々の分析は、ディープグラフモデルの構築における新たな洞察を提供する。

The drastic performance degradation of Graph Neural Networks (GNNs) as the depth of the graph propagation layers exceeds 8-10 is widely attributed to a phenomenon of Over-smoothing. Although recent research suggests that Over-smoothing may not be the dominant reason for such a performance degradation, they have not provided rigorous analysis from a theoretical view, which warrants further investigation. In this paper, we systematically analyze the real dominant problem in deep GNNs and identify the issues that these GNNs towards addressing Over-smoothing essentially work on via empirical experiments and theoretical gradient analysis. We theoretically prove that the difficult training problem of deep MLPs is actually the main challenge, and various existing methods that supposedly tackle Over-smoothing actually improve the trainability of MLPs, which is the main reason for their performance gains. Our further investigation into trainability issues reveals that properly constrained smaller upper bounds of gradient flow notably enhance the trainability of GNNs. Experimental results on diverse datasets demonstrate consistency between our theoretical findings and empirical evidence. Our analysis provides new insights in constructing deep graph models.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# フル量子ハッシュ関数

Fully Quantum Hash Function ( http://arxiv.org/abs/2408.03672v1 )

ライセンス: Link先を確認
Shreya Banerjee, Harshita Meena, Somanath Tripathy, Prasanta K. Panigrahi, (参考訳) サイクル・フレームワーク上での量子ウォーク内に新しい量子ハッシュ(FQH)関数を導入する。 決定論的量子計算を1量子ビットに組み込んで、古典的な後処理を置き換えることにより、固有のセキュリティが向上する。 さらに,提案するハッシュ関数は衝突速度がゼロで信頼性が高い。 さらに、平均で$ > 50\%$雪崩を提供し、初期条件に非常に敏感であることを示す。 提案するFQHの性能指標と,その有効性を証明するための既存のプロトコルを比較した。 FQHは、大きなハッシュ値を生成するために最小限の量子リソースを必要とし、誕生日攻撃に対するセキュリティを提供する。 この革新的なアプローチは、効率的なハッシュ関数として機能し、完全な量子ハッシュ生成プロトコルを統合することにより、量子暗号の潜在的な進歩の基礎を成す。

We introduce a novel, \textit{fully} quantum hash (FQH) function within the quantum walk on a cycle framework. We incorporate deterministic quantum computation with a single qubit to replace classical post-processing, thus increasing the inherent security. Further, our proposed hash function exhibits zero collision rate and high reliability. We further show that it provides $ > 50\%$ avalanche on average, and is highly sensitive to the initial conditions. We show comparisons of several performance metrics for the proposed FQH with different settings as well as with existing protocols to prove its efficacy. FQH requires minimal quantum resources to produce a large hash value, providing security against the birthday attack. This innovative approach thus serves as an efficient hash function and lays the foundation for potential advancements in quantum cryptography by integrating the fully quantum hash generation protocol.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# NACL: 推論時のLLMのための汎用的で効果的なKVキャッシュ検証フレームワーク

NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference Time ( http://arxiv.org/abs/2408.03675v1 )

ライセンス: Link先を確認
Yilong Chen, Guoxia Wang, Junyuan Shang, Shiyao Cui, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun, Dianhai Yu, Hua Wu, (参考訳) 大規模言語モデル(LLM)は、AIアプリケーションの革新的な急増に火をつけ、拡張されたコンテキストウィンドウを備えたエキサイティングな可能性の新たな時代を告げた。 しかし、これらのモデルのホスティングは、主に長期のコンテキストモデリングを含むKVキャッシュの広範なメモリ消費のため、コストを抑えることができる。 KVキャッシュから不要なトークンを取り除こうとする研究はいくつかあるが、そのほとんどは、蓄積された注目スコアの偏りのある局所統計と、不適切な短文評価における難易度のような未解決の指標を用いた報告性能に依存している。 本稿では,符号化フェーズにおける単一操作において,より最適かつ効率的な消去を実現する,長文KVキャッシュ消去のための汎用フレームワークであるNACLを提案する。 NACLの効率性から,PROXY TOKENS EVICTIONにおけるより正確なアテンションスコア統計とRANDOM EVICTIONの多角化ランダム消去戦略を組み合わせ,アテンションバイアスの問題を緩和し,長文モデリングタスクにおける重要なトークンの維持におけるロバスト性を高めることを目的とした。 特に,本手法では,短文タスクと長文タスクのパフォーマンスをそれぞれ80%,短文タスクを76%向上させ,KVキャッシュを最大50%削減し,95%以上の性能維持を実現した。 コードはhttps: //github.com/PaddlePaddle/Research/ tree/NLP/ACL2024-NACLで公開されている。

Large Language Models (LLMs) have ignited an innovative surge of AI applications, marking a new era of exciting possibilities equipped with extended context windows. However, hosting these models is cost-prohibitive mainly due to the extensive memory consumption of KV Cache involving long-context modeling. Despite several works proposing to evict unnecessary tokens from the KV Cache, most of them rely on the biased local statistics of accumulated attention scores and report performance using unconvincing metric like perplexity on inadequate short-text evaluation. In this paper, we propose NACL, a general framework for long-context KV cache eviction that achieves more optimal and efficient eviction in a single operation during the encoding phase. Due to NACL's efficiency, we combine more accurate attention score statistics in PROXY TOKENS EVICTION with the diversified random eviction strategy of RANDOM EVICTION, aiming to alleviate the issue of attention bias and enhance the robustness in maintaining pivotal tokens for long-context modeling tasks. Notably, our method significantly improves the performance on short- and long-text tasks by 80% and 76% respectively, reducing KV Cache by up to 50% with over 95% performance maintenance. The code is available at https: //github.com/PaddlePaddle/Research/ tree/master/NLP/ACL2024-NACL.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# L4DR:LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection

L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection ( http://arxiv.org/abs/2408.03677v1 )

ライセンス: Link先を確認
Xun Huang, Ziyu Xu, Hai Wu, Jinlong Wang, Qiming Xia, Yan Xia, Jonathan Li, Kyle Gao, Chenglu Wen, Cheng Wang, (参考訳) LiDARベースの視覚システムは3Dオブジェクト検出に不可欠であり、自律的なナビゲーションには不可欠である。 しかし、LiDAR点雲の品質劣化により、悪天候下での性能劣化に悩まされる。 LiDARと4Dレーダーセンサーを融合させることで、この問題を解決することが期待されている。 しかし、LiDARと4Dレーダの融合は、データ品質と悪天候の劣化度で大きく異なるため、困難である。 これらの問題に対処するために,L4DRという,LiDARと4Dレーダ融合を効果的に実現した気象破砕型3次元物体検出手法を導入する。 我々のL4DRには、LiDARと4Dレーダの初期の融合の相補性の最初の調査であるセンサギャップを分解するMMEとFAD技術が含まれています。 さらに, マルチスケールGated Fusion (MSGF) モジュールと組み合わせた並列特徴抽出バックボーンを設計し, 悪天候下でのセンサ劣化の度合いの変動に対処する。 霧を模擬したVoDデータセットの実験的評価により,L4DRは気象条件の変化に適応可能であることが示された。 霧のレベルによって性能が大幅に向上し、3D mAPは従来のLiDARのみのアプローチよりも18.17%向上した。 さらに,K-Radarデータセットを用いて,現実の悪天候条件下でのL4DRの性能改善を検証した。

LiDAR-based vision systems are integral for 3D object detection, which is crucial for autonomous navigation. However, they suffer from performance degradation in adverse weather conditions due to the quality deterioration of LiDAR point clouds. Fusing LiDAR with the weather-robust 4D radar sensor is expected to solve this problem. However, the fusion of LiDAR and 4D radar is challenging because they differ significantly in terms of data quality and the degree of degradation in adverse weather. To address these issues, we introduce L4DR, a weather-robust 3D object detection method that effectively achieves LiDAR and 4D Radar fusion. Our L4DR includes Multi-Modal Encoding (MME) and Foreground-Aware Denoising (FAD) technique to reconcile sensor gaps, which is the first exploration of the complementarity of early fusion between LiDAR and 4D radar. Additionally, we design an Inter-Modal and Intra-Modal ({IM}2 ) parallel feature extraction backbone coupled with a Multi-Scale Gated Fusion (MSGF) module to counteract the varying degrees of sensor degradation under adverse weather conditions. Experimental evaluation on a VoD dataset with simulated fog proves that L4DR is more adaptable to changing weather conditions. It delivers a significant performance increase under different fog levels, improving the 3D mAP by up to 18.17% over the traditional LiDAR-only approach. Moreover, the results on the K-Radar dataset validate the consistent performance improvement of L4DR in real-world adverse weather conditions.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# フィードバック駆動学習サイクルによる反復的知識蒸留

Iterative Knowledge Distillation through Feedback-Driven Learning Cycles ( http://arxiv.org/abs/2408.03680v1 )

ライセンス: Link先を確認
Yujia Chen, Yang Ye, Zhongqi Li, Yuchi Ma, Cuiyun Gao, (参考訳) 大規模コードモデル(LCM)は、コードインテリジェンス分野を著しく進歩させた。 優れた能力にもかかわらず、高コスト、プロプライエタリ LCM のアクセシビリティの制限、超大型 LCM の適応性の問題など、実用上の課題に直面している。 これらの課題は、よりアクセシブルで軽量で効果的なLCMに対する重要なニーズを浮き彫りにする。 本稿では,より大規模で先進的なLCM(Teacher)のプログラミング能力を,より小型で低パワーなLCM(Student)に継続的に移行することを目的とした,Iter Knowledge DistillationフレームワークのIterKDを提案する。 IterKDは,1つのサイクルの3つの段階から構成される。(1) 誤りの認識能力を向上させること,(2) 知識伝達において基本的なプログラミングスキルを確保しながら,誤りの認識能力を向上させること。 2) モデルベースと静的ツールベースの測定を含む2つの視点から,学生モデルが生み出した結果の質を評価することを目的とした多視点フィードバックステージ,(3) フィードバックベースの知識更新ステージは,最終段階のフィードバックに基づいて難易度を分類する難易度を,新たな質問を発生させることにより,生徒モデルを適応的に更新することを目的とした。 トレーニングサイクルを反復的に実行することにより、教師モデルからより高度なプログラミングスキルを学ぶことにより、学生モデルを継続的に洗練する。 最後に、提案したIterKDフレームワークに基づいて、CodeLlama-7B上に構築された軽量で効果的なLCMであるIterCoderを開発した。 実験の結果、IterCoderはHumanEvalベンチマークでPass@1スコア65.2を獲得し、30B以上のLCMを平均47.51%上回り、118.47%のLCMを平均118.47%上回る結果となった。

Large code models (LCMs) have remarkably advanced the field of code intelligence. Despite their impressive capabilities, they still face practical employment challenges, such as high costs, limited accessibility of proprietary LCMs, and adaptability issues of ultra-large LCMs. These challenges highlight the critical need for more accessible, lightweight yet effective LCMs. In this paper, we propose IterKD, an Iter Knowledge Distillation framework, which aims at continually transferring the programming capabilities of larger, advanced LCMs (Teacher) to smaller, less powerful LCMs (Student). IterKD consists of three stages in one cycle: (1) Correct-and-Fault Knowledge Delivery stage aims at improving the student models capability to recognize errors while ensuring its basic programming skill during the knowledge transferring, which involves correctness-aware supervised learning and fault-aware contrastive learning methods. (2) Multi-view Feedback stage aims at measuring the quality of results generated by the student model from two views, including model-based and static tool-based measurement; (3) Feedback-based Knowledge Update stage aims at updating the student model adaptively by generating new questions at different difficulty levels, in which the difficulty levels are categorized based on the feedback in the last stage. By performing the training cycle iteratively, the student model is continuously refined through learning more advanced programming skills from the teacher model. Finally, based on the proposed IterKD framework, we develop a lightweight yet effective LCM, named IterCoder, which is built upon CodeLlama-7B. Experimental results show that IterCoder achieves a Pass@1 score of 65.2 on the HumanEval benchmark, outperforming over-30B-sized LCMs by an average of 47.51% and surpassing comparable-sized LCMs by an average of 118.47%.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# アフリカにおける選挙プロセスのデジタル化における対応可能なIPプラクティスの優先

Prioritising Response-able IP Practices in Digitization of Electoral Processes in Africa ( http://arxiv.org/abs/2408.03690v1 )

ライセンス: Link先を確認
Angella Ndaka, Samwel Oando, Eucabeth Majiwa, (参考訳) 世界的には、人々はテクノロジーをグローバルな社会問題に対する解決策とみなしている。 民主主義社会では、市民はテクノロジーを、民主主義のプロセスに積極的に参加させることによって、国家の民主主義を確実にし、維持する手段とみなしている。 しかし、技術と開発に関する誇大宣伝にもかかわらず、多くの発展途上国は依然として民主的課題を経験している。 民主的課題は、政治的景観を形成する障壁をさらに引き起こし、選挙プロセスのような民主的および公共の善行プロセスにおける妄想、失望、失敗をもたらす。 本稿では,知的財産権(IP)の実践と民主的選挙プロセスにおけるデジタル技術の採用との関係について考察する。 具体的には、ITサービス提供者によるIP優先が、民主的な選挙プロセスや成果における社会・物質的関係をいかに破壊するかを検討する。 IPに関連するハードバウンダリのため、システムは技術IP所有者によってのみ制御される環境を作り、選挙プロセスの結果は市民によってもたらされる。 このことは、民主的プロセスを実行するデジタル技術の応答性と信頼性に疑問を呈する。 この論文は、2017年と2022年のケニア総選挙の並行性から、ITオーナーが選挙プロセスのマイクロマネジメントを阻害する、IPプラクティスがハードバウンダリを形成する様子を描いている。 この発見は、意思決定者がデジタル技術を採用し、選挙プロセスの妥協や、より広い社会における関係の破壊なしにIPを保護するために利用することができる。

Globally, people widely regard technology as a solution to global social problems. In a democratic society, its citizens view technology as a way to ensure commitment and sustaining the nation's democracy by allowing them to participate actively in the democratic process. However, despite the hype surrounding technology and development, many developing countries still experience democratic challenges. The democratic challenges have further led to barriers that shape the political landscape, resulting in delusion, disappointment, and failures in the democratic and public good processes, such as the electoral process. This paper explores the relationship between intellectual property (IP) practices and the adoption of digital technologies used in democratic electoral processes. Specifically, it examines how the prioritisation of IP by technology service providers can disrupt socio-material relationships in democratic electoral processes and outcomes. Because of the hard boundaries associated with IP it creates an environment where the systems are controlled solely by technology IP owners, while the consequences of electoral processes are borne by citizens. This questions the response-ability and trust-ability of digital technologies in running democratic processes. Drawing from the parallels in Kenya's general elections of 2017 and 2022, this paper illustrates how IP practices form a hard boundary that impels technology owners to micromanage electoral processes, leading to tensions that potentially create conflict. This finding can be used by decision-makers to adopt digital technologies and protect IP without compromising electoral processes and disrupting relationships in the wider society.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# 制限三体問題における周期軌道の生成

Generative Design of Periodic Orbits in the Restricted Three-Body Problem ( http://arxiv.org/abs/2408.03691v1 )

ライセンス: Link先を確認
Alvaro Francisco Gil, Walther Litteri, Victor Rodriguez-Fernandez, David Camacho, Massimiliano Vasile, (参考訳) 三体問題は何世紀にもわたって科学者を魅了し、現代の宇宙ミッションの設計において重要な役割を担ってきた。 ジェネレーティブ・人工知能の最近の進歩は、この長年の問題を解決するための変革的な約束を持っている。 本研究では、変動オートエンコーダ(VAE)とその内部表現を用いて周期軌道を生成する。 循環制限三体問題(CR3BP)における周期軌道の包括的データセットを用いて,重要な軌道特性を捉えるディープラーニングアーキテクチャを訓練し,生成した軌道の物理的評価指標を設定した。 この調査を通じて、生成型AIが宇宙ミッション計画や天体力学の研究をどのように改善できるかの理解を深め、この分野における新しいデータ駆動アプローチへと導くことを目指している。

The Three-Body Problem has fascinated scientists for centuries and it has been crucial in the design of modern space missions. Recent developments in Generative Artificial Intelligence hold transformative promise for addressing this longstanding problem. This work investigates the use of Variational Autoencoder (VAE) and its internal representation to generate periodic orbits. We utilize a comprehensive dataset of periodic orbits in the Circular Restricted Three-Body Problem (CR3BP) to train deep-learning architectures that capture key orbital characteristics, and we set up physical evaluation metrics for the generated trajectories. Through this investigation, we seek to enhance the understanding of how Generative AI can improve space mission planning and astrodynamics research, leading to novel, data-driven approaches in the field.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# 量子プラズマシミュレーションのための分子動力学フレームワークと滑らかな粒子流体力学

A molecular dynamics framework coupled with smoothed particle hydrodynamics for quantum plasma simulations ( http://arxiv.org/abs/2408.03693v1 )

ライセンス: Link先を確認
Thomas Campbell, Pontus Svensson, Brett Larder, Daniel Plummer, Sam M. Vinko, Gianluca Gregori, (参考訳) 本稿では, 熱密物質 (WDM) 系における量子プラズマを, ハイブリッドスムーズ粒子流体力学-分子動力学処理によりモデル化する新しい手法について述べる。 この処理はボームの部分的に退縮する流体に対する量子力学の解釈に基づいており、ボルン=オッペンハイマー近似を適用しておらず、電子時間分解能においてイオン時間スケール上の力学をモデル化できる計算可能である。 ボームSPHは非ガウス電子波動関数のモデル化も可能である。 本手法の概要, 水素1s波動関数を含む単一粒子の場合の検証, およびウェーブパケット分子動力学を用いた高温密度水素系のシミュレーションとの比較を行った。

We present a novel scheme for modelling quantum plasmas in the warm dense matter (WDM) regime via a hybrid smoothed particle hydrodynamic - molecular dynamic treatment, here referred to as 'Bohm SPH'. This treatment is founded upon Bohm's interpretation of quantum mechanics for partially degenerate fluids, does not apply the Born-Oppenheimer approximation, and is computationally tractable, capable of modelling dynamics over ionic timescales at electronic time resolution. Bohm SPH is also capable of modelling non-Gaussian electron wavefunctions. We present an overview of our methodology, validation tests of the single particle case including the hydrogen 1s wavefunction, and comparisons to simulations of a warm dense hydrogen system performed with wave packet molecular dynamics.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# ブロックチェーンベースのMetaverseのための信頼性の高いフェデレーションメタラーニング:デュアルゲームフレームワーク

A Blockchain-based Reliable Federated Meta-learning for Metaverse: A Dual Game Framework ( http://arxiv.org/abs/2408.03694v1 )

ライセンス: Link先を確認
Emna Baccour, Aiman Erbad, Amr Mohamed, Mounir Hamdi, Mohsen Guizani, (参考訳) アバターベースの仮想インタラクションのための次のデジタルフロンティアとして想定されるメタバースは、高性能モデルを含む。 この動的な環境では、限られたデータにもかかわらず、ユーザのタスクは頻繁にシフトし、高速なモデルパーソナライゼーションを必要とします。 この進化は膨大なリソースを消費し、膨大なデータ量を必要とする。 これを解決するために、メタラーニングは、メタバースユーザーにとって貴重なツールとして登場し、フェデレートされたメタラーニング(FML)によって、その適応能力によってさらにカスタマイズされたソリューションを提供する。 しかし、メタバースの特徴は、多様なデータ構造、多様なタスク、不均一なサンプルサイズを持つユーザの不均一性であり、統計的差異による世界的なトレーニング結果を損なう可能性がある。 これを踏まえると、これらの格差を考慮に入れたスマートな連立組織に対する緊急の要求が生じる。 本稿では,FML管理作業者としてのメタラーナーを含むメタリバースサービスのための2つのゲーム理論フレームワークを提案する。 ブロックチェーンベースの協同組合形成ゲームは、評価基準、ユーザ類似性、インセンティブに基づいて開発されている。 また,過去の課題と新しいタスクの相関を利用して,ユーザの過去の貢献と潜在的貢献に基づく新たな評価システムも導入する。 最後に、Stackelbergゲームベースのインセンティブメカニズムが提示され、メタラーニングに参加するための信頼性の高い労働者を惹きつけ、ユーザのエネルギーコストを最小化し、ペイオフを増やし、FMLの有効性を高め、メタバースユーティリティを改善する。 その結果、我々のデュアルゲームフレームワークは、トレーニングパフォーマンスを最大10%向上し、完了時間を最大30%削減し、メタバースユーティリティを25%以上向上し、非ブロックチェーンシステムよりもトレーニング効率を最大5%向上させ、効果的に誤動作を防止できるという、ベストエフォート、ランダム、および非ユニフォームクラスタリングスキームよりも優れています。

The metaverse, envisioned as the next digital frontier for avatar-based virtual interaction, involves high-performance models. In this dynamic environment, users' tasks frequently shift, requiring fast model personalization despite limited data. This evolution consumes extensive resources and requires vast data volumes. To address this, meta-learning emerges as an invaluable tool for metaverse users, with federated meta-learning (FML), offering even more tailored solutions owing to its adaptive capabilities. However, the metaverse is characterized by users heterogeneity with diverse data structures, varied tasks, and uneven sample sizes, potentially undermining global training outcomes due to statistical difference. Given this, an urgent need arises for smart coalition formation that accounts for these disparities. This paper introduces a dual game-theoretic framework for metaverse services involving meta-learners as workers to manage FML. A blockchain-based cooperative coalition formation game is crafted, grounded on a reputation metric, user similarity, and incentives. We also introduce a novel reputation system based on users' historical contributions and potential contributions to present tasks, leveraging correlations between past and new tasks. Finally, a Stackelberg game-based incentive mechanism is presented to attract reliable workers to participate in meta-learning, minimizing users' energy costs, increasing payoffs, boosting FML efficacy, and improving metaverse utility. Results show that our dual game framework outperforms best-effort, random, and non-uniform clustering schemes - improving training performance by up to 10%, cutting completion times by as much as 30%, enhancing metaverse utility by more than 25%, and offering up to 5% boost in training efficiency over non-blockchain systems, effectively countering misbehaving users.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# Openstory++: インスタンス対応のオープンドメインビジュアルストーリーテリングのための大規模データセットとベンチマーク

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling ( http://arxiv.org/abs/2408.03695v1 )

ライセンス: Link先を確認
Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi, (参考訳) 最近の画像生成モデルは、短いキャプションから高品質な画像を作成するのに優れている。 しかし、長いコンテキストに遭遇すると、画像全体にわたる複数のインスタンスの一貫性を維持することができない。 この矛盾は、既存のトレーニングデータセットにおいて、既存のトレーニングデータセットに詳細なインスタンス機能ラベリングがないことが主な原因である。 これらの問題に対処するために、画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を紹介します。 さらに、エンティティ中心の画像テキスト生成を重視し、モデルが視覚的およびテキスト的情報を効果的に織り込むことを確実にする訓練手法を開発する。 具体的には、Openstory++は、オープンドメインビデオからキーフレーム抽出のプロセスを合理化し、視覚言語モデルを使用して、物語の連続性のための大きな言語モデルによって洗練されるキャプションを生成する。 これは、自動キャプション、インスタンスカウント用に調整された高解像度の画像、時間的一貫性のための広範囲なフレームシーケンスを含む、より拡張可能なオープンドメインリソースを提供することで、以前のデータセットを上回っている。 さらに、長いマルチモーダルコンテキストが提供されるとき、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchを紹介し、その背景、スタイル、インスタンスを与えられたコンテキストコヒーレントに保持する機能を含む。 既存のベンチマークと比較すると、我々の研究はマルチモーダル生成における重要なギャップを埋め、オープンドメイン環境で複雑な物語を包括的に生成・解釈できるモデルの開発を推進している。 Cohere-Benchで実施された実験は、高品質なビジュアルストーリーテリングモデルの育成におけるOpenstory++の優位性を確認し、オープンドメイン生成タスクに対処する能力を高める。 詳細はhttps://openstorypp.github.io/にある。

Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# モニタリングされたフェルミオン鎖における粒子損失による絡み合い遷移

Entanglement Transition due to particle losses in a monitored fermionic chain ( http://arxiv.org/abs/2408.03700v1 )

ライセンス: Link先を確認
Rafael D. Soares, Youenn Le Gal, Marco Schirò, (参考訳) 近年、粒子の生成や消滅に関連する線形ジャンプ演算子を用いた監視量子系の力学への関心が高まっている。 ここでは、ホッピングと$\mathbb{Z}_2$ペアリングによる自由フェルミオンモデルにおいて、局所的な粒子損失を引き起こす量子ジャンプの下での絡み合いエントロピーのダイナミクスについて検討する。 観測された自由フェルミオンとU(1)対称性と$\mathbb{Z}_2$フェルミオンの間を補間することにより、異なる定常絡み合い機構を探索する。 ペアリングがない場合、U(1)対称モデルは長い時間で真空に近づき、エントロピーは現象論的準粒子アンサッツで捉える時間とともに非単調な振る舞いを示す。 この体制では、量子ジャンプが重要な役割を担い、待ち時間分布を正確に計算することでこれを強調する。 一方、$\mathbb{Z}_2$の場合における損失とペアの相互作用は、絡み合った定常状態を持つ量子軌道を引き起こす。 いくつかのシステムパラメータをチューニングすることにより、対数的から領域的法則への絡み合いエントロピースケーリングが変化する場合、測定誘起の絡み合い遷移が生じることを示す。 この遷移をノークリック極限で導いたものと比較し、位相図のほとんどで定性的な一致を観察する。 さらに、線形跳躍演算子の影響をよりよく理解するために、絡み合いの利得と損失の統計を解析した。

Recently, there has been interest in the dynamics of monitored quantum systems using linear jump operators related to the creation or annihilation of particles. Here we study the dynamics of the entanglement entropy under quantum jumps that induce local particle losses in a model of free fermions with hopping and $\mathbb{Z}_2$ pairing. We explore the different steady-state entanglement regimes by interpolating between monitored free fermions with U(1) symmetry and $\mathbb{Z}_2$ fermions. In the absence of pairing, the U(1) symmetric model approaches the vacuum at long times, with the entanglement entropy showing non-monotonic behavior over time that we capture with a phenomenological quasiparticle ansatz. In this regime, quantum jumps play a key role, and we highlight this by exactly computing their waiting-time distribution. On the other hand, the interplay between losses and pairing in the $\mathbb{Z}_2$ case gives rise to quantum trajectories with entangled steady-states. We show that by tuning the several system parameters, a measurement-induced entanglement transition occurs where the entanglement entropy scaling changes from logarithmic to area-law. We compare this transition with the one derived in the no-click limit and observe qualitative agreement in most of the phase diagram. Furthermore, the statistics of entanglement gain and loss are analyzed to better understand the impact of the linear jump operators.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# CAS-ViT:効率的なモバイルアプリケーションのための畳み込み付加型自己注意型視覚変換器

CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications ( http://arxiv.org/abs/2408.03703v1 )

ライセンス: Link先を確認
Tianfang Zhang, Lei Li, Yang Zhou, Wentao Liu, Chen Qian, Xiangyang Ji, (参考訳) ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 しかしながら、ペアワイズトークン親和性と複雑なマトリックス操作は、リソースに制約のあるシナリオやモバイルデバイスのようなリアルタイムアプリケーションへのデプロイを制限するが、以前の研究でかなりの努力がなされた。 本稿では,CAS-ViT: Convolutional Additive Self-attention Vision Transformersを提案する。 まず、トークンミキサーがグローバルなコンテキスト情報を得る能力は、空間ドメインやチャネルドメインなど、複数の情報相互作用に依存していると議論する。 その後、このパラダイムに従って新たな付加的類似性関数を構築し、CATM(Convolutional Additive Token Mixer)と呼ばれる効率的な実装を提案する。 この単純化により、計算オーバーヘッドが大幅に減少する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,さまざまな視覚タスクを対象としたCAS-ViTの評価を行った。 GPU、ONNX、iPhoneで実施した実験では、CAS-ViTは他の最先端のバックボーンと比較して競争性能が向上し、効率的なモバイルビジョンアプリケーションのための実行可能な選択肢として確立された。 我々のコードとモデルは以下の通りである。

Vision Transformers (ViTs) mark a revolutionary advance in neural networks with their token mixer's powerful global context capability. However, the pairwise token affinity and complex matrix operations limit its deployment on resource-constrained scenarios and real-time applications, such as mobile devices, although considerable efforts have been made in previous works. In this paper, we introduce CAS-ViT: Convolutional Additive Self-attention Vision Transformers, to achieve a balance between efficiency and performance in mobile applications. Firstly, we argue that the capability of token mixers to obtain global contextual information hinges on multiple information interactions, such as spatial and channel domains. Subsequently, we construct a novel additive similarity function following this paradigm and present an efficient implementation named Convolutional Additive Token Mixer (CATM). This simplification leads to a significant reduction in computational overhead. We evaluate CAS-ViT across a variety of vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. Our experiments, conducted on GPUs, ONNX, and iPhones, demonstrate that CAS-ViT achieves a competitive performance when compared to other state-of-the-art backbones, establishing it as a viable option for efficient mobile vision applications. Our code and model are available at: \url{https://github.com/Tianfang-Zhang/CAS-ViT}
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# 文脈言語モデル潜在空間の局所的トポロジーと対話項抽出への応用

Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction ( http://arxiv.org/abs/2408.03706v1 )

ライセンス: Link先を確認
Benjamin Matthias Ruppik, Michael Heck, Carel van Niekerk, Renato Vukovic, Hsien-chin Lin, Shutong Feng, Marcus Zibrowius, Milica Gašić, (参考訳) 文脈的単語表現に基づくシーケンスタグタスクの一般的なアプローチは、これらの埋め込みベクトルを直接機械学習分類器を訓練することである。 このアプローチには2つの欠点があります。 第一に、このような方法は単一入力シーケンスを独立に考慮し、個々の埋め込みベクトルを現在のローカルコンテキスト外のベクトルに関連付けることができない。 第二に、これらのモデルの高性能性は、分類器と共に埋め込みモデルを微調整することに依存しており、基礎となる特徴生成モデルのサイズやアクセシビリティのため、必ずしも実現不可能であるとは限らない。 したがって、コーパスの埋め込みベクトル、すなわちデータストアの埋め込みベクトルの集合が、データストア内の他の類似したベクトルとの関係を記述した各ベクトルの特徴を見つけるのが望ましい。 このことを念頭に置いて、与えられたデータストアに関する文脈言語モデルの潜在空間の局所的トポロジーの複雑さ尺度を導入する。 本手法の有効性は,対話項抽出への応用を通じて示される。 我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続し、単語埋め込みによって彫られた空間の局所構造が意味的特性を推測するために利用できることを実証している。

A common approach for sequence tagging tasks based on contextual word representations is to train a machine learning classifier directly on these embedding vectors. This approach has two shortcomings. First, such methods consider single input sequences in isolation and are unable to put an individual embedding vector in relation to vectors outside the current local context of use. Second, the high performance of these models relies on fine-tuning the embedding model in conjunction with the classifier, which may not always be feasible due to the size or inaccessibility of the underlying feature-generation model. It is thus desirable, given a collection of embedding vectors of a corpus, i.e., a datastore, to find features of each vector that describe its relation to other, similar vectors in the datastore. With this in mind, we introduce complexity measures of the local topology of the latent space of a contextual language model with respect to a given datastore. The effectiveness of our features is demonstrated through their application to dialogue term extraction. Our work continues a line of research that explores the manifold hypothesis for word embeddings, demonstrating that local structure in the space carved out by word embeddings can be exploited to infer semantic properties.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# NetQIR:分散量子コンピューティングのためのQIRの拡張

NetQIR: An Extension of QIR for Distributed Quantum Computing ( http://arxiv.org/abs/2408.03712v1 )

ライセンス: Link先を確認
Jorge Vázquez-Pérez, F. Javier Cardama, César Piñeiro, Tomás F. Pena, Juan C. Pichel, Andrés Gómez, (参考訳) 量子コンピューティングの急速な進歩は、その可能性を完全に活用するためのスケーラブルで効率的なソフトウェアインフラの必要性を強調している。 現在の量子プロセッサには、各チップ上の量子ビット数が限られているため、大きなスケーラビリティの問題があるが、分散量子コンピューティングは、複数の量子処理ユニット(QPU)をネットワーク化することで、有望なソリューションを提供する。 このパラダイムをサポートするために、高レベル量子アルゴリズムを分散システム全体にわたって実行可能な命令に変換するためには、堅牢な中間表現(IR)が不可欠である。 本稿では,分散量子コンピューティングに特化したMicrosoftのQuantum Intermediate Representation(QIR)の拡張であるNetQIRを紹介する。 NetQIRは、QPU間の量子および古典的な通信を管理する関数を組み込むことで、分散量子システムの特定のニーズを満たすように設計されている。 主な目的は、分散インフラストラクチャにおける量子プログラムの統合と実行を改善し、スケーラビリティを向上させるためにモジュールアーキテクチャを活用することにより、新しい分散コンパイラの開発を促進することである。 分散量子コンピューティングをサポートするためにQIRを拡張することで、NetQIRは、すでにサポートされている量子IRに機能を補完し追加することを目指している。 本稿では,分散量子コンピューティングを実現するための基本的な命令を含む,中間表現の仕様について述べる。

The rapid advance of quantum computing has highlighted the need for scalable and efficient software infrastructures to fully exploit its potential. While current quantum processors have significant scalability problems due to the limited number of qubits on each chip, distributed quantum computing offers a promising solution by networking multiple Quantum Processing Units (QPUs). To support this paradigm, robust Intermediate Representations (IRs) are crucial for translating high-level quantum algorithms into executable instructions across distributed systems. This paper introduces NetQIR, an extension of Microsoft's Quantum Intermediate Representation (QIR), specifically designed for distributed quantum computing. NetQIR is designed to meet the specific needs of distributed quantum systems by incorporating functions to manage quantum and classical communications between QPUs. The main objective is to facilitate the development of new distributed compilers by improving the integration and execution of quantum programmes in a distributed infrastructure, taking advantage of modular architectures to improve scalability. By extending QIR to support distributed quantum computing, NetQIR aims to complement and add capabilities to an already supported quantum IR and, at the same time, take advantage of the tools previously created for QIR. Throughout this paper the specification of the intermediate representation is introduced, including the basic instructions necessary to enable distributed quantum computing in an abstract form independent of the target machine.
翻訳日:2024-08-08 13:14:23 公開日:2024-08-07
# Centralized Defense: オープンソースツールによるKubernetes設定ミスのログと緩和

Centralized Defense: Logging and Mitigation of Kubernetes Misconfigurations with Open Source Tools ( http://arxiv.org/abs/2408.03714v1 )

ライセンス: Link先を確認
Eoghan Russell, Kapal Dev, (参考訳) コンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するオープンソースのプラットフォームであるKubernetesは、その効率性とスケーラビリティのために広く使用されている。 しかし、その複雑さと広範な設定オプションは、適切に管理されていない場合、セキュリティ上の脆弱性につながることが多い。 本稿では、Kubernetes環境における設定ミスの詳細な分析と、システムの信頼性とセキュリティへの影響について述べる。 このような設定ミスを検出し、Kubernetesクラスタとの統合プロセスとロールベースのアクセス制御を実装するために、集中型ロギングソリューションが開発された。 このソリューションは、オープンソースのツールの組み合わせを利用して、誤設定を体系的に識別し、診断データを中央リポジトリに集約する。 ソリューションの有効性は、個々のオープンソースツールに対して集中ロギングソリューションを実行するための合計サイクルタイムなど、特定のメトリクスを使用して評価された。

Kubernetes, an open-source platform for automating the deployment, scaling, and management of containerized applications, is widely used for its efficiency and scalability. However, its complexity and extensive configuration options often lead to security vulnerabilities if not managed properly. This paper presents a detailed analysis of misconfigurations in Kubernetes environments and their significant impact on system reliability and security. A centralized logging solution was developed to detect such misconfigurations, detailing the integration process with a Kubernetes cluster and the implementation of role-based access control. Utilizing a combination of open-source tools, the solution systematically identifies misconfigurations and aggregates diagnostic data into a central repository. The effectiveness of the solution was evaluated using specific metrics, such as the total cycle time for running the central logging solution against the individual open source tools.
翻訳日:2024-08-08 13:04:23 公開日:2024-08-07
# 赤外線の小さなターゲットを検知する「Bunch」(動画あり)

Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention ( http://arxiv.org/abs/2408.03717v1 )

ライセンス: Link先を確認
Yimian Dai, Peiwen Pan, Yulei Qian, Yuxuan Li, Xiang Li, Jian Yang, Huan Wan, (参考訳) 複雑な背景乱れの中で、赤外線小目標検出は、ディムターゲットを正確に位置決めする固有の課題に直面している。 従来のアプローチでは、検出精度と誤報率のバランスを取るのに苦労している。 このジレンマを断ち切るために,従来のヒットミストレードオフを超えて高精度なネットワークであるSeRankDetを提案する。 中心となるのはSelective Rank-Aware Attention (SeRank)モジュールで、非線形のTop-K選択プロセスを採用しています。 さらに、我々はU-Net構造で典型的な静的結合をLarge Selective Feature Fusion (LSFF)モジュールに置き換える。これは、SeRankDetに適応的な機能統合を付与し、偽アラームから真のターゲットを識別する能力を向上する動的融合戦略である。 DDCモジュールは、拡張畳み込みによる微妙な目標特性の増幅を目的とした差分畳み込みを併用し、受容場を拡大し、ターゲット-背景分離を大幅に改善する。 軽量なアーキテクチャにもかかわらず、提案されたSeRankDetは、複数のパブリックデータセットにわたる最先端パフォーマンスのベンチマークを新たに設定する。 コードはhttps://github.com/GrokCV/SeRankDet.comで入手できる。

Infrared small target detection faces the inherent challenge of precisely localizing dim targets amidst complex background clutter. Traditional approaches struggle to balance detection precision and false alarm rates. To break this dilemma, we propose SeRankDet, a deep network that achieves high accuracy beyond the conventional hit-miss trade-off, by following the ``Pick of the Bunch'' principle. At its core lies our Selective Rank-Aware Attention (SeRank) module, employing a non-linear Top-K selection process that preserves the most salient responses, preventing target signal dilution while maintaining constant complexity. Furthermore, we replace the static concatenation typical in U-Net structures with our Large Selective Feature Fusion (LSFF) module, a dynamic fusion strategy that empowers SeRankDet with adaptive feature integration, enhancing its ability to discriminate true targets from false alarms. The network's discernment is further refined by our Dilated Difference Convolution (DDC) module, which merges differential convolution aimed at amplifying subtle target characteristics with dilated convolution to expand the receptive field, thereby substantially improving target-background separation. Despite its lightweight architecture, the proposed SeRankDet sets new benchmarks in state-of-the-art performance across multiple public datasets. The code is available at https://github.com/GrokCV/SeRankDet.
翻訳日:2024-08-08 13:04:23 公開日:2024-08-07
# 大規模言語モデルにおける不確かさの定量化のための質問文:分子化学タスクへの応用

Question Rephrasing for Quantifying Uncertainty in Large Language Models: Applications in Molecular Chemistry Tasks ( http://arxiv.org/abs/2408.03732v1 )

ライセンス: Link先を確認
Zizhang Chen, Pengyu Hong, Sandeep Madireddy, (参考訳) 不確かさの定量化により、ユーザーは大きな言語モデル(LLM)によって生成された応答の信頼性を評価することができる。 本稿では,LLMの入力の不確実性を評価するための新しい質問文言い換え手法を提案する。 この手法はLLMの出力不確実性を測定するサンプリング手法と統合され、より包括的な不確実性評価を提供する。 分子化学タスクにおける特性予測と反応予測のアプローチを検証した。

Uncertainty quantification enables users to assess the reliability of responses generated by large language models (LLMs). We present a novel Question Rephrasing technique to evaluate the input uncertainty of LLMs, which refers to the uncertainty arising from equivalent variations of the inputs provided to LLMs. This technique is integrated with sampling methods that measure the output uncertainty of LLMs, thereby offering a more comprehensive uncertainty assessment. We validated our approach on property prediction and reaction prediction for molecular chemistry tasks.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 4つの標本から得られた広帯域ニューラルネットワークのベイズ最適学習

Bayes-optimal learning of an extensive-width neural network from quadratically many samples ( http://arxiv.org/abs/2408.03733v1 )

ライセンス: Link先を確認
Antoine Maillard, Emanuele Troiani, Simon Martin, Florent Krzakala, Lenka Zdeborová, (参考訳) 本研究では,1層目以降の2次活性化関数とランダム重みを持つ,単一の隠れ層ニューラルネットワークに対応する対象関数を学習する問題を考察する。 入力次元とネットワーク幅が比例的に大きい漸近限界を考える。 最近の研究[Cui & al '23] は、線形回帰がベイズ最適テスト誤差を与え、利用可能なサンプルの数が次元において線型であるときにそのような関数を学習することを示した。 この研究は、標本の数が2次であるより興味深い状態において、最適試験誤差を理論的に解析するというオープンな課題を強調した。 本稿では,この2次活性化の課題を解決し,ベイズ最適テスト誤差に対する閉形式式を導出する。 また、近似メッセージパッシングと回転不変行列デノイングを組み合わせたGAMP-RIEというアルゴリズムも提供し、漸近的に最適な性能を実現する。 技術的には,近年の大規模行列の最適 denoising と楕円体フィッティング問題との関連性を確立した。 さらに、ノイズがない場合、ランダムに初期化勾配降下が重みの空間をサンプリングし、トレーニング損失をゼロにし、初期化よりも平均化するとベイズ最適値に等しいテスト誤差が生じることを実証的に示す。

We consider the problem of learning a target function corresponding to a single hidden layer neural network, with a quadratic activation function after the first layer, and random weights. We consider the asymptotic limit where the input dimension and the network width are proportionally large. Recent work [Cui & al '23] established that linear regression provides Bayes-optimal test error to learn such a function when the number of available samples is only linear in the dimension. That work stressed the open challenge of theoretically analyzing the optimal test error in the more interesting regime where the number of samples is quadratic in the dimension. In this paper, we solve this challenge for quadratic activations and derive a closed-form expression for the Bayes-optimal test error. We also provide an algorithm, that we call GAMP-RIE, which combines approximate message passing with rotationally invariant matrix denoising, and that asymptotically achieves the optimal performance. Technically, our result is enabled by establishing a link with recent works on optimal denoising of extensive-rank matrices and on the ellipsoid fitting problem. We further show empirically that, in the absence of noise, randomly-initialized gradient descent seems to sample the space of weights, leading to zero training loss, and averaging over initialization leads to a test error equal to the Bayes-optimal one.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# マルチスケール画像シャドウ除去のためのソフトハードアテンションU-Netモデルとベンチマークデータセット

Soft-Hard Attention U-Net Model and Benchmark Dataset for Multiscale Image Shadow Removal ( http://arxiv.org/abs/2408.03734v1 )

ライセンス: Link先を確認
Eirini Cholopoulou, Dimitrios E. Diamantis, Dimitra-Christina C. Koutsiou, Dimitris K. Iakovidis, (参考訳) 効果的なシャドウ除去は、コンピュータビジョンからデジタル写真まで、様々なアプリケーションにおける画像の視覚的品質を高める上で重要である。 過去数十年間、物理学と機械学習に基づく方法論が提案されてきたが、その多くは制限的なモデル仮定によって複雑な影パターンを捉える能力に制限があり、通常、影が異なるスケールで現れるという事実を無視している。 また、現在のシャドウ除去のベンチマークに使われるデータセットは、単一のオブジェクトがキャストする均一なシャドウを含む単純なシーンを持つ限られた数の画像で構成されているが、手動シャドウアノテーションとペアのシャドウフリーイメージの両方を含むものはほとんどない。 複雑なシーンを持つ都市環境を含む、自然景観画像の文脈におけるこれらの制限に対処するために、本研究の貢献は2つある。 a) マルチスケールシャドウ除去に焦点を当てた,ソフトハード注意U-net(SHAU)という,新たなディープラーニングアーキテクチャを提案する。 b) マルチスケールシャドウ除去データセット(MSRD)と呼ばれる新しい合成データセットを提供し、複数のスケールの複雑なシャドウパターンを含み、将来のシャドウ除去手法のより包括的なベンチマークのためのプライバシー保護データセットとして機能することを目指している。 SHAUの主要なアーキテクチャコンポーネントは、ソフトとハードの注意モジュールであり、マルチスケールの特徴抽出ブロックとともに、異なるスケールと強度の効果的なシャドウ除去を可能にする。 その結果、様々なベンチマークデータセット間での最先端のシャドウ除去手法に対するSHAUの有効性を示し、シャドウ領域のピーク信号対ノイズ比とルート平均角誤差をそれぞれ25.1%と61.3%改善した。

Effective shadow removal is pivotal in enhancing the visual quality of images in various applications, ranging from computer vision to digital photography. During the last decades physics and machine learning -based methodologies have been proposed; however, most of them have limited capacity in capturing complex shadow patterns due to restrictive model assumptions, neglecting the fact that shadows usually appear at different scales. Also, current datasets used for benchmarking shadow removal are composed of a limited number of images with simple scenes containing mainly uniform shadows cast by single objects, whereas only a few of them include both manual shadow annotations and paired shadow-free images. Aiming to address all these limitations in the context of natural scene imaging, including urban environments with complex scenes, the contribution of this study is twofold: a) it proposes a novel deep learning architecture, named Soft-Hard Attention U-net (SHAU), focusing on multiscale shadow removal; b) it provides a novel synthetic dataset, named Multiscale Shadow Removal Dataset (MSRD), containing complex shadow patterns of multiple scales, aiming to serve as a privacy-preserving dataset for a more comprehensive benchmarking of future shadow removal methodologies. Key architectural components of SHAU are the soft and hard attention modules, which along with multiscale feature extraction blocks enable effective shadow removal of different scales and intensities. The results demonstrate the effectiveness of SHAU over the relevant state-of-the-art shadow removal methods across various benchmark datasets, improving the Peak Signal-to-Noise Ratio and Root Mean Square Error for the shadow area by 25.1% and 61.3%, respectively.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 量子化を考慮した適応学習による多モード大言語モデルの改良

Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation ( http://arxiv.org/abs/2408.03735v1 )

ライセンス: Link先を確認
Jingjing Xie, Yuxin Zhang, Mingbao Lin, Liujuan Cao, Rongrong Ji, (参考訳) 本稿では,マルチモーダルな大規模言語モデルに対するパラメータ量子化の可能性について検討し,視覚言語指導における重要なリソース制約を緩和する。 本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。 本手法は,(1)アクティベーションアウトレーから発生する量子化誤差を軽減するために,LLM重み付けのためのグループワイドスケール因子の学習と,より効果的な視覚言語指導を行うための学習,(2)言語およびマルチモーダルトレーニングサンプルを段階的に統合したマルチモーダルウォームアップの実装により,マルチモーダルデータへの量子化モデルの過度な適合を防止し,マルチモーダル大規模言語モデルの下流言語タスクへの安定した適応を確実にする。 大規模な実験では、QSLAWによって定量化されたモデルは、VLチューニング時間とGPU消費の最大1.4倍の削減を図りながら、フル精度のモデルと同等の、あるいは超えている。 私たちのコードはhttps://github.com/xjjxmu/QSLAW.comで公開されています。

This paper presents the first study to explore the potential of parameter quantization for multimodal large language models to alleviate the significant resource constraint encountered during vision-language instruction tuning. We introduce a Quantization-aware Scale LeArning method based on multimodal Warmup, termed QSLAW. This method is grounded in two key innovations: (1) The learning of group-wise scale factors for quantized LLM weights to mitigate the quantization error arising from activation outliers and achieve more effective vision-language instruction tuning; (2) The implementation of a multimodal warmup that progressively integrates linguistic and multimodal training samples, thereby preventing overfitting of the quantized model to multimodal data while ensuring stable adaptation of multimodal large language models to downstream vision-language tasks. Extensive experiments demonstrate that models quantized by QSLAW perform on par with, or even surpass, their full-precision counterparts, while facilitating up to 1.4 times reduction in VL tuning time and GPU consumption. Our code is released at https://github.com/xjjxmu/QSLAW.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 解釈可能な画像分類のための直観的ファジィ認知マップ

Intuitionistic Fuzzy Cognitive Maps for Interpretable Image Classification ( http://arxiv.org/abs/2408.03745v1 )

ライセンス: Link先を確認
Georgia Sovatzidi, Michael D. Vasilakakis, Dimitris K. Iakovidis, (参考訳) 機械学習モデルの解釈可能性は非常に重要です。 直観主義的FCM (iFCMs) は, 意思決定における人間のためらいに類似した概念であるヘシタシーの推定を通じて, アウトプットの品質を評価する自然なメカニズムを提供するFCMの拡張として提案されている。 本稿では,解釈可能な画像分類の課題に対処するため,ドメイン独立で実装が簡単で,畳み込みニューラルネットワーク(CNN)モデルに適用可能な新しいフレームワークであるInterpretable Intuitionistic FCM(I2FCM)を提案する。 我々の知る限りでは、iFCMを画像分類に適用するのはこれが初めてである。 さらに新しい貢献として、最も情報性の高い画像領域に焦点を当てた特徴抽出プロセス、iFCMの直観的ファジィ相互接続をデータ駆動で決定する学習アルゴリズム、画像内容に基づいた本質的に解釈可能な分類アプローチなどがある。 画像分類の文脈では、画像がクラスに分類される不信度と見なされる。 構築されたiFCMモデルは、最も代表的な画像意味論を識別し、原因と効果の関係を利用して解析する。 導入したフレームワークの有効性は,公開データセット上で評価され,実験結果から,解釈可能な推論を提供しながら,分類性能を向上できることが確認された。

The interpretability of machine learning models is critical, as users may be reluctant to rely on their inferences. Intuitionistic FCMs (iFCMs) have been proposed as an extension of FCMs offering a natural mechanism to assess the quality of their output through the estimation of hesitancy, a concept resembling to human hesitation in decision making. To address the challenge of interpretable image classification, this paper introduces a novel framework, named Interpretable Intuitionistic FCM (I2FCM) which is domain-independent, simple to implement, and can be applied on Convolutional Neural Network (CNN) models, rendering them interpretable. To the best of our knowledge this is the first time iFCMs are applied for image classification. Further novel contributions include: a feature extraction process focusing on the most informative image regions; a learning algorithm for data-driven determination of the intuitionistic fuzzy interconnections of the iFCM; an inherently interpretable classification approach based on image contents. In the context of image classification, hesitancy is considered as a degree of inconfidence with which an image is categorized to a class. The constructed iFCM model distinguishes the most representative image semantics and analyses them utilizing cause-and-effect relations. The effectiveness of the introduced framework is evaluated on publicly available datasets, and the experimental results confirm that it can provide enhanced classification performance, while providing interpretable inferences.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 入射前処理と拡散後サンプリングを用いたフレキシブルベイズ最後の層モデル

Flexible Bayesian Last Layer Models Using Implicit Priors and Diffusion Posterior Sampling ( http://arxiv.org/abs/2408.03746v1 )

ライセンス: Link先を確認
Jian Xu, Zhiqi Lin, Shigui Li, Min Chen, Junmei Yang, Delu Zeng, John Paisley, (参考訳) Bayesian Last Layer (BLL)モデルは、ニューラルネットワークの出力層における不確実性のみに焦点を当て、より複雑なBayesianモデルに匹敵するパフォーマンスを示す。 しかし、ベイジアン・ラスト・レイヤ(BLL)モデルにおける最終層重みに対するガウス先行値の使用は、非ガウス、アウリエリッチ、高次元データセットに直面する際の表現能力を制限する。 この欠点に対処するために、ベイズ最後の層重みの変分学習に拡散法と暗黙の先行法を組み合わせた新しいアプローチを導入する。 本手法は,BLLにおける重み付けのモデル化に暗黙の分布を利用するとともに,拡散サンプリングを併用して真の後方予測を近似し,ベイズ的事前推定と後方推定の総合的戦略を確立する。 本手法は,BLLモデルの表現能力を向上し,モデル精度,キャリブレーション,アウト・オブ・ディストリビューション検出能力を向上させることを目的としている。 詳細な探索と実験的検証を通じて,計算効率を確保しつつ,予測精度と不確実性定量化を改善する手法の可能性を示す。

Bayesian Last Layer (BLL) models focus solely on uncertainty in the output layer of neural networks, demonstrating comparable performance to more complex Bayesian models. However, the use of Gaussian priors for last layer weights in Bayesian Last Layer (BLL) models limits their expressive capacity when faced with non-Gaussian, outlier-rich, or high-dimensional datasets. To address this shortfall, we introduce a novel approach that combines diffusion techniques and implicit priors for variational learning of Bayesian last layer weights. This method leverages implicit distributions for modeling weight priors in BLL, coupled with diffusion samplers for approximating true posterior predictions, thereby establishing a comprehensive Bayesian prior and posterior estimation strategy. By delivering an explicit and computationally efficient variational lower bound, our method aims to augment the expressive abilities of BLL models, enhancing model accuracy, calibration, and out-of-distribution detection proficiency. Through detailed exploration and experimental validation, We showcase the method's potential for improving predictive accuracy and uncertainty quantification while ensuring computational efficiency.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 多変量時系列におけるオンラインモデルに基づく異常検出:分類学、調査、研究課題、今後の方向性

Online Model-based Anomaly Detection in Multivariate Time Series: Taxonomy, Survey, Research Challenges and Future Directions ( http://arxiv.org/abs/2408.03747v1 )

ライセンス: Link先を確認
Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova, (参考訳) 時系列異常検出は、開発、製造、その他の動的システムを含む操作など、エンジニアリングプロセスにおいて重要な役割を果たす。 これらのプロセスは、例えば高次元データを含むケースにおいて最先端のアプローチが役立つため、この分野の進歩の恩恵を受けることができる。 本調査では,オンラインとオフラインを区別し,トレーニングと推論を行う新しい分類法を提案する。 さらに、文献で使用される最も一般的なデータセットと評価指標、および詳細な分析も提示する。 さらに、本調査は、多変量時系列データに対する最先端のモデルベースオンライン半教師なし異常検出手法の概要を概説し、それらを異なるモデルファミリーや他の特性に分類する。 ベンチマークに関する最大の研究課題は、現在、異なるアプローチを互いに比較する信頼できる方法が存在しないためである。 一方、公開データセットは少なくとも1つの根本的な欠陥に悩まされており、一方、この分野には直感的で代表的な評価指標が欠けている。 さらに、ほとんどの出版物が検知しきい値を選択する方法は、現実世界の状況を無視し、現実世界の応用を妨げる。 この分野における具体的な進歩を可能にするためには、これらの課題は今後の作業で対処する必要がある。

Time-series anomaly detection plays an important role in engineering processes, like development, manufacturing and other operations involving dynamic systems. These processes can greatly benefit from advances in the field, as state-of-the-art approaches may aid in cases involving, for example, highly dimensional data. To provide the reader with understanding of the terminology, this survey introduces a novel taxonomy where a distinction between online and offline, and training and inference is made. Additionally, it presents the most popular data sets and evaluation metrics used in the literature, as well as a detailed analysis. Furthermore, this survey provides an extensive overview of the state-of-the-art model-based online semi- and unsupervised anomaly detection approaches for multivariate time-series data, categorising them into different model families and other properties. The biggest research challenge revolves around benchmarking, as currently there is no reliable way to compare different approaches against one another. This problem is two-fold: on the one hand, public data sets suffers from at least one fundamental flaw, while on the other hand, there is a lack of intuitive and representative evaluation metrics in the field. Moreover, the way most publications choose a detection threshold disregards real-world conditions, which hinders the application in the real world. To allow for tangible advances in the field, these issues must be addressed in future work.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# エッジ誘導逆条件拡散モデルを用いた熱モダリティのためのデータ生成方式

Data Generation Scheme for Thermal Modality with Edge-Guided Adversarial Conditional Diffusion Model ( http://arxiv.org/abs/2408.03748v1 )

ライセンス: Link先を確認
Guoqing Zhu, Honghu Pan, Qiang Wang, Chao Tian, Chao Yang, Zhenyu He, (参考訳) 低照度と悪天候条件に挑戦する中で、熱可視アルゴリズム、特に物体検出アルゴリズムは、可視性視覚アルゴリズムが遭遇する頻繁な闘争とは対照的に、顕著な可能性を示した。 それでも、ディープラーニングモデルによって駆動されるサーマルビジョンアルゴリズムの有効性は、利用可能なトレーニングデータサンプルの不明瞭さによって制限されている。 そこで本研究では,エッジガイド条件拡散モデルと呼ばれる新しい手法を提案する。 本フレームワークは, 可視画像から抽出したエッジ情報を平均化し, 画素レベルで微調整された擬似熱画像を生成することを目的とする。 エッジを可視領域からのコンテキストキューとして利用することにより、拡散モデルは、生成された画像内のオブジェクトのデライン化を綿密に制御する。 熱領域に現れない可視的エッジ情報の影響を軽減するため、可視的および熱的モダリティを区別することにより、生成画像からそれらを除去する2段階の対向訓練戦略が提案されている。 LLVIPに関する大規模な実験は、画像生成の品質の観点から、既存の最先端アプローチよりもECDMの方が優れていることを示した。

In challenging low light and adverse weather conditions,thermal vision algorithms,especially object detection,have exhibited remarkable potential,contrasting with the frequent struggles encountered by visible vision algorithms. Nevertheless,the efficacy of thermal vision algorithms driven by deep learning models remains constrained by the paucity of available training data samples. To this end,this paper introduces a novel approach termed the edge guided conditional diffusion model. This framework aims to produce meticulously aligned pseudo thermal images at the pixel level,leveraging edge information extracted from visible images. By utilizing edges as contextual cues from the visible domain,the diffusion model achieves meticulous control over the delineation of objects within the generated images. To alleviate the impacts of those visible-specific edge information that should not appear in the thermal domain,a two-stage modality adversarial training strategy is proposed to filter them out from the generated images by differentiating the visible and thermal modality. Extensive experiments on LLVIP demonstrate ECDM s superiority over existing state-of-the-art approaches in terms of image generation quality.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 3iGS:3次元ガウススプラッティングのための要因的テンソルイルミネーション

3iGS: Factorised Tensorial Illumination for 3D Gaussian Splatting ( http://arxiv.org/abs/2408.03753v1 )

ライセンス: Link先を確認
Zhe Jun Tang, Tat-Jen Cham, (参考訳) レーダランス場の表現として3Dガウスアンを用いることで、リアルタイムレンダリング速度で高品質な新規ビュー合成が可能になった。 しかし、各ガウスの外部放射を球面調和として独立に最適化する選択は、満足できないビュー依存効果をもたらす。 これらの制約に応えて、3Dガウス版3DGSのレンダリング品質を改善する3Dガウス版3DGS(Factated Tensorial Illumination for 3D Gaussian Splatting)を開発した。 3iGSは1つの出射放射パラメータを最適化する代わりに、出射放射を局所照明場と双方向反射分布関数(BRDF)の機能として表現することにより、3DGSビュー依存効果を高める。 我々は,この照明領域に対して,各3次元ガウスのBRDF特徴を別々に微調整しながら,テンソル的因子化表現を通して連続的なインシデント照明領域を最適化する。 提案手法は, 高速なトレーニングとレンダリング速度を維持しながら, 3DGSの仕様ビュー依存効果のレンダリング品質を著しく向上させる。

The use of 3D Gaussians as representation of radiance fields has enabled high quality novel view synthesis at real-time rendering speed. However, the choice of optimising the outgoing radiance of each Gaussian independently as spherical harmonics results in unsatisfactory view dependent effects. In response to these limitations, our work, Factorised Tensorial Illumination for 3D Gaussian Splatting, or 3iGS, improves upon 3D Gaussian Splatting (3DGS) rendering quality. Instead of optimising a single outgoing radiance parameter, 3iGS enhances 3DGS view-dependent effects by expressing the outgoing radiance as a function of a local illumination field and Bidirectional Reflectance Distribution Function (BRDF) features. We optimise a continuous incident illumination field through a Tensorial Factorisation representation, while separately fine-tuning the BRDF features of each 3D Gaussian relative to this illumination field. Our methodology significantly enhances the rendering quality of specular view-dependent effects of 3DGS, while maintaining rapid training and rendering speeds.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# MMSummary:胎児超音波ビデオのためのマルチモーダル概要生成

MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video ( http://arxiv.org/abs/2408.03761v1 )

ライセンス: Link先を確認
Xiaoqing Guo, Qianhui Men, J. Alison Noble, (参考訳) 本稿では, 医療用画像撮影システムMMSummaryについて, 胎児超音波解析を中心に紹介する。 MMSummaryは、人間のソノグラフィーによる検査プロセスを省略し、3段階のパイプラインとして設計され、キーフレーム検出からキーフレームキャプション、最後に解剖学的セグメンテーションと測定へと進展する。 キーフレーム検出の段階では、キーフレームの簡潔なセットを段階的に選択し、冗長性のない十分な映像情報を保存するための革新的な自動化ワークフローが提案されている。 その後、大口径の言語モデルを用いて、胎児超音波のキーフレームをキーフレームキャプションの段階で意味のあるキャプションを生成する。 キーフレームが胎児のバイオメトリとしてキャプションされている場合、セグメンテーションと測定段階は、テキストの先行に基づいて関心領域をセグメンテーションすることで生体パラメータを推定する。 MMSummaryシステムは胎児超音波検査の総合的なサマリーを提供し、報告された実験に基づいてスキャン時間を約31.5%削減し、臨床ワークフロー効率を高める可能性を示唆している。

We present the first automated multimodal summary generation system, MMSummary, for medical imaging video, particularly with a focus on fetal ultrasound analysis. Imitating the examination process performed by a human sonographer, MMSummary is designed as a three-stage pipeline, progressing from keyframe detection to keyframe captioning and finally anatomy segmentation and measurement. In the keyframe detection stage, an innovative automated workflow is proposed to progressively select a concise set of keyframes, preserving sufficient video information without redundancy. Subsequently, we adapt a large language model to generate meaningful captions for fetal ultrasound keyframes in the keyframe captioning stage. If a keyframe is captioned as fetal biometry, the segmentation and measurement stage estimates biometric parameters by segmenting the region of interest according to the textual prior. The MMSummary system provides comprehensive summaries for fetal ultrasound examinations and based on reported experiments is estimated to reduce scanning time by approximately 31.5%, thereby suggesting the potential to enhance clinical workflow efficiency.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# FinLLMチャレンジタスクにおける「フィナンス・ウィザード」:財務文書要約

'Finance Wizard' at the FinLLM Challenge Task: Financial Text Summarization ( http://arxiv.org/abs/2408.03762v1 )

ライセンス: Link先を確認
Meisin Lee, Soon Lay-Ki, (参考訳) 本稿では,FinNLP-AgentScen 2024共有タスク#2:ファイナンシャルテキスト要約におけるチーム名の「Finance Wizard」について述べる。 ファイナンシャルテキスト要約のためのタスク固有モデルにファウンデーションモデルを微調整するパイプラインアプローチを文書化する。 1)基礎モデルであるLlama3 8Bを、継続した事前トレーニングを通じてファイナンスドメインに適合させ、(2)マルチタスクのインストラクションチューニングにより、より財務関連の機能を備えたモデルをさらに装備し、(3)最終的にモデルをタスク固有の「専門家」に微調整する。 このモデルであるFinLlama3\_sumは, ROUGE-1スコア0.521で3位を確保できた。

This paper presents our participation under the team name `Finance Wizard' in the FinNLP-AgentScen 2024 shared task #2: Financial Text Summarization. It documents our pipeline approach of fine-tuning a foundation model into a task-specific model for Financial Text Summarization. It involves (1) adapting Llama3 8B, a foundation model, to the Finance domain via continued pre-training, (2) multi-task instruction-tuning to further equip the model with more finance-related capabilities, (3) finally fine-tuning the model into a task-specific `expert'. Our model, FinLlama3\_sum, yielded commendable results, securing the third position in its category with a ROUGE-1 score of 0.521.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# Reliable Node similarity Matrix Guided Contrastive Graph Clustering

Reliable Node Similarity Matrix Guided Contrastive Graph Clustering ( http://arxiv.org/abs/2408.03765v1 )

ライセンス: Link先を確認
Yunhui Liu, Xinyi Gao, Tieke He, Tao Zheng, Jianhua Zhao, Hongzhi Yin, (参考訳) グラフクラスタリングは、グラフ内のノードを非結合クラスタに分割することを含む。 近年,監視情報を活用したコントラスト学習が,深層グラフクラスタリングの促進効果を実証している。 この手法は、正の相関ノード対を惹きつけ、表現空間内で負の相関ノード対を分散させることにより、クラスタリングに適したノード表現の学習を容易にする。 それでも、既存の方法の重大な制限は、ノードの類似性を徹底的に探求する上で不十分である。 例えば、表現空間内のノード類似性行列は同一であり、ノード間の固有の意味関係を無視しているという仮説もある。 クラスタリングにおけるインスタンス類似性の基本的役割を考慮し,ノード類似性行列の観点から,コントラストグラフクラスタリングについて検討する。 表現空間内の理想的なノード類似性行列は、ノード間の固有の意味的関係を正確に反映し、学習された表現における意味的類似性を保存するべきである。 これに対応して、表現空間内のほぼ理想的なノード類似度行列を推定し、表現学習をガイドする、信頼性の高いノード類似度行列ガイドコントラストグラフクラスタリング(NS4GC)を導入した。 本手法は,ノード近傍のアライメントとセマンティック・アウェア・スパリフィケーションを導入し,ノード類似度行列が正確かつ効率的にスパースであることを保証する。 8ドルの実世界のデータセットで実施された総合実験により、ノード類似性行列の学習の有効性とNS4GCの優れた性能が確認された。

Graph clustering, which involves the partitioning of nodes within a graph into disjoint clusters, holds significant importance for numerous subsequent applications. Recently, contrastive learning, known for utilizing supervisory information, has demonstrated encouraging results in deep graph clustering. This methodology facilitates the learning of favorable node representations for clustering by attracting positively correlated node pairs and distancing negatively correlated pairs within the representation space. Nevertheless, a significant limitation of existing methods is their inadequacy in thoroughly exploring node-wise similarity. For instance, some hypothesize that the node similarity matrix within the representation space is identical, ignoring the inherent semantic relationships among nodes. Given the fundamental role of instance similarity in clustering, our research investigates contrastive graph clustering from the perspective of the node similarity matrix. We argue that an ideal node similarity matrix within the representation space should accurately reflect the inherent semantic relationships among nodes, ensuring the preservation of semantic similarities in the learned representations. In response to this, we introduce a new framework, Reliable Node Similarity Matrix Guided Contrastive Graph Clustering (NS4GC), which estimates an approximately ideal node similarity matrix within the representation space to guide representation learning. Our method introduces node-neighbor alignment and semantic-aware sparsification, ensuring the node similarity matrix is both accurate and efficiently sparse. Comprehensive experiments conducted on $8$ real-world datasets affirm the efficacy of learning the node similarity matrix and the superior performance of NS4GC.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# ランダムエネルギーモデルとしてのナダラヤ・ワトソン核平滑化

Nadaraya-Watson kernel smoothing as a random energy model ( http://arxiv.org/abs/2408.03769v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth, Cengiz Pehlevan, (参考訳) 本研究では, ナダラヤ・ワトソン核平滑化推定器の挙動を, ランダムエネルギーモデルと高密度連想記憶との関係を用いて検討した。

We investigate the behavior of the Nadaraya-Watson kernel smoothing estimator in high dimensions using its relationship to the random energy model and to dense associative memories.
翻訳日:2024-08-08 13:04:22 公開日:2024-08-07
# 肝切除後肝不全予測のための解釈可能な深層学習モデルの方法論的説明可能性評価

Methodological Explainability Evaluation of an Interpretable Deep Learning Model for Post-Hepatectomy Liver Failure Prediction Incorporating Counterfactual Explanations and Layerwise Relevance Propagation: A Prospective In Silico Trial ( http://arxiv.org/abs/2408.03771v1 )

ライセンス: Link先を確認
Xian Zhong, Zohaib Salahuddin, Yi Chen, Henry C Woodruff, Haiyi Long, Jianyun Peng, Nuwan Udawatte, Roberto Casale, Ayoub Mokhtari, Xiaoer Zhang, Jiayao Huang, Qingyu Wu, Li Tan, Lili Chen, Dongming Li, Xiaoyan Xie, Manxia Lin, Philippe Lambin, (参考訳) 肝細胞癌(HCC)における肝切除後肝不全(PHLF)の予測には人工知能(AI)による意思決定支援システムが有用である。 しかし、それらは透明性を欠くことが多く、モデル説明が臨床医の判断に与える影響は十分に評価されていない。 術前のPHLF予測のための変異型自己エンコーダ多層パーセプトロン (VAE-MLP) モデルを開発した。 このモデルは、その意思決定メカニズムに関する洞察を提供するために、カウンターファクトアルとレイヤワイズ関連伝播(LRP)を統合した。 さらに,AIシステムの説明可能性を評価するための方法論的枠組みを提案した。 このフレームワークは、認識されたバイオマーカーに対する説明の質的および定量的な評価、ユーザビリティの評価、およびサイリコ臨床試験を含む。 評価の結果, モデルの説明は確立されたバイオマーカーと相関し, ケースおよびシステムレベルで高いユーザビリティを示した。 さらに,サイリコ臨床試験の3トラックの結果,AIの説明が提供されると,臨床医の予測精度と信頼性が向上した。

Artificial intelligence (AI)-based decision support systems have demonstrated value in predicting post-hepatectomy liver failure (PHLF) in hepatocellular carcinoma (HCC). However, they often lack transparency, and the impact of model explanations on clinicians' decisions has not been thoroughly evaluated. Building on prior research, we developed a variational autoencoder-multilayer perceptron (VAE-MLP) model for preoperative PHLF prediction. This model integrated counterfactuals and layerwise relevance propagation (LRP) to provide insights into its decision-making mechanism. Additionally, we proposed a methodological framework for evaluating the explainability of AI systems. This framework includes qualitative and quantitative assessments of explanations against recognized biomarkers, usability evaluations, and an in silico clinical trial. Our evaluations demonstrated that the model's explanation correlated with established biomarkers and exhibited high usability at both the case and system levels. Furthermore, results from the three-track in silico clinical trial showed that clinicians' prediction accuracy and confidence increased when AI explanations were provided.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# Relevance meets Diversity: Recommendationsによる知識探索のためのユーザ中心フレームワーク

Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations ( http://arxiv.org/abs/2408.03772v1 )

ライセンス: Link先を確認
Erica Coppolillo, Giuseppe Manco, Aristides Gionis, (参考訳) 関連性があり多様なレコメンデーションを提供することは、現代のレコメンデーションシステムにおいて重要な考慮事項である。 両者の最適化は基本的なトレードオフであり、多様性の向上は一般的に関連性の犠牲を伴い、ユーザエンゲージメントが低下する。 既存のレコメンデーションアルゴリズムは、このトレードオフを解決するために、関連性と多様性という2つの手段を1つの目的に組み合わせ、その目的を最適化するレコメンデーションを推奨すべき項目数に対して求めている。 しかし、従来のアプローチでは推奨項目とのユーザインタラクションは考慮されていない。 本稿では,ユーザを中心的なステージに配置し,関連性,多様性,ユーザ行動の相互関係を構築する。 エンゲージメントを最大化することだけを目標とするアプリケーションとは対照的に、私たちは、ユーザが遭遇する知識の総量を最大化するシナリオに焦点を当てます。 我々は,ユーザがシステムと対話しながら得た知識量のサロゲートとして多様性を使用し,多様性の最大化を目指す。 本稿では,ユーザが適切なレコメンデーションを受ける限り,レコメンデーションシステムとの対話を継続する確率的ユーザビヘイビアモデルを提案するが,レコメンデーション項目の関連性が低下した場合は停止する可能性がある。 したがって、高多様性対策を達成するためには、関連性があり多様なレコメンデーションを作成する必要がある。 最後に,コプラ関数による妥当性と多様性を組み合わせた新しいレコメンデーション戦略を提案する。 我々は,提案手法を複数のデータセットに対して広範囲に評価し,その戦略が最先端の競合相手よりも優れていることを示す。 私たちの実装はhttps://github.com/EricaCoppolillo/EXPLORE.comで公開されています。

Providing recommendations that are both relevant and diverse is a key consideration of modern recommender systems. Optimizing both of these measures presents a fundamental trade-off, as higher diversity typically comes at the cost of relevance, resulting in lower user engagement. Existing recommendation algorithms try to resolve this trade-off by combining the two measures, relevance and diversity, into one aim and then seeking recommendations that optimize the combined objective, for a given number of items to recommend. Traditional approaches, however, do not consider the user interaction with the recommended items. In this paper, we put the user at the central stage, and build on the interplay between relevance, diversity, and user behavior. In contrast to applications where the goal is solely to maximize engagement, we focus on scenarios aiming at maximizing the total amount of knowledge encountered by the user. We use diversity as a surrogate of the amount of knowledge obtained by the user while interacting with the system, and we seek to maximize diversity. We propose a probabilistic user-behavior model in which users keep interacting with the recommender system as long as they receive relevant recommendations, but they may stop if the relevance of the recommended items drops. Thus, for a recommender system to achieve a high-diversity measure, it will need to produce recommendations that are both relevant and diverse. Finally, we propose a novel recommendation strategy that combines relevance and diversity by a copula function. We conduct an extensive evaluation of the proposed methodology over multiple datasets, and we show that our strategy outperforms several state-of-the-art competitors. Our implementation is publicly available at https://github.com/EricaCoppolillo/EXPLORE.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# Computed Tomography 画像における腎嚢胞の自動検出・分節のためのファクトファクトと不確実性に基づく説明可能なパラダイム:多施設共同研究

Counterfactuals and Uncertainty-Based Explainable Paradigm for the Automated Detection and Segmentation of Renal Cysts in Computed Tomography Images: A Multi-Center Study ( http://arxiv.org/abs/2408.03789v1 )

ライセンス: Link先を確認
Zohaib Salahuddin, Abdalla Ibrahim, Sheng Kuang, Yousif Widaatalla, Razvan L. Miclea, Oliver Morin, Spencer Behr, Marnix P. M. Kop, Tom Marcelissen, Patricia Zondervan, Auke Jager, Philippe Lambin, Henry C Woodruff, (参考訳) Routine Computed Tomography (CT)スキャンは、しばしば広範囲の腎嚢胞を検知するが、そのうちのいくつかは悪性である可能性がある。 これらの嚢胞の早期かつ正確な局在化は定量的な画像解析に有効である。 しかし、現在のセグメンテーション手法では、機能やピクセルレベルで十分な解釈性を提供しておらず、モデル不正確性を検出・修正できる説明可能なフレームワークの必要性を強調している。 我々は、解釈可能なセグメンテーションフレームワークを開発し、多中心データセット上で検証した。 可変オートエンコーダ生成適応ネットワーク(VAE-GAN)を用いて,3次元入力パッチの潜時表現を学習し,入力画像の再構成を行った。 セグメンテーションモデルの勾配を用いた潜在表現の修正は、異なるダイス類似度係数(DSC)に対する反実的説明を生成する。 地中真実のシストマスクを用いて,これらの反事実画像から抽出した放射能特性を解析し,セグメンテーション性能との相関性を検討した。 原画像とVAE-GAN画像のDSCは, 画像生成に有意な差は認められなかった。 嚢胞像の変異がセグメンテーションの結果にどのように影響し, モデル差がみられた。 ラジオミクスの特徴は, サイススコアと正・負の相関が認められた。 予測されたセグメンテーションマスクの不確かさは,重量空間の後方サンプリングを用いて推定した。 反事実的説明と不確実性マップの組み合わせは、高い不確実性をもたらすセグメンテーションされた腎嚢胞内の画像の特徴をより深く理解した。 提案したセグメンテーションフレームワークは,高いセグメンテーション精度を達成しただけでなく,画像特徴がセグメンテーション性能に与える影響に関する解釈可能性も向上した。

Routine computed tomography (CT) scans often detect a wide range of renal cysts, some of which may be malignant. Early and precise localization of these cysts can significantly aid quantitative image analysis. Current segmentation methods, however, do not offer sufficient interpretability at the feature and pixel levels, emphasizing the necessity for an explainable framework that can detect and rectify model inaccuracies. We developed an interpretable segmentation framework and validated it on a multi-centric dataset. A Variational Autoencoder Generative Adversarial Network (VAE-GAN) was employed to learn the latent representation of 3D input patches and reconstruct input images. Modifications in the latent representation using the gradient of the segmentation model generated counterfactual explanations for varying dice similarity coefficients (DSC). Radiomics features extracted from these counterfactual images, using a ground truth cyst mask, were analyzed to determine their correlation with segmentation performance. The DSCs for the original and VAE-GAN reconstructed images for counterfactual image generation showed no significant differences. Counterfactual explanations highlighted how variations in cyst image features influence segmentation outcomes and showed model discrepancies. Radiomics features correlating positively and negatively with dice scores were identified. The uncertainty of the predicted segmentation masks was estimated using posterior sampling of the weight space. The combination of counterfactual explanations and uncertainty maps provided a deeper understanding of the image features within the segmented renal cysts that lead to high uncertainty. The proposed segmentation framework not only achieved high segmentation accuracy but also increased interpretability regarding how image features impact segmentation performance.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# LiDARによる教師なし3次元物体検出のためのビジョンランゲージ誘導

Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection ( http://arxiv.org/abs/2408.03790v1 )

ライセンス: Link先を確認
Christian Fruhwirth-Reisinger, Wei Lin, Dušan Malić, Horst Bischof, Horst Possegger, (参考訳) LiDARポイントクラウドにおける正確な3Dオブジェクト検出は、自律運転システムにとって不可欠である。 最先端の性能を達成するために、教師付き検知器の訓練には大量の人手による注釈データが必要であり、これは事前に定義された対象カテゴリの取得と制限が高価である。 手動ラベリングの取り組みを緩和するため、最近の教師なしオブジェクト検出アプローチでは、移動対象に対するクラスに依存しない擬似ラベルを生成し、その後、検出器をブートストラップする監視信号として機能する。 有望な結果にもかかわらず、これらのアプローチはクラスラベルを提供したり、静的オブジェクトにうまく一般化したりしない。 さらに、ほとんどの場合、同じシーンからの複数のドライブを含むデータや、正確に校正され同期化されたカメラ設定からのイメージに制限される。 これらの制限を克服するために,LiDAR点群のみで動作する視覚言語による教師なし3次元検出手法を提案する。 静的および動くオブジェクトのポイントクラスタを分類するためにCLIPの知識を転送し、クラスタリング、トラッキング、およびボックスとラベルのリファインメントのために、LiDARポイントクラウド固有の時空間情報を活用することで発見する。 提案手法は,Waymo Open Dataset(+23~\text{AP}_{3D}$)とArgoverse 2(+7.9~\text{AP}_{3D}$)の最先端の非教師対象3Dオブジェクト検出器より優れており,オブジェクトサイズの仮定にのみ基づかないクラスラベルを提供する。

Accurate 3D object detection in LiDAR point clouds is crucial for autonomous driving systems. To achieve state-of-the-art performance, the supervised training of detectors requires large amounts of human-annotated data, which is expensive to obtain and restricted to predefined object categories. To mitigate manual labeling efforts, recent unsupervised object detection approaches generate class-agnostic pseudo-labels for moving objects, subsequently serving as supervision signal to bootstrap a detector. Despite promising results, these approaches do not provide class labels or generalize well to static objects. Furthermore, they are mostly restricted to data containing multiple drives from the same scene or images from a precisely calibrated and synchronized camera setup. To overcome these limitations, we propose a vision-language-guided unsupervised 3D detection approach that operates exclusively on LiDAR point clouds. We transfer CLIP knowledge to classify point clusters of static and moving objects, which we discover by exploiting the inherent spatio-temporal information of LiDAR point clouds for clustering, tracking, as well as box and label refinement. Our approach outperforms state-of-the-art unsupervised 3D object detectors on the Waymo Open Dataset ($+23~\text{AP}_{3D}$) and Argoverse 2 ($+7.9~\text{AP}_{3D}$) and provides class labels not solely based on object size assumptions, marking a significant advancement in the field.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# ピアジェの論理比におけるフランクの三角ノルム

Frank's triangular norms in Piaget's logical proportions ( http://arxiv.org/abs/2408.03795v1 )

ライセンス: Link先を確認
Henri Prade, Gilles Richard, (参考訳) ピアジェの意味での論理比例(英語版)(Boolean)の論理比例の概念から、このノートは、三角ノルム(および双対コノルム)に基づく数値間の類似比例の定義を提唱する。 フランクの三角ノルムの族は、この観点から特に興味深い。 この論文は、一般化された手段の族に基づく数値間の類推比を定義するための別の非常に最近の提案との比較議論で締めくくられる。

Starting from the Boolean notion of logical proportion in Piaget's sense, which turns out to be equivalent to analogical proportion, this note proposes a definition of analogical proportion between numerical values based on triangular norms (and dual co-norms). Frank's family of triangular norms is particularly interesting from this perspective. The article concludes with a comparative discussion with another very recent proposal for defining analogical proportions between numerical values based on the family of generalized means.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# マルコフチャネルにおける量子バッテリ容量のダイナミクス

Dynamics of quantum battery capacity under Markovian channels ( http://arxiv.org/abs/2408.03797v1 )

ライセンス: Link先を確認
Yao-Kun Wang, Li-Zhu Ge, Tinggui Zhang, Shao-Ming Fei, Zhi-Xi Wang, (参考訳) 第1サブシステムにおけるマルコフチャネル下でのベル対角状態に対する量子バッテリ容量のダイナミクスについて検討する。 その結果,振幅減衰チャネル下でのベル対角線状態の容量増加が示唆された。 キャパシティの突然の死は、脱分極チャネルの下で起こる。 また、マルコフチャネルの下でのベル対角状態のキャパシティの進化を、最初のサブシステム$n$ timesで調べる。 脱分極チャネルの容量は、最初は減少し、その後小さな$n$で増加し、大きな$n$でゼロになる傾向がある。 ビットフリップチャネルと振幅減衰チャネルの下では、特別なベル対角状態の量子バッテリ容量は、大きな$n$で一定となる傾向がある。 2つの独立な同型局所マルコフチャネルの下でのベル対角状態のキャパシティのダイナミクスについても検討した。

We study the dynamics of the quantum battery capacity for the Bell-diagonal states under Markovian channels on the first subsystem. We show that the capacity increases for special Bell-diagonal states under amplitude damping channel. The sudden death of the capacity occurs under depolarizing channel. We also investigate the capacity evolution of Bell-diagonal states under Markovian channels on the first subsystem $n$ times. It is shown that the capacity under depolarizing channel decreases initially, then increases for small $n$ and tend to zero for large $n$. We find that under bit flip channel and amplitude damping channel, the quantum battery capacity of special Bell-diagonal states tends to a constant for large $n$, namely, the frozen capacity occurs. The dynamics of the capacity of the Bell-diagonal states under two independent same type local Markovian channels is also studied.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 長距離結合を持つ300個の捕獲されたイオン量子ビットに対するハミルトン学習

Hamiltonian learning for 300 trapped ion qubits with long-range couplings ( http://arxiv.org/abs/2408.03801v1 )

ライセンス: Link先を確認
S. -A. Guo, Y. -K. Wu, J. Ye, L. Zhang, Y. Wang, W. -Q. Lian, R. Yao, Y. -L. Xu, C. Zhang, Y. -Z. Xu, B. -X. Qi, P. -Y. Hou, L. He, Z. -C. Zhou, L. -M. Duan, (参考訳) 数百の量子ビットを持つ量子シミュレータとエンジニアリング可能なハミルトンは、古典的なコンピュータにとって魅力的な量子多体モデルを探索する可能性がある。 しかし、量子シミュレータのあらゆる応用の前提条件であるシミュレートされたハミルトニアンを学ぶことは、量子ビット数による高速な時間コストの増加と、ノイズの多い中間スケール量子時代における高忠実な普遍ゲート演算の欠如により、依然として顕著な課題である。 ここでは、300量子ビットの2次元イオントラップ量子シミュレータのハミルトン学習を実演する。 我々は、大域的な操作と単一キュービット分解状態検出を用いて、全結合のイジングモデルハミルトンを効率よく学習し、必要となる量子資源は、量子ビット数とほとんど線形にスケーリングする。 我々の研究は、大規模イオントラップ量子シミュレータの幅広い応用の道を開いた。

Quantum simulators with hundreds of qubits and engineerable Hamiltonians have the potential to explore quantum many-body models that are intractable for classical computers. However, learning the simulated Hamiltonian, a prerequisite for any applications of a quantum simulator, remains an outstanding challenge due to the fast increasing time cost with the qubit number and the lack of high-fidelity universal gate operations in the noisy intermediate-scale quantum era. Here we demonstrate the Hamiltonian learning of a two-dimensional ion trap quantum simulator with 300 qubits. We employ global manipulations and single-qubit-resolved state detection to efficiently learn the all-to-all-coupled Ising model Hamiltonian, with the required quantum resources scaling at most linearly with the qubit number. Our work paves the way for wide applications of large-scale ion trap quantum simulators.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 人間の迷路をナビゲートする:生成的模倣学習によるリアルタイムロボットパスフィニング

Navigating the Human Maze: Real-Time Robot Pathfinding with Generative Imitation Learning ( http://arxiv.org/abs/2408.03807v1 )

ライセンス: Link先を確認
Martin Moder, Stephen Adhisaputra, Josef Pauli, (参考訳) 本稿では,目標条件付き生成モデルとサンプルベースモデル予測制御(SMPC)を統合することで,混在環境におけるナビゲーションに対処する。 目標条件付き自己回帰モデルを導入し,個人間の複雑な相互作用を捉える。 このモデルは、潜在的なロボット軌道サンプルを処理し、周囲の個人の反応を予測する。 大規模な実験により、このアルゴリズムはリアルタイムナビゲーションを可能にし、衝突速度と経路長を著しく低減し、選択されたベースライン法よりも優れた性能を示すことが示された。 このアルゴリズムの実用性は、実際のロボットプラットフォーム上で検証され、動的設定でその能力を実証する。

This paper addresses navigation in crowded environments by integrating goal-conditioned generative models with Sampling-based Model Predictive Control (SMPC). We introduce goal-conditioned autoregressive models to generate crowd behaviors, capturing intricate interactions among individuals. The model processes potential robot trajectory samples and predicts the reactions of surrounding individuals, enabling proactive robotic navigation in complex scenarios. Extensive experiments show that this algorithm enables real-time navigation, significantly reducing collision rates and path lengths, and outperforming selected baseline methods. The practical effectiveness of this algorithm is validated on an actual robotic platform, demonstrating its capability in dynamic settings.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 自動短解スコーリングのための検索拡張生成付き生成言語モデル

Generative Language Models with Retrieval Augmented Generation for Automated Short Answer Scoring ( http://arxiv.org/abs/2408.03811v1 )

ライセンス: Link先を確認
Zifan Wang, Christopher Ormerod, (参考訳) 自動短解答(ASAS)は教育評価において重要な要素である。 従来のASASシステムはルールベースのアルゴリズムや複雑なディープラーニング手法に依存していたが、ジェネレーティブ言語モデル(GLM)の最近の進歩は、改善のための新たな機会を提供する。 本研究は,GAMをASASに適用し,各領域の既設能力と性能を活用して検討する。 本稿では, ベクトルデータベース, トランスフォーマーベースエンコーダ, GLMを組み合わせ, 短時間応答スコアリング精度を向上させるパイプラインを提案する。 提案手法では,学習応答をベクトルデータベースに格納し,推論中に意味的に類似した応答を検索し,GLMを用いてこれらの応答を分析し,適切なスコアを決定する。 さらに、微調整された検索プロセスによってシステムを最適化し、エンジニアリングを促進させる。 SemEval 2013データセットの評価では、既存の手法と比較してSCIENTSBANKの3方向と2方向のタスクが大幅に改善され、ASAS技術の進歩におけるGLMの可能性が強調された。

Automated Short Answer Scoring (ASAS) is a critical component in educational assessment. While traditional ASAS systems relied on rule-based algorithms or complex deep learning methods, recent advancements in Generative Language Models (GLMs) offer new opportunities for improvement. This study explores the application of GLMs to ASAS, leveraging their off-the-shelf capabilities and performance in various domains. We propose a novel pipeline that combines vector databases, transformer-based encoders, and GLMs to enhance short answer scoring accuracy. Our approach stores training responses in a vector database, retrieves semantically similar responses during inference, and employs a GLM to analyze these responses and determine appropriate scores. We further optimize the system through fine-tuned retrieval processes and prompt engineering. Evaluation on the SemEval 2013 dataset demonstrates a significant improvement on the SCIENTSBANK 3-way and 2-way tasks compared to existing methods, highlighting the potential of GLMs in advancing ASAS technology.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 長期臨床時系列予測による医療における原因(効果)の早期予測

Early Prediction of Causes (not Effects) in Healthcare by Long-Term Clinical Time Series Forecasting ( http://arxiv.org/abs/2408.03816v1 )

ライセンス: Link先を確認
Michael Staniek, Marius Fracarolli, Michael Hagmann, Stefan Riezler, (参考訳) 早期症候群診断のための機械学習は、観測された臨床測定(原因)に適用される医学的コンセンサス定義の結果(効果)が、数時間前に観察された臨床測定から最も多いという、基礎的な真理ラベルを予測するという複雑なタスクを解決することを目的としている。 そこで本研究では,臨床変数の時系列予測(TSF)を通じて原因を直接予測し,ゴールド標準コンセンサス定義を予測値に適用することにより効果を決定することを提案する。 モデルトレーニングは特定のラベルに依存しないため、予測されたデータはコンセンサスに基づくラベルの予測に使用することができる。 本稿では,SOFAをベースとしたSepsis-3定義とSAPS-II(Simplified acute Physiology Score)定義に係わるスパース臨床変数の正確な予測に着目し,Transformerモデルを用いた長期的TSFを用いて本手法を実証する。 2つのデータセットを用いて実験を行い、時系列と直接多重ステップデコーダのセット関数エンコーダを提唱する最近の提案とは対照的に、標準密度エンコーダと反復多重ステップデコーダを組み合わせることで最良の結果が得られることを示した。 反復的多段階復号化の成功の鍵は、多変量依存関係をキャプチャする能力と、モデルに次のステップ予測のために独自のタイムステップ予測に依存するように教える学生の強制訓練戦略にある。

Machine learning for early syndrome diagnosis aims to solve the intricate task of predicting a ground truth label that most often is the outcome (effect) of a medical consensus definition applied to observed clinical measurements (causes), given clinical measurements observed several hours before. Instead of focusing on the prediction of the future effect, we propose to directly predict the causes via time series forecasting (TSF) of clinical variables and determine the effect by applying the gold standard consensus definition to the forecasted values. This method has the invaluable advantage of being straightforwardly interpretable to clinical practitioners, and because model training does not rely on a particular label anymore, the forecasted data can be used to predict any consensus-based label. We exemplify our method by means of long-term TSF with Transformer models, with a focus on accurate prediction of sparse clinical variables involved in the SOFA-based Sepsis-3 definition and the new Simplified Acute Physiology Score (SAPS-II) definition. Our experiments are conducted on two datasets and show that contrary to recent proposals which advocate set function encoders for time series and direct multi-step decoders, best results are achieved by a combination of standard dense encoders with iterative multi-step decoders. The key for success of iterative multi-step decoding can be attributed to its ability to capture cross-variate dependencies and to a student forcing training strategy that teaches the model to rely on its own previous time step predictions for the next time step prediction.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 最適能動学習のための対実データ拡張における変分理論の活用

Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning ( http://arxiv.org/abs/2408.03819v1 )

ライセンス: Link先を確認
Simret Araya Gebreegziabher, Kuangshi Ai, Zheng Zhang, Elena L. Glassman, Toby Jia-Jun Li, (参考訳) アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。 本稿では,ALに反実的データ拡張アプローチを導入し,特にユーザクエリのためのデータポイントの選択に対処する。 我々のアプローチは、概念の本質的特徴を強調する人間の概念学習の理論である変分理論にインスパイアされている。 既存のデータポイントに問い合わせるのではなく、大きな言語モデル(LLM)とルールベースモデルを組み合わせたニューラルシンボリックパイプラインを用いて、ラベル間の潜在的な鍵となる類似点と相違点を強調する人工データポイントを合成する。 テキスト分類のサンプル領域における実験により,注釈付きデータが少ない場合に,本手法が著しく高い性能を達成することを示す。 注釈付きトレーニングデータが大きくなると、ALのコールドスタート問題に対処する能力を示すために生成されたデータの影響が減少し始める。 この研究は、ALの最適化に人間の学習理論を統合することに光を当てている。

Active Learning (AL) allows models to learn interactively from user feedback. This paper introduces a counterfactual data augmentation approach to AL, particularly addressing the selection of datapoints for user querying, a pivotal concern in enhancing data efficiency. Our approach is inspired by Variation Theory, a theory of human concept learning that emphasizes the essential features of a concept by focusing on what stays the same and what changes. Instead of just querying with existing datapoints, our approach synthesizes artificial datapoints that highlight potential key similarities and differences among labels using a neuro-symbolic pipeline combining large language models (LLMs) and rule-based models. Through an experiment in the example domain of text classification, we show that our approach achieves significantly higher performance when there are fewer annotated data. As the annotated training data gets larger the impact of the generated data starts to diminish showing its capability to address the cold start problem in AL. This research sheds light on integrating theories of human learning into the optimization of AL.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 静的および動的放射場のためのコンパクトな3次元ガウス散乱

Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields ( http://arxiv.org/abs/2408.03822v1 )

ライセンス: Link先を確認
Joo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park, (参考訳) 3D Gaussian splatting (3DGS) は、最近、3D Gaussian ベースの表現を活用する代替表現として登場し、非常に高速なレンダリング速度と将来性のある画像品質を実現する、近似されたボリュームレンダリングを導入した。 さらに、その後の研究では3DGSをダイナミックな3Dシーンに拡張し、幅広い応用を実証している。 しかし、3DGSとその後続の手法は、大量のメモリとストレージを必要とするレンダリング画像の高忠実さを維持するためにかなりの数のガウス像を必要とするため、大きな欠点が生じる。 この重要な問題に対処するために、我々は、性能を犠牲にすることなくガウス点数を減らし、ビュー依存色や共分散のようなガウス属性を圧縮する、2つの主要な目的に特に重点を置いている。 そこで本研究では,高い性能を維持しながらガウス数を大幅に削減する学習可能なマスク戦略を提案する。 さらに,球面高調波に頼らず,格子型ニューラルネットワークを用いて,ビュー依存色をコンパクトかつ効果的に表現する手法を提案する。 最後に,残留ベクトル量子化による幾何学的属性と時間的属性をコンパクトに表現するコードブックを学習する。 量子化やエントロピー符号化などのモデル圧縮技術により,静的シーンの3DGSに比べて,25倍以上のストレージとレンダリング速度が向上し,シーン表現の質が向上した。 動的シーンでは,従来の最先端手法と比較して,ストレージ効率が12倍以上に向上し,高品質な再構築が維持される。 我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。 私たちのプロジェクトページはhttps://maincold2.github.io/c3dgs/で公開されています。

3D Gaussian splatting (3DGS) has recently emerged as an alternative representation that leverages a 3D Gaussian-based representation and introduces an approximated volumetric rendering, achieving very fast rendering speed and promising image quality. Furthermore, subsequent studies have successfully extended 3DGS to dynamic 3D scenes, demonstrating its wide range of applications. However, a significant drawback arises as 3DGS and its following methods entail a substantial number of Gaussians to maintain the high fidelity of the rendered images, which requires a large amount of memory and storage. To address this critical issue, we place a specific emphasis on two key objectives: reducing the number of Gaussian points without sacrificing performance and compressing the Gaussian attributes, such as view-dependent color and covariance. To this end, we propose a learnable mask strategy that significantly reduces the number of Gaussians while preserving high performance. In addition, we propose a compact but effective representation of view-dependent color by employing a grid-based neural field rather than relying on spherical harmonics. Finally, we learn codebooks to compactly represent the geometric and temporal attributes by residual vector quantization. With model compression techniques such as quantization and entropy coding, we consistently show over 25x reduced storage and enhanced rendering speed compared to 3DGS for static scenes, while maintaining the quality of the scene representation. For dynamic scenes, our approach achieves more than 12x storage efficiency and retains a high-quality reconstruction compared to the existing state-of-the-art methods. Our work provides a comprehensive framework for 3D scene representation, achieving high performance, fast training, compactness, and real-time rendering. Our project page is available at https://maincold2.github.io/c3dgs/.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# リアルタイムガウススプラッティングに向けて:光度SLAMによる3DGSの高速化

Towards Real-Time Gaussian Splatting: Accelerating 3DGS through Photometric SLAM ( http://arxiv.org/abs/2408.03825v1 )

ライセンス: Link先を確認
Yan Song Hu, Dayou Mao, Yuhao Chen, John Zelek, (参考訳) VSLAM(Visual Simultaneous Localization and Mapping)における3D Gaussian Splatting(3DGS)の初期応用は、モノクロビデオストリームからの高品質なボリューム再構成の生成を示している。 しかし、これらの有望な進歩にもかかわらず、現在の3DGSの統合により、従来のVSLAMに比べてトラッキング性能が低下し、動作速度が低下している。 これらの課題に対処するために,モノクロ光度SLAMシステムであるDirect Sparse Odometryと3DGSを統合することを提案する。 我々は, 直接スパースオドメトリーを用いて, 標準構造と対照的に, 高品質なレンダリングを実現するのに必要なトレーニング時間を著しく短縮することを示す予備実験を行った。 3DGSのトレーニング時間を短縮することで,モバイルハードウェア上でリアルタイムに動作する3DGS統合SLAMシステムの開発が可能になる。 これらの有望な初期の発見は、従来のVSLAMシステムと3DGSを組み合わせたさらなる探査が保証されていることを示唆している。

Initial applications of 3D Gaussian Splatting (3DGS) in Visual Simultaneous Localization and Mapping (VSLAM) demonstrate the generation of high-quality volumetric reconstructions from monocular video streams. However, despite these promising advancements, current 3DGS integrations have reduced tracking performance and lower operating speeds compared to traditional VSLAM. To address these issues, we propose integrating 3DGS with Direct Sparse Odometry, a monocular photometric SLAM system. We have done preliminary experiments showing that using Direct Sparse Odometry point cloud outputs, as opposed to standard structure-from-motion methods, significantly shortens the training time needed to achieve high-quality renders. Reducing 3DGS training time enables the development of 3DGS-integrated SLAM systems that operate in real-time on mobile hardware. These promising initial findings suggest further exploration is warranted in combining traditional VSLAM systems with 3DGS.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# モバイルアプリのアクセシビリティ問題に対する自動コード修正の提案

Automated Code Fix Suggestions for Accessibility Issues in Mobile Apps ( http://arxiv.org/abs/2408.03827v1 )

ライセンス: Link先を確認
Forough Mehralian, Titus Barik, Jeff Nichols, Amanda Swearngin, (参考訳) アクセシビリティは、包括的アプリケーションのユーザビリティにとって不可欠だが、開発者がアプリケーションアクセシビリティの問題を特定し、修正するのに苦労するのは、認識の欠如、専門知識の欠如、不十分なツールのためである。 現在のアクセシビリティテストツールはアクセシビリティの問題を特定することができるが、それに対応するためのガイダンスを提供するとは限らない。 自動アクセシビリティスキャナによって検出されたアクセシビリティ問題に対して,ソースコードの修正を提案するための自動ツールであるFixAllyを紹介する。 FixAllyでは、修正戦略の生成、ソースコード内の問題のローカライズ、アクセシビリティ問題を修正するためのコード修正提案など、マルチエージェントのLLMアーキテクチャを採用している。 当社の実証調査では、アクセシビリティスキャナーが発見した問題の解決 -- 妥当な修正提案の生成に有効性の77% -- を提案中のFixAllyの能力が実証されており、iOS開発者12人の調査では、評価済みの修正提案の69.4%を受理する意思があることが判明した。

Accessibility is crucial for inclusive app usability, yet developers often struggle to identify and fix app accessibility issues due to a lack of awareness, expertise, and inadequate tools. Current accessibility testing tools can identify accessibility issues but may not always provide guidance on how to address them. We introduce FixAlly, an automated tool designed to suggest source code fixes for accessibility issues detected by automated accessibility scanners. FixAlly employs a multi-agent LLM architecture to generate fix strategies, localize issues within the source code, and propose code modification suggestions to fix the accessibility issue. Our empirical study demonstrates FixAlly's capability in suggesting fixes that resolve issues found by accessibility scanners -- with an effectiveness of 77% in generating plausible fix suggestions -- and our survey of 12 iOS developers finds they would be willing to accept 69.4% of evaluated fix suggestions.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# ランダム回路における相互情報ゆらぎと非安定化器性

Mutual information fluctuations and non-stabilizerness in random circuits ( http://arxiv.org/abs/2408.03831v1 )

ライセンス: Link先を確認
Arash Ahmadi, Jonas Helsen, Cagan Karaca, Eliska Greplova, (参考訳) 量子技術の出現は、量子資源のキャラクタリゼーションや、量子プロセスの古典的なシミュラビリティに多くの注目を集めている。 非安定化器性によって定量化される量子資源は、ある理論的アプローチにおいてエントロピックな単調関数の族に結びついている。 本研究では、エントロピーに基づく量子化器のゆらぎを用いた非安定化器性と情報スクランブルの関係を解析的および数値的に実証する。 具体的には、ランダム量子回路によって生じる非安定化性は、相互情報のゆらぎに比例する。 さらに, 測定誘起絡み合い相転移における非安定化剤の役割について検討した。 非安定化度の増加に伴い, 相互情報の変動が減少し, 遷移点の同定が容易になる可能性が示唆された。 我々の研究は、量子資源理論、情報スクランブルおよび測定誘起絡み合い相転移の間の鍵となる接続を確立する。

The emergence of quantum technologies has brought much attention to the characterization of quantum resources as well as the classical simulatability of quantum processes. Quantum resources, as quantified by non-stabilizerness, have in one theoretical approach been linked to a family of entropic, monotonic functions. In this work, we demonstrate both analytically and numerically a simple relationship between non-stabilizerness and information scrambling using the fluctuations of an entropy-based quantifier. Specifically, we find that the non-stabilizerness generated by a random quantum circuit is proportional to fluctuations of mutual information. Furthermore, we explore the role of non-stabilizerness in measurement-induced entanglement phase transitions. We find that the fluctuations of mutual information decrease with increasing non-stabilizerness yielding potentially easier identification of the transition point. Our work establishes a key connection between quantum resource theory, information scrambling and measurement-induced entanglement phase transitions.
翻訳日:2024-08-08 12:54:35 公開日:2024-08-07
# 視覚言語モデルを用いた情報抽出のためのターゲットプロンプト

Target Prompting for Information Extraction with Vision Language Model ( http://arxiv.org/abs/2408.03834v1 )

ライセンス: Link先を確認
Dipankar Medhi, (参考訳) 近年のLarge Vision and Language Modelのトレンドは、情報抽出システムの構築方法に新たな変化をもたらした。 VLMは、文書の理解と様々な産業における質問応答システムの構築において、最先端技術を使った新しいベンチマークを作成した。 それらは文書画像からテキストを生成し、質問に対する正確な回答を提供するのに非常に優れている。 しかし、これらのモデルを効果的に活用して正確な会話システムを構築するには、まだいくつかの課題がある。 大きな言語モデルで使用される一般的なプロンプト技術は、これらの特別に設計された視覚言語モデルには適さないことが多い。 このような汎用的な入力プロンプトによって生成される出力は、通常であり、文書の実際の内容と比較して情報ギャップを含むことができる。 より正確で具体的な回答を得るためには、文書画像とともに視覚言語モデルによって適切なプロンプトが要求される。 本稿では,文書画像の特定部分を明示的にターゲット化し,特定の領域からのみ関連回答を生成するTarget promptingという手法について論じる。 また,異なるユーザクエリと入力プロンプトを用いて,各プロンプト技術に対する応答の評価を行った。

The recent trend in the Large Vision and Language model has brought a new change in how information extraction systems are built. VLMs have set a new benchmark with their State-of-the-art techniques in understanding documents and building question-answering systems across various industries. They are significantly better at generating text from document images and providing accurate answers to questions. However, there are still some challenges in effectively utilizing these models to build a precise conversational system. General prompting techniques used with large language models are often not suitable for these specially designed vision language models. The output generated by such generic input prompts is ordinary and may contain information gaps when compared with the actual content of the document. To obtain more accurate and specific answers, a well-targeted prompt is required by the vision language model, along with the document image. In this paper, a technique is discussed called Target prompting, which focuses on explicitly targeting parts of document images and generating related answers from those specific regions only. The paper also covers the evaluation of response for each prompting technique using different user queries and input prompts.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# WalledEval: 大規模言語モデルのための総合的安全評価ツールキット

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models ( http://arxiv.org/abs/2408.03837v1 )

ライセンス: Link先を確認
Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria, (参考訳) WalledEvalは、大規模な言語モデル(LLM)を評価するために設計された、包括的なAI安全テストツールキットである。 オープンウェイトとAPIベースのモデルを含むさまざまなモデルに対応しており、多言語安全性、誇張された安全性、インジェクションのプロンプトといった領域をカバーする35以上の安全ベンチマークを備えている。 このフレームワークは LLM とジャッジベンチマークの両方をサポートし、カスタムミュータを組み込んで、将来の時制やパラフレーズなど、さまざまなテキストスタイルの変異に対する安全性をテストする。 さらに、WalledEvalは、新しく、小さく、パフォーマンスの高いコンテンツモデレーションツールであるWalledGuardと、文化的文脈における誇張された安全性を評価するベンチマークであるSGXSTestを導入した。 WalledEvalをhttps://github.com/walledai/walledevalA.comで公開しています。

WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledevalA.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 距離センサを用いた平面表面の偏差検出

Using a Distance Sensor to Detect Deviations in a Planar Surface ( http://arxiv.org/abs/2408.03838v1 )

ライセンス: Link先を確認
Carter Sifferman, William Sun, Mohit Gupta, Michael Gleicher, (参考訳) 平面表面が幾何学的偏差(例えば、突起、物体、ディボット、崖)を含むかどうかを、小型の光時間センサから瞬時に測定しただけで判定する方法を検討する。 本手法の鍵となるのは,オフザシェルフ距離センサで捉えた生の飛行時間データに符号化された全情報の活用である。 我々は、幾何学と表面測光の鍵となるあいまいさを識別する問題を解析する。 この難易度を克服するために、ガウス混合モデルと平面面測定の小さなデータセットをマッチングする。 このモデルは、平面面の望まれる幾何と測光の分布を暗黙的に捉え、偏差を含む可能性のある測定を識別するために用いられる。 本手法は,様々なシナリオにまたがる様々な面と平面の偏差を特徴付ける。 提案手法は, 飛行時間データを用いた場合, 導出距離推定のみを用いるベースラインよりも優れることがわかった。 本研究では,移動ロボットの障害物や崖回避を広い視野で実現するための実例を構築した。

We investigate methods for determining if a planar surface contains geometric deviations (e.g., protrusions, objects, divots, or cliffs) using only an instantaneous measurement from a miniature optical time-of-flight sensor. The key to our method is to utilize the entirety of information encoded in raw time-of-flight data captured by off-the-shelf distance sensors. We provide an analysis of the problem in which we identify the key ambiguity between geometry and surface photometrics. To overcome this challenging ambiguity, we fit a Gaussian mixture model to a small dataset of planar surface measurements. This model implicitly captures the expected geometry and distribution of photometrics of the planar surface and is used to identify measurements that are likely to contain deviations. We characterize our method on a variety of surfaces and planar deviations across a range of scenarios. We find that our method utilizing raw time-of-flight data outperforms baselines which use only derived distance estimates. We build an example application in which our method enables mobile robot obstacle and cliff avoidance over a wide field-of-view.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# MaxMind: 大規模言語モデルに基づくソフトウェア生産性向上のためのメモリループネットワーク

MaxMind: A Memory Loop Network to Enhance Software Productivity based on Large Language Models ( http://arxiv.org/abs/2408.03841v1 )

ライセンス: Link先を確認
Yuchen Dong, XiaoXiang Fang, Yuchen Hu, Renshuang Jiang, Zhe Jiang, (参考訳) ソフトウェアの自動操作とツール生成(SOTG)を促進するための大きな言語モデルの適用により、ソフトウェア生産性が向上し、ツールの作成と使用能力が文明の進展を加速するときに、人間の進化の初期段階が反映される。 これらの複雑なタスクは、AIが継続的に要約し、改善する必要がある。 現在の研究では、リアルタイムタスク体験をシステムメモリに変換し、将来の参照のために既存の知識の価値を区別することの重要性をしばしば見落としている。 本稿では、メモリモデルからメモリループネットワークへ進化させ、タイムリーな記憶と体験参照を実現することにより、これらの課題に対処する。 また,知識精度セグメンテーションによるRAG機構を強化して,値の微分に基づくメモリ利用を実現し,それに応じてSOTGのMaxMindモデルを設計し,MaxMindの原理に沿った電子スプレッドシート処理システムであるMaxMind4Sheetを開発した。 SheetCopilotとの比較実験により、タスクメモリの蓄積とリサイクルがタスク成功率の着実に向上し、この実装例では1ラウンドあたり約3%-6%の改善率が示されている。 記憶が成長し続けるにつれて、この累積的な改善は重大なものとなるかもしれない。 また, メモリ再資源化により, タスク実行効率が最大25%向上し, メモリ転送による特殊タスク処理において, LLMが直面する再訓練問題に対処できる可能性が示唆された。

The application of large language models to facilitate automated software operations and tool generation (SOTG), thus augmenting software productivity, mirrors the early stages of human evolution when the ability to create and use tools accelerated the progress of civilization. These complex tasks require AI to continuously summarize and improve. Current research often overlooks the importance of converting real-time task experiences into system memory and differentiating the value of existing knowledge for future reference. This paper addresses these issues by evolving external memory models into Memory-Loop Networks for timely memorization and experience referencing. We also enhance a RAG mechanism with knowledge precision segmentation to utilize memory based on value differentiation, and design the MaxMind model for SOTG accordingly.To demonstrate our approach, we developed MaxMind4Sheet, an electronic spreadsheet processing system aligned with the MaxMind philosophy. Comparative experiments with SheetCopilot have demonstrated that the accumulation and recycling of task memories lead to a steady enhancement in task success rate, with an improvement rate of approximately 3%-6% per round in this implementation example. Note that as the memories continue to grow, this cumulative improvement may be substantial. The inclusion of memory recycling can also boost the system's task execution efficiency by up to 25%, and it can address the retraining issue faced by LLMs when handling specialized tasks through memories transfer.These suggest that MaxMind has significant potential to enhance the capabilities and productivity of LLM systems in SOTG.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 学習画像圧縮のための双方向空間・チャネル認識変換器

Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression ( http://arxiv.org/abs/2408.03842v1 )

ライセンス: Link先を確認
Hamidreza Soltani, Erfan Ghasemi, (参考訳) 近年の学習画像圧縮(lic)法は,従来の手作りコーデックよりも優れた性能を示した。 これらの学習ベースの手法では、畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのアーキテクチャを用いることが多い。 しかし、これらの非線形アプローチは、圧縮効率を制限する画像の周波数特性をしばしば見落としている。 そこで本研究では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。 提案手法は,空間ベース分岐がアテンション層における高周波および低周波を独立に処理するHSCATB(Hybrid spatial-Channel Attention Transformer Block)と,チャネル間の情報収集を行うCaSA(Channel Self-Attention)モジュールを統合し,圧縮性能を著しく向上する。 さらに、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、効率的な圧縮に欠かせない多種多様な情報抽出を強化する。 これらの革新は、データをより非相関な潜在空間に投影する変換の能力を大幅に向上させ、全体的な圧縮効率を向上させる。 実験結果から,我々のフレームワークは速度歪み性能において最先端のlicメソッドを超越していることが示された。

Recent advancements in learned image compression (LIC) methods have demonstrated superior performance over traditional hand-crafted codecs. These learning-based methods often employ convolutional neural networks (CNNs) or Transformer-based architectures. However, these nonlinear approaches frequently overlook the frequency characteristics of images, which limits their compression efficiency. To address this issue, we propose a novel Transformer-based image compression method that enhances the transformation stage by considering frequency components within the feature map. Our method integrates a novel Hybrid Spatial-Channel Attention Transformer Block (HSCATB), where a spatial-based branch independently handles high and low frequencies at the attention layer, and a Channel-aware Self-Attention (CaSA) module captures information across channels, significantly improving compression performance. Additionally, we introduce a Mixed Local-Global Feed Forward Network (MLGFFN) within the Transformer block to enhance the extraction of diverse and rich information, which is crucial for effective compression. These innovations collectively improve the transformation's ability to project data into a more decorrelated latent space, thereby boosting overall compression efficiency. Experimental results demonstrate that our framework surpasses state-of-the-art LIC methods in rate-distortion performance.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 深層学習によるアンハリックテキストのヘイト音声検出と分類

Hate Speech Detection and Classification in Amharic Text with Deep Learning ( http://arxiv.org/abs/2408.03849v1 )

ライセンス: Link先を確認
Samuel Minale Gashe, Seid Muhie Yimam, Yaregal Assabie, (参考訳) ヘイトスピーチはソーシャルメディアでますます問題になっている。 社会、特にエチオピアでは、多様な民族や宗教集団間の紛争を引き起こす可能性がある。 リソースリッチ言語におけるヘイトスピーチの検出が進んでいる一方で、Amharicのような低リソース言語では不足している。 このギャップに対処するため、Amharic hate speech dataとSBi-LSTMディープラーニングモデルを開発し、テキストを人種、宗教、ジェンダー、非ヘイトスピーチの4つのカテゴリに分類する。 われわれは5k Amharicのソーシャルメディア投稿とコメントデータを4つのカテゴリに分類した。 データは、100人のネイティブなAmharicスピーカーによってカスタムアノテーションツールを使用して注釈付けされる。 このモデルは94.8F1スコアのパフォーマンスを達成した。 今後の改善には、データセットの拡大と最先端のアートモデルの開発が含まれる。 キーワード:Amharic hate speech detection, classification, Amharic dataset, Deep Learning, SBi-LSTM

Hate speech is a growing problem on social media. It can seriously impact society, especially in countries like Ethiopia, where it can trigger conflicts among diverse ethnic and religious groups. While hate speech detection in resource rich languages are progressing, for low resource languages such as Amharic are lacking. To address this gap, we develop Amharic hate speech data and SBi-LSTM deep learning model that can detect and classify text into four categories of hate speech: racial, religious, gender, and non-hate speech. We have annotated 5k Amharic social media post and comment data into four categories. The data is annotated using a custom annotation tool by a total of 100 native Amharic speakers. The model achieves a 94.8 F1-score performance. Future improvements will include expanding the dataset and develop state-of-the art models. Keywords: Amharic hate speech detection, classification, Amharic dataset, Deep Learning, SBi-LSTM
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# トランスフォーマーが明らかに言語モデルである理由

Why transformers are obviously good models of language ( http://arxiv.org/abs/2408.03855v1 )

ライセンス: Link先を確認
Felix Hill, (参考訳) 言語がどのように機能するかは誰も知らないが、多くの理論がある。 トランスフォーマー(Transformer)は、ニューラルネットワークの他の(より象徴的な)メカニズムに依存するものよりも、言語を自動で処理するタイプのニューラルネットワークである。 ここでは、トランスアーキテクチャと言語に関するある種の理論的視点との直接的な関係を強調します。 代替モデルに対するトランスフォーマーの実証的な成功は、トランスフォーマーを具現化する言語的アプローチが、少なくとも言語学的コミュニティによってより精査され、そしてせいぜい、現在最もよく利用可能な理論であると考えられる、という状況証拠を提供する。

Nobody knows how language works, but many theories abound. Transformers are a class of neural networks that process language automatically with more success than alternatives, both those based on neural computations and those that rely on other (e.g. more symbolic) mechanisms. Here, I highlight direct connections between the transformer architecture and certain theoretical perspectives on language. The empirical success of transformers relative to alternative models provides circumstantial evidence that the linguistic approaches that transformers embody should be, at least, evaluated with greater scrutiny by the linguistics community and, at best, considered to be the currently best available theories.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# PackMamba: マンバトレーニングにおける可変長シーケンスの効率的な処理

PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training ( http://arxiv.org/abs/2408.03865v1 )

ライセンス: Link先を確認
Haoran Xu, Ziqian Liu, Rong Fu, Zhongling Su, Zerui Wang, Zheng Cai, Zhilin Pei, Xingcheng Zhang, (参考訳) 大規模言語モデルの進化に伴い、従来のトランスフォーマーモデルは、列長に関する計算の二次的な成長により、長大なシーケンスを計算的に要求するようになる。 Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、計算とメモリの複雑さを減らして、長いシーケンスを扱うのに顕著な習熟度を示している。 それでも、Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。 単一シーケンスのトレーニングの結果、GPU使用率が低くなるか、最大長までの可変長シーケンスのバッチ処理によって、かなりのメモリと計算オーバーヘッドが発生する。 この問題を解決するために,様々なテンソル形状のマンバにおけるボトルネック演算子の性能を解析し,可変長列を効率的に処理する高スループットマンバであるPackMambaを提案する。 状態空間モデル(SSM)に深く入り込み、並列演算子を変更して、高い性能を維持しながら、個々のシーケンス間での情報伝達を回避する。 NVIDIA A100 GPUの実験結果は、ベースラインの単一シーケンス処理スキームを超えるスループットを示す:1.4Bモデルでは3.06倍、2.8Bモデルでは2.62倍である。

With the evolution of large language models, traditional Transformer models become computationally demanding for lengthy sequences due to the quadratic growth in computation with respect to the sequence length. Mamba, emerging as a groundbreaking architecture in the field of generative AI, demonstrates remarkable proficiency in handling elongated sequences with reduced computational and memory complexity. Nevertheless, the existing training framework of Mamba presents inefficiency with variable-length sequence inputs. Either single-sequence training results in low GPU utilization, or batched processing of variable-length sequences to a maximum length incurs considerable memory and computational overhead. To address this problem, we analyze the performance of bottleneck operators in Mamba under diverse tensor shapes and proposed PackMamba, a high-throughput Mamba that efficiently handles variable-length sequences. Diving deep into state-space models (SSMs), we modify the parallel operators to avoid passing information between individual sequences while maintaining high performance. Experimental results on an NVIDIA A100 GPU demonstrate throughput exceeding the baseline single-sequence processing scheme: 3.06x speedup on the 1.4B model and 2.62x on the 2.8B model.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 外科的位相認識のための階層的時間的注意を伴う外科用変圧器

Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition ( http://arxiv.org/abs/2408.03867v1 )

ライセンス: Link先を確認
Shu Yang, Luyang Luo, Qiong Wang, Hao Chen, (参考訳) 既存の最先端の位相認識法は、短距離時間分解能における空間的特徴の抽出に依存するか、時間分解能全体にわたって空間的特徴と時間的特徴の逐次抽出を採用するかのいずれかである。 しかし、これらの手法は空間的時間的依存性のモデル化と空間的時間的冗長性への対処に限界がある。 1) これらの手法は, 長距離情報や共同空間時間モデルが欠如しているため, 空間時間依存性を効果的にモデル化することができない。 2) これらの手法は時間分解能全体にわたって密集した空間的特徴を利用しており,空間的・時間的冗長性が顕著である。 本稿では,空間的時間的注意を分割し,スパースフレームを入力として,空間的時間的モデリングと冗長性の問題に対処する手術用トランスフォーマー(サージフォーマー)を提案する。 さらに,HTA(Hierarchical Temporal Attention, 階層的時間注意)を提案する。 HTAは、主に密集した長距離類似性を強調する従来の時間的注意と異なり、長期情報をキャプチャするだけでなく、情報フレーム間の局所的な潜時一貫性も考慮している。 HTAはピラミッドの特徴集約を用いて、様々な時間分解能の時間情報を効果的に活用し、全体的な時間表現を強化する。 2つの挑戦的なベンチマークデータセットに対する大規模な実験により、提案したSurgformerが最先端の手法に対して好適に動作することを確認した。 コードはhttps://github.com/isyangshu/Surgformer.comで公開されている。

Existing state-of-the-art methods for surgical phase recognition either rely on the extraction of spatial-temporal features at a short-range temporal resolution or adopt the sequential extraction of the spatial and temporal features across the entire temporal resolution. However, these methods have limitations in modeling spatial-temporal dependency and addressing spatial-temporal redundancy: 1) These methods fail to effectively model spatial-temporal dependency, due to the lack of long-range information or joint spatial-temporal modeling. 2) These methods utilize dense spatial features across the entire temporal resolution, resulting in significant spatial-temporal redundancy. In this paper, we propose the Surgical Transformer (Surgformer) to address the issues of spatial-temporal modeling and redundancy in an end-to-end manner, which employs divided spatial-temporal attention and takes a limited set of sparse frames as input. Moreover, we propose a novel Hierarchical Temporal Attention (HTA) to capture both global and local information within varied temporal resolutions from a target frame-centric perspective. Distinct from conventional temporal attention that primarily emphasizes dense long-range similarity, HTA not only captures long-term information but also considers local latent consistency among informative frames. HTA then employs pyramid feature aggregation to effectively utilize temporal information across diverse temporal resolutions, thereby enhancing the overall temporal representation. Extensive experiments on two challenging benchmark datasets verify that our proposed Surgformer performs favorably against the state-of-the-art methods. The code is released at https://github.com/isyangshu/Surgformer.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# TAC-2023のPLABAトラックにおけるBeeManc: バイオメディカルテキストの可読性向上のためのLCMと制御可能な属性の調査

BeeManc at the PLABA Track of TAC-2023: Investigating LLMs and Controllable Attributes for Improving Biomedical Text Readability ( http://arxiv.org/abs/2408.03871v1 )

ライセンス: Link先を確認
Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic, (参考訳) 本報告では,TAC 2023トラックの一部として,生物医学的抽象的単純化に関するPLABA2023タスクへの参加に使用したモデルと手法について述べる。 私たちが提出したシステム出力は以下の3つのカテゴリから成り立っている。 1)Biomedical-T5及びLay-SciFiveを含むドメイン微調整T5様モデル 2) BART-w-CTによる制御可能な属性を持つ微調整BARTLargeモデル 3) ChatGPTプロンプト。 また,この課題に対して実施したBioGPTファインタニングについて述べる。 SARIスコアを用いた公式な自動評価では、BeeMancは全チームで2位、モデルとしてLaySciFiveは13のシステムで3位でした。 公式評価では,BART-w-CTが第2位,第3位,第3位,第3位,第3位,第2位,第2位,第2位,第3位,第3位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第2位,第3位,第2位,第2位,第2位,第2位,第2位,第3位,第2位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第3位,第 第2回の提出では,ChatGPT-prompting を用いたチームは,簡易項精度スコア 92.26 と完全度スコア 96.58,忠実度スコア 95.3 と非常によく似たスコア PLABA-base-1 (95.73) の2位にランクインした。 私たちのコード、微調整されたモデル、プロンプト、システム開発段階からのデータ分割はhttps://github.com/HECTA-UoM/PLABA-MUで利用可能です。

In this system report, we describe the models and methods we used for our participation in the PLABA2023 task on biomedical abstract simplification, part of the TAC 2023 tracks. The system outputs we submitted come from the following three categories: 1) domain fine-tuned T5-like models including Biomedical-T5 and Lay-SciFive; 2) fine-tuned BARTLarge model with controllable attributes (via tokens) BART-w-CTs; 3) ChatGPTprompting. We also present the work we carried out for this task on BioGPT finetuning. In the official automatic evaluation using SARI scores, BeeManc ranks 2nd among all teams and our model LaySciFive ranks 3rd among all 13 evaluated systems. In the official human evaluation, our model BART-w-CTs ranks 2nd on Sentence-Simplicity (score 92.84), 3rd on Term-Simplicity (score 82.33) among all 7 evaluated systems; It also produced a high score 91.57 on Fluency in comparison to the highest score 93.53. In the second round of submissions, our team using ChatGPT-prompting ranks the 2nd in several categories including simplified term accuracy score 92.26 and completeness score 96.58, and a very similar score on faithfulness score 95.3 to re-evaluated PLABA-base-1 (95.73) via human evaluations. Our codes, fine-tuned models, prompts, and data splits from the system development stage will be available at https://github.com/ HECTA-UoM/PLABA-MU
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# シリーズ間トランス: 時系列予測における製品への取り組み

Inter-Series Transformer: Attending to Products in Time Series Forecasting ( http://arxiv.org/abs/2408.03872v1 )

ライセンス: Link先を確認
Rares Cristian, Pavithra Harsha, Clemente Ocejo, Georgia Perakis, Brian Quanz, Ioannis Spantidakis, Hamza Zerhouni, (参考訳) 時系列予測はサプライチェーン管理から天気予報に至るまで,多くの分野において重要な課題である。 最近、Transformerのニューラルネットワークアーキテクチャは、一般的な時系列ベンチマークデータセットの予測に有望な結果を示している。 しかし、スパーシリティやクロスシリーズ効果といった困難な特徴を持つサプライチェーン需要予測への応用は限定されている。 本研究では,トランスフォーマーモデルを用いたチェーン需要予測への適用について検討する。 特に,複数タスク毎の時系列ネットワークを共用したTransformerベースの新しい予測手法を開発した。 医療機器製造会社における需要予測の改善に本手法を適用したケーススタディを提案する。 このアプローチをさらに検証するために、パブリックおよびパブリックデータセット全体にわたるさまざまなベースラインおよび最先端予測手法と比較して、需要予測データセットにも適用し、優れたパフォーマンスに対して競争力を示す。

Time series forecasting is an important task in many fields ranging from supply chain management to weather forecasting. Recently, Transformer neural network architectures have shown promising results in forecasting on common time series benchmark datasets. However, application to supply chain demand forecasting, which can have challenging characteristics such as sparsity and cross-series effects, has been limited. In this work, we explore the application of Transformer-based models to supply chain demand forecasting. In particular, we develop a new Transformer-based forecasting approach using a shared, multi-task per-time series network with an initial component applying attention across time series, to capture interactions and help address sparsity. We provide a case study applying our approach to successfully improve demand prediction for a medical device manufacturing company. To further validate our approach, we also apply it to public demand forecasting datasets as well and demonstrate competitive to superior performance compared to a variety of baseline and state-of-the-art forecast methods across the private and public datasets.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 医師と医師の対話による個人化臨床ノートの作成

Personalized Clinical Note Generation from Doctor-Patient Conversations ( http://arxiv.org/abs/2408.03874v1 )

ライセンス: Link先を確認
Nathan Brake, Thomas Schaaf, (参考訳) そこで本研究では,医師のための手書き臨床ノートの品質向上のための新しい手法を提案する。 このテクニックは、暗黙の医師の会話スタイルとノートの好みをモデル化する能力に集中している。 また, 患者支援モデルの再訓練を必要とせず, 医師との会話に合わせた限られた数の臨床ノートが手に入る場合に, 新規医院入学のための新しい手法を導入する。 本手法は,現在の病歴項目のROUGE-2スコアを13.8%,身体検査項目を88.6%,アセスメント・アンド・プラン項目を50.8%改善し,ベースラインモデルより優れていることを示す。

In this work, we present a novel technique to improve the quality of draft clinical notes for physicians. This technique is concentrated on the ability to model implicit physician conversation styles and note preferences. We also introduce a novel technique for the enrollment of new physicians when a limited number of clinical notes paired with conversations are available for that physician, without the need to re-train a model to support them. We show that our technique outperforms the baseline model by improving the ROUGE-2 score of the History of Present Illness section by 13.8%, the Physical Examination section by 88.6%, and the Assessment & Plan section by 50.8%.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# グラフ表現学習のための知識探索

Knowledge Probing for Graph Representation Learning ( http://arxiv.org/abs/2408.03877v1 )

ライセンス: Link先を確認
Mingyu Zhao, Xingyu Huang, Ziyu Lyu, Yanlin Wang, Lixin Cui, Lu Bai, (参考訳) グラフ学習法は様々な応用分野に広く応用されている。 しかし、グラフ構造情報はグラフ表現学習に符号化され、下流のタスクはいまだに探索されていない。 本稿では,グラフ表現学習において,グラフ学習手法のファミリーが異なるレベルの知識を符号化したかどうかを調査・解釈するための新しいグラフ探索フレームワーク(GraphProbe)を提案する。 グラフの本質的な性質に基づいて,グラフ表現学習過程を異なる視点から,それぞれノードレベル,パスレベル,構造レベルから体系的に研究する3つのプローブを設計する。 本研究では、ランダムウォークに基づく9つの代表的なグラフ学習手法、基本グラフニューラルネットワーク、自己教師付きグラフ手法を用いて、詳細な評価ベンチマークを構築し、ノード分類、リンク予測、グラフ分類のための6つのベンチマークデータセットでそれらを探索する。 実験により,GraphProbeがグラフ表現学習の能力を推定できることが確認された。 GCNとWeightedGCNメソッドは、異なるタスクに関してより良い結果を得るための比較的汎用的な方法である。

Graph learning methods have been extensively applied in diverse application areas. However, what kind of inherent graph properties e.g. graph proximity, graph structural information has been encoded into graph representation learning for downstream tasks is still under-explored. In this paper, we propose a novel graph probing framework (GraphProbe) to investigate and interpret whether the family of graph learning methods has encoded different levels of knowledge in graph representation learning. Based on the intrinsic properties of graphs, we design three probes to systematically investigate the graph representation learning process from different perspectives, respectively the node-wise level, the path-wise level, and the structural level. We construct a thorough evaluation benchmark with nine representative graph learning methods from random walk based approaches, basic graph neural networks and self-supervised graph methods, and probe them on six benchmark datasets for node classification, link prediction and graph classification. The experimental evaluation verify that GraphProbe can estimate the capability of graph representation learning. Remaking results have been concluded: GCN and WeightedGCN methods are relatively versatile methods achieving better results with respect to different tasks.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 立方体酸化物中の2次元リドバーグエキシトンアレイのボトムアップ加工

Bottom-up Fabrication of 2D Rydberg Exciton Arrays in Cuprous Oxide ( http://arxiv.org/abs/2408.03880v1 )

ライセンス: Link先を確認
Kinjol Barua, Samuel Peana, Arya Deepak Keni, Vahagn Mkhitaryan, Vladimir Shalaev, Yong P. Chen, Alexandra Boltasseva, Hadiseh Alaeian, (参考訳) ソリッドステートプラットフォームは、結合、スケーラビリティ、堅牢性を通じて相互作用の強みを強化することで、オンチップ量子技術を前進させる特別な機会を提供する。 クトース酸化物(\text{Cu}_{2}\text{O}$)は、水素原子に類似した高密度のリドベルク励起状態のため、スケーラブルな量子技術のための有望な媒体として最近登場した。 量子応用にこれらの非線形性を利用するためには、閉じ込め次元は、数ミクロンの$\text{Cu}_{2}\text{O}$に到達できるリドベルク封鎖サイズと一致しなければならない。 本研究では, CMOS互換成長法を用いて, $\text{Cu}_{2}\text{O}$マイクロ粒子のサイト選択配列のボトムアップ加工を実証する。 我々は、これらの石英基板上の配列内の主量子数 $n$=5 まで、Rydberg の励起子を観察し、それらのスペクトルの空間的変動を分析し、大きなチップ上での堅牢性と再現性を示した。 これらの結果は、フォトニック構造を中心とした$\text{Cu}_{2}\text{O}$の決定論的成長の基礎となり、集積フォトニックプラットフォーム上での相当な光-物質相互作用を可能にし、スケーラブルでオンチップの量子デバイスへの道を開いた。

Solid-state platforms provide exceptional opportunities for advancing on-chip quantum technologies by enhancing interaction strengths through coupling, scalability, and robustness. Cuprous oxide ($\text{Cu}_{2}\text{O}$) has recently emerged as a promising medium for scalable quantum technology due to its high-lying Rydberg excitonic states, akin to those in hydrogen atoms. To harness these nonlinearities for quantum applications, the confinement dimensions must match the Rydberg blockade size, which can reach several microns in $\text{Cu}_{2}\text{O}$. Using a CMOS-compatible growth technique, this study demonstrates the bottom-up fabrication of site-selective arrays of $\text{Cu}_{2}\text{O}$ microparticles. We observed Rydberg excitons up to the principal quantum number $n$=5 within these $\text{Cu}_{2}\text{O}$ arrays on a quartz substrate and analyzed the spatial variation of their spectrum across the array, showing robustness and reproducibility on a large chip. These results lay the groundwork for the deterministic growth of $\text{Cu}_{2}\text{O}$ around photonic structures, enabling substantial light-matter interaction on integrated photonic platforms and paving the way for scalable, on-chip quantum devices.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# ブラインド画像品質評価のためのグローバルローカルプログレッシブ統合ネットワーク

Global-Local Progressive Integration Network for Blind Image Quality Assessment ( http://arxiv.org/abs/2408.03885v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Yun Zhang, (参考訳) ビジョントランスフォーマー(ViT)は、長期的な依存関係をモデル化するためのコンピュータビジョンに優れるが、画像品質評価(IQA)には2つの重要な課題に直面している。 本研究では,GlintIQAと呼ばれるIQAのためのグローバルローカルプログレッシブインテグレーションネットワークを提案する。 1) ハイブリッド特徴抽出は,VTに基づくグローバル特徴抽出器(VGFE)と畳み込みニューラルネットワーク(CNN)に基づく局所特徴抽出器(CLFE)を組み合わせて,大域的粗粒度特徴と局所的細粒度特徴を抽出する。 CNNの組み込みは、ViTアーキテクチャ固有のパッチレベルの情報損失と帰納的バイアス制約を緩和する。 2) プログレッシブ機能統合は, 埋め込みにおけるカーネルサイズを多様に活用し, 粗い, きめ細かな特徴を空間的に整列させ, チャンネルワイドアテンションと空間拡張モジュールを相互に積み重ねて, 効果的な品質認識表現を構築することで, これらの特徴を段階的に集約する。 3)コンテンツ類似度に基づくラベル付け手法を提案する。 これは、合成データセットとボルスターモデル一般化におけるラベル付きトレーニングデータの不足に対処する。 実験の結果,提案手法の有効性が示され,SROCCの平均利得は5.04%であった。 さらに,提案したデータセット上で事前学習したモデルでは,合成データセットの評価において,それぞれ5.40%と13.23%の改善が見られた。 コードと提案されたデータセットはhttps://github.com/XiaoqiWang/GlintIQA.comで公開される。

Vision transformers (ViTs) excel in computer vision for modeling long-term dependencies, yet face two key challenges for image quality assessment (IQA): discarding fine details during patch embedding, and requiring extensive training data due to lack of inductive biases. In this study, we propose a Global-Local progressive INTegration network for IQA, called GlintIQA, to address these issues through three key components: 1) Hybrid feature extraction combines ViT-based global feature extractor (VGFE) and convolutional neural networks (CNNs)-based local feature extractor (CLFE) to capture global coarse-grained features and local fine-grained features, respectively. The incorporation of CNNs mitigates the patch-level information loss and inductive bias constraints inherent to ViT architectures. 2) Progressive feature integration leverages diverse kernel sizes in embedding to spatially align coarse- and fine-grained features, and progressively aggregate these features by interactively stacking channel-wise attention and spatial enhancement modules to build effective quality-aware representations. 3) Content similarity-based labeling approach is proposed that automatically assigns quality labels to images with diverse content based on subjective quality scores. This addresses the scarcity of labeled training data in synthetic datasets and bolsters model generalization. The experimental results demonstrate the efficacy of our approach, yielding 5.04% average SROCC gains on cross-authentic dataset evaluations. Moreover, our model and its counterpart pre-trained on the proposed dataset respectively exhibited 5.40% and 13.23% improvements on across-synthetic datasets evaluation. The codes and proposed dataset will be released at https://github.com/XiaoqiWang/GlintIQA.
翻訳日:2024-08-08 12:44:51 公開日:2024-08-07
# 教師なし異常検出のための二重モデル分離蒸留法

Dual-Modeling Decouple Distillation for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2408.03888v1 )

ライセンス: Link先を確認
Xinyue Liu, Jianyuan Wang, Biao Leng, Shuo Zhang, (参考訳) 学生-教師ネットワークに基づく知識蒸留は、教師と学生のネットワークの表現能力の違いを利用して、異常な局所化を実装することによる、教師なしの異常検出タスクに挑戦する主要なソリューションパラダイムの1つである。 しかし、教師ネットワークへの学生ネットワークの過度な一般化は、異常の表現能力に無視できない違いをもたらし、検出の有効性に影響を及ぼす可能性がある。 既存の手法では, 生徒や教師を構造的視点から利用したり, コンテンツ的視点から蒸留情報を明示的に拡張することで, 生徒ネットワークの不適合の可能性が増大し, 異常中心やエッジにおける異常検出能力が低下する可能性がある。 本稿では,教師なし異常検出のためのDMDD(Dual-Modeling Deouple Distillation)を提案する。 DMDDでは、初等生の特徴を正規性と異常性の特徴に分離する2つの学生-教員ネットワークが提案されている。 さらに、異常画像の正常性特徴とそれに対応する正常画像の教師特徴とを適合させ、異常領域における異常特徴と教師特徴との距離を広げ、正常画像対に基づくデュアルモデル蒸留を導入する。 これら2つの蒸留のアイデアを合成し、異常の端と中心の両方に焦点をあてた異常検出を実現する。 最後に,マルチパーセプション・セグメンテーション・ネットワークを提案する。 MVTec AD実験の結果、DMDDは従来の知識蒸留法でSOTAのローカライゼーション性能を超え、ピクセルレベルのAUCでは98.85%、PROでは96.13%に達した。

Knowledge distillation based on student-teacher network is one of the mainstream solution paradigms for the challenging unsupervised Anomaly Detection task, utilizing the difference in representation capabilities of the teacher and student networks to implement anomaly localization. However, over-generalization of the student network to the teacher network may lead to negligible differences in representation capabilities of anomaly, thus affecting the detection effectiveness. Existing methods address the possible over-generalization by using differentiated students and teachers from the structural perspective or explicitly expanding distilled information from the content perspective, which inevitably result in an increased likelihood of underfitting of the student network and poor anomaly detection capabilities in anomaly center or edge. In this paper, we propose Dual-Modeling Decouple Distillation (DMDD) for the unsupervised anomaly detection. In DMDD, a Decouple Student-Teacher Network is proposed to decouple the initial student features into normality and abnormality features. We further introduce Dual-Modeling Distillation based on normal-anomaly image pairs, fitting normality features of anomalous image and the teacher features of the corresponding normal image, widening the distance between abnormality features and the teacher features in anomalous regions. Synthesizing these two distillation ideas, we achieve anomaly detection which focuses on both edge and center of anomaly. Finally, a Multi-perception Segmentation Network is proposed to achieve focused anomaly map fusion based on multiple attention. Experimental results on MVTec AD show that DMDD surpasses SOTA localization performance of previous knowledge distillation-based methods, reaching 98.85% on pixel-level AUC and 96.13% on PRO.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# Trncated Commutator を用いた主トロッター観測誤差

Principal Trotter Observation Error with Truncated Commutators ( http://arxiv.org/abs/2408.03891v1 )

ライセンス: Link先を確認
Langyu Li, (参考訳) ハミルトンシミュレーションは量子コンピュータの最も有望な応用の1つであり、積公式はこの目的のために最も重要な方法の1つである。 これまでの関連する作業は主に、最悪の$-$caseまたは平均$-$caseのシナリオに焦点を当ててきた。 本研究では, 一定の観測可能条件下でのシミュレーション誤差について考察する。 固定オブザーバブルの下では、このオブザーバブルで通勤するエラーはそれほど重要ではない。 この点を説明するために、観測誤差を観測可能の下での期待値として定義し、ベーカー$-$Campbell$-$Hausdorff公式を用いた可換性$-$ベース上限を与える。 高可換な可観測物の場合、この上限によって示されるシミュレーション誤差は著しく圧縮される。 ハイゼンベルクモデルを用いた実験では、観測境界は最近の通勤者境界と比べてトロッター数の半分近く圧縮する。 さらに, 進化系列が観察誤差に大きく影響していることが判明した。 シミュレーションアニーリングアルゴリズムを用いて,トラッター数のさらなる圧縮を実現するシーケンス最適化アルゴリズムを設計した。 水素分子ハミルトニアンの実験は、配列の最適化がトロッター数の約半分の減少につながることを示した。

Hamiltonian simulation is one of the most promising applications of quantum computers, and the product formula is one of the most important methods for this purpose. Previous related work has mainly focused on the worst$-$case or average$-$case scenarios. In this work, we consider the simulation error under a fixed observable. Under a fixed observable, errors that commute with this observable become less important. To illustrate this point, we define the observation error as the expectation under the observable and provide a commutativity$-$based upper bound using the Baker$-$Campbell$-$Hausdorff formula. For highly commuting observables, the simulation error indicated by this upper bound can be significantly compressed. In the experiment with the Heisenberg model, the observation bound compresses the Trotter number by nearly half compared to recent commutator bounds. Additionally, we found that the evolution sequence significantly affects the observation error. By utilizing a simulated annealing algorithm, we designed a sequence optimization algorithm, achieving further compression of the Trotter number. The experiment on the hydrogen molecule Hamiltonian demonstrates that optimizing the sequence can lead to nearly half the reduction in the Trotter number.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# MORTAR:AI対応サイバー物理システムのためのモデルベース実行時動作修復フレームワーク

MORTAR: A Model-based Runtime Action Repair Framework for AI-enabled Cyber-Physical Systems ( http://arxiv.org/abs/2408.03892v1 )

ライセンス: Link先を確認
Renzhi Wang, Zhehua Zhou, Jiayang Song, Xuan Xie, Xiaofei Xie, Lei Ma, (参考訳) CPS(Cyber-Physical Systems)は、ロボット操作から自律運転まで、さまざまな産業や日常生活領域で普及している。 近年の人工知能(AI)の発展に伴い、学習ベースのコンポーネント、特にAIコントローラは、CPSの機能と効率を高める上で欠かせないものとなっている。 しかし、これらのAIコントローラの解釈可能性の欠如は、AI対応CPS(AI-CPS)の安全性と品質保証に課題をもたらす。 AIコントローラの安全性を改善する既存の方法は、しばしばニューラルネットワークの修復を伴う。 したがって、これらの手法はブラックボックスポリシーの適用性に制限があり、操作中に入力と出力のみがアクセス可能である。 そこで本研究では,AI-CPS向けに設計された実行時動作修復フレームワークであるMORTARを提案する。 MORTARは、AIコントローラによって提案されるアクションの品質を予測する予測モデルの構築から始まる。 安全でないアクションが検出されると、MORTARは修正プロセスを開始する。 修正された動作の生成は、予測モデルからの安全性推定によって導かれる最適化プロセスによって達成される。 各種CPSタスクおよびAIコントローラにおけるMORTARの有効性を評価する。 その結果、MORTARは特定の安全仕様の下でAIコントローラのタスク完了率を効率的に改善できることを示した。 一方、最小限の計算オーバーヘッドを維持し、AI-CPSのリアルタイム操作を保証する。

Cyber-Physical Systems (CPSs) are increasingly prevalent across various industrial and daily-life domains, with applications ranging from robotic operations to autonomous driving. With recent advancements in artificial intelligence (AI), learning-based components, especially AI controllers, have become essential in enhancing the functionality and efficiency of CPSs. However, the lack of interpretability in these AI controllers presents challenges to the safety and quality assurance of AI-enabled CPSs (AI-CPSs). Existing methods for improving the safety of AI controllers often involve neural network repair, which requires retraining with additional adversarial examples or access to detailed internal information of the neural network. Hence, these approaches have limited applicability for black-box policies, where only the inputs and outputs are accessible during operation. To overcome this, we propose MORTAR, a runtime action repair framework designed for AI-CPSs in this work. MORTAR begins by constructing a prediction model that forecasts the quality of actions proposed by the AI controller. If an unsafe action is detected, MORTAR then initiates a repair process to correct it. The generation of repaired actions is achieved through an optimization process guided by the safety estimates from the prediction model. We evaluate the effectiveness of MORTAR across various CPS tasks and AI controllers. The results demonstrate that MORTAR can efficiently improve task completion rates of AI controllers under specified safety specifications. Meanwhile, it also maintains minimal computational overhead, ensuring real-time operation of the AI-CPSs.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# アクセシブルデジタルライブラリのためのScholarly Abstractsの簡易化

Simplifying Scholarly Abstracts for Accessible Digital Libraries ( http://arxiv.org/abs/2408.03899v1 )

ライセンス: Link先を確認
Haining Wang, Jason Clark, (参考訳) 知識の普及の最前線に立つデジタル図書館は、科学文献の膨大なコレクションをキュレートしている。 しかし、これらの学問的な著作は一般的には一般にではなく、藩の専門家向けのジャルゴンで飾られることが多い。 図書館員として、読解レベルが低い人を含め、多様な読者にサービスを提供しようとしている。 単なるアクセス以上のサービスを拡張するため、学術的な抽象語をより理解しやすいバージョンに書き換える言語モデルを微調整し、要求された時に学術的な文学がよりアクセスしやすいようにすることを提案する。 私たちはまず、学術的な抽象を単純化するトレーニングモデルに特化したコーパスを導入しました。 このコーパスは、様々な分野から3万組以上の抽象論と重要論証で構成されている。 そして、このコーパスを使用して4つの言語モデルを微調整した。 その後、モデルの出力はアクセシビリティとセマンティックコヒーレンスの両方について定量的に検討され、言語品質、忠実性、完全性については質的に検討された。 結果から,本モデルでは,オリジナルコンテンツへの忠実さを維持しつつ,読みやすさを3段階以上向上できることがわかった。 商用の最先端モデルは依然としてエッジを保っているが、我々のモデルはずっとコンパクトで、手頃な方法でローカルにデプロイでき、商用モデルの使用に伴うプライバシー上の懸念を軽減することができる。 我々は、この取り組みを、より包括的でアクセスしやすい図書館へのステップとして想定し、若手読者や大学の学位を持たない人向けのサービスを改善する。

Standing at the forefront of knowledge dissemination, digital libraries curate vast collections of scientific literature. However, these scholarly writings are often laden with jargon and tailored for domain experts rather than the general public. As librarians, we strive to offer services to a diverse audience, including those with lower reading levels. To extend our services beyond mere access, we propose fine-tuning a language model to rewrite scholarly abstracts into more comprehensible versions, thereby making scholarly literature more accessible when requested. We began by introducing a corpus specifically designed for training models to simplify scholarly abstracts. This corpus consists of over three thousand pairs of abstracts and significance statements from diverse disciplines. We then fine-tuned four language models using this corpus. The outputs from the models were subsequently examined both quantitatively for accessibility and semantic coherence, and qualitatively for language quality, faithfulness, and completeness. Our findings show that the resulting models can improve readability by over three grade levels, while maintaining fidelity to the original content. Although commercial state-of-the-art models still hold an edge, our models are much more compact, can be deployed locally in an affordable manner, and alleviate the privacy concerns associated with using commercial models. We envision this work as a step toward more inclusive and accessible libraries, improving our services for young readers and those without a college degree.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# Speech-MASSIVE:SLUなどのための多言語音声データセット

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond ( http://arxiv.org/abs/2408.03900v1 )

ライセンス: Link先を確認
Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier, (参考訳) 本稿では,多言語音声理解(SLU)データセットであるSpeech-MASSIVEについて述べる。 Speech-MASSIVEは、異なるファミリーの12の言語をカバーし、意図予測とスロットフルタスクのためのアノテーションをMASSIVEから継承する。 我々の拡張は、多言語SLUデータセットの不足と、言語やタスクをまたいだ基礎モデル(LLM、音声エンコーダ)を評価するための多言語音声データセットの必要性の高まりによって引き起こされる。 マルチモーダル、マルチタスク、マルチリンガルデータセットを提供し、さまざまなトレーニングシナリオ(ゼロショット、少数ショット、フルファインチューン)において、カスケードアーキテクチャとエンドツーエンドアーキテクチャの両方を用いて、SLUベースラインをレポートする。 さらに,音声の書き起こし,言語識別,音声翻訳などのタスクをベンチマークするために,Speech-MASSIVEが適していることを示す。 データセット、モデル、コードは、https://github.com/hlt-mt/Speech-MASSIVEで公開されている。

We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# ベイジアンバックボーンを用いた軽量ビデオデノーミング

Lightweight Video Denoising Using a Classic Bayesian Backbone ( http://arxiv.org/abs/2408.03904v1 )

ライセンス: Link先を確認
Clément Bled, François Pitié, (参考訳) 近年、最先端の画像やビデオのデノゲーションネットワークはますます大きくなり、クラス内で最高のパフォーマンスを達成するためには、数百万のトレーニング可能なパラメータが必要になる。 復調性能の向上は、現在のトランスフォーマーネットワークは、FastDVDnetやWienerフィルタのような古典的ベイズデノイザーのような小型のデノイジングネットワークよりもはるかに遅かった。 本稿では,高速な復調速度を保ちながら,小型アシラリーネットワークを利用して元の復調器の性能を向上させるハイブリッドWienerフィルタを実装した。 これらのネットワークは、Wiener Coringの推定を洗練し、ウィンドウ機能を最適化し、未知のノイズプロファイルを推定するために使用される。 これらの手法を用いることで,一般的なVRT変換器の性能を向上し,平均0.2dB以内にとどまる。 提案手法は変圧器法よりも x10 以上高速であり,パラメータコストははるかに低かった。

In recent years, state-of-the-art image and video denoising networks have become increasingly large, requiring millions of trainable parameters to achieve best-in-class performance. Improved denoising quality has come at the cost of denoising speed, where modern transformer networks are far slower to run than smaller denoising networks such as FastDVDnet and classic Bayesian denoisers such as the Wiener filter. In this paper, we implement a hybrid Wiener filter which leverages small ancillary networks to increase the original denoiser performance, while retaining fast denoising speeds. These networks are used to refine the Wiener coring estimate, optimise windowing functions and estimate the unknown noise profile. Using these methods, we outperform several popular denoisers and remain within 0.2 dB, on average, of the popular VRT transformer. Our method was found to be over x10 faster than the transformer method, with a far lower parameter cost.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# デコードバイアス:言語モデルにおけるジェンダーバイアス検出のための自動方法とLCM判定器

Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models ( http://arxiv.org/abs/2408.03907v1 )

ライセンス: Link先を確認
Shachi H Kumar, Saurav Sahay, Sahisnu Mazumder, Eda Okur, Ramesh Manuvinakurike, Nicole Beckage, Hsuan Su, Hung-yi Lee, Lama Nachman, (参考訳) 大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。 しかし、教師付きトレーニングや人間のアライメントでさえも、悪意のあるユーザーが好ましくないテキストを生成するようモデルに促すような敵対的な攻撃を受けやすい。 LLMはまた、相互作用中に様々な有害な影響を引き起こす可能性のある潜在的なバイアスを本質的にエンコードする。 バイアス評価メトリクスはコンセンサスだけでなく標準も欠如しており、既存の手法は高価で労力がかかる人為的なテンプレートやアノテーションに依存していることが多い。 本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。 本稿では, LLMに基づくバイアス評価指標について述べるとともに, 既存の自動評価手法と評価指標について分析する。 モデル応答の様々なニュアンスを分析し、モデルファミリーの長所と短所を特定し、評価方法の短所を評価する。 これらの指標を人体評価と比較し, LLM-as-a-Judge測定値が応答生成のバイアスに対する人間の判断と一致していることを検証する。

Large Language Models (LLMs) have excelled at language understanding and generating human-level text. However, even with supervised training and human alignment, these LLMs are susceptible to adversarial attacks where malicious users can prompt the model to generate undesirable text. LLMs also inherently encode potential biases that can cause various harmful effects during interactions. Bias evaluation metrics lack standards as well as consensus and existing methods often rely on human-generated templates and annotations which are expensive and labor intensive. In this work, we train models to automatically create adversarial prompts to elicit biased responses from target LLMs. We present LLM- based bias evaluation metrics and also analyze several existing automatic evaluation methods and metrics. We analyze the various nuances of model responses, identify the strengths and weaknesses of model families, and assess where evaluation methods fall short. We compare these metrics to human evaluation and validate that the LLM-as-a-Judge metric aligns with human judgement on bias in response generation.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# LaFA:非負行列因子化における潜在的特徴攻撃

LaFA: Latent Feature Attacks on Non-negative Matrix Factorization ( http://arxiv.org/abs/2408.03909v1 )

ライセンス: Link先を確認
Minh Vu, Ben Nebgen, Erik Skau, Geigh Zollicoffer, Juan Castorena, Kim Rasmussen, Boian Alexandrov, Manish Bhattarai, (参考訳) 機械学習(ML)アプリケーションが急速に普及するにつれて、敵攻撃に対する懸念が彼らの信頼性を損なうことが注目されている。 このような攻撃に対するレジリエンスで知られる教師なしML手法の1つは、入力データを低次元の潜在特徴に分解するアルゴリズムであるNon- negative Matrix Factorization (NMF)である。 しかし、Pytorchのような強力な計算ツールを導入することで、元のデータに対する潜在特徴の勾配の計算が可能となり、NMFの信頼性に対する懸念が高まった。 興味深いことに、MLの場合のようにNMFの逆方向の損失は、理論的には非効果的な攻撃目的であると示される再構成損失をもたらす。 本研究では,NMFプロセスが生み出す潜在機能を操作することを目的とした,LaFA(Latent Feature Attacks)と呼ばれるNMFの新たな攻撃方法を紹介する。 提案手法では,潜時特徴に直接特徴誤差(FE)損失を利用する。 FE損失を利用することで、抽出された潜在機能に大きな影響を及ぼす元のデータに摂動を生成し、他のMLテクニックに類似した脆弱性を明らかにします。 FE攻撃における勾配バックプロパゲーションからの大きなピークメモリオーバーヘッドを処理するため、より大規模なデータセットへのスケーリングを可能にする暗黙の微分に基づく手法を開発した。 我々は、NMFの脆弱性とFE攻撃の有効性を、合成および実世界のデータに関する広範な実験を通じて検証する。

As Machine Learning (ML) applications rapidly grow, concerns about adversarial attacks compromising their reliability have gained significant attention. One unsupervised ML method known for its resilience to such attacks is Non-negative Matrix Factorization (NMF), an algorithm that decomposes input data into lower-dimensional latent features. However, the introduction of powerful computational tools such as Pytorch enables the computation of gradients of the latent features with respect to the original data, raising concerns about NMF's reliability. Interestingly, naively deriving the adversarial loss for NMF as in the case of ML would result in the reconstruction loss, which can be shown theoretically to be an ineffective attacking objective. In this work, we introduce a novel class of attacks in NMF termed Latent Feature Attacks (LaFA), which aim to manipulate the latent features produced by the NMF process. Our method utilizes the Feature Error (FE) loss directly on the latent features. By employing FE loss, we generate perturbations in the original data that significantly affect the extracted latent features, revealing vulnerabilities akin to those found in other ML techniques. To handle large peak-memory overhead from gradient back-propagation in FE attacks, we develop a method based on implicit differentiation which enables their scaling to larger datasets. We validate NMF vulnerabilities and FE attacks effectiveness through extensive experiments on synthetic and real-world data.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# CodexGraph: コードグラフデータベースによる大規模言語モデルとコードリポジトリのブリッジ

CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases ( http://arxiv.org/abs/2408.03910v1 )

ライセンス: Link先を確認
Xiangyan Liu, Bo Lan, Zhiyuan Hu, Yang Liu, Zhicheng Zhang, Wenmeng Zhou, Fei Wang, Michael Shieh, (参考訳) 大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。 この課題は、LLM-codebaseインタラクションをリポジトリスケールで強化する研究のきっかけとなった。 現在のソリューションは類似性に基づく検索や手動のツールやAPIに依存しており、それぞれに顕著な欠点がある。 類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。 これらの制限を緩和するために,コードリポジトリから抽出したグラフデータベースインタフェースにLLMエージェントを統合するシステムである \framework を導入する。 グラフデータベースの構造特性とグラフクエリ言語の柔軟性を活用することで、‘framework’はLLMエージェントがクエリの構築と実行を可能にし、正確なコード構造を意識したコンテキスト検索とコードナビゲーションを可能にする。 CrossCodeEval, SWE-bench, EvoCodeBenchの3つのベンチマークを用いて, \frameworkを評価する。 さらに,実世界の5つのコーディングアプリケーションを開発した。 統合されたグラフデータベーススキーマにより、 \frameworkは、学術的および実世界の環境において、競争力のあるパフォーマンスとポテンシャルを示し、その汎用性とソフトウェア工学における有効性を示している。 私たちのアプリケーションのデモは、https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agentです。

Large Language Models (LLMs) excel in stand-alone code tasks like HumanEval and MBPP, but struggle with handling entire code repositories. This challenge has prompted research on enhancing LLM-codebase interaction at a repository scale. Current solutions rely on similarity-based retrieval or manual tools and APIs, each with notable drawbacks. Similarity-based retrieval often has low recall in complex tasks, while manual tools and APIs are typically task-specific and require expert knowledge, reducing their generalizability across diverse code tasks and real-world applications. To mitigate these limitations, we introduce \framework, a system that integrates LLM agents with graph database interfaces extracted from code repositories. By leveraging the structural properties of graph databases and the flexibility of the graph query language, \framework enables the LLM agent to construct and execute queries, allowing for precise, code structure-aware context retrieval and code navigation. We assess \framework using three benchmarks: CrossCodeEval, SWE-bench, and EvoCodeBench. Additionally, we develop five real-world coding applications. With a unified graph database schema, \framework demonstrates competitive performance and potential in both academic and real-world environments, showcasing its versatility and efficacy in software engineering. Our application demo: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# AdapMTL:マルチタスク学習モデルのための適応型プルーニングフレームワーク

AdapMTL: Adaptive Pruning Framework for Multitask Learning Model ( http://arxiv.org/abs/2408.03913v1 )

ライセンス: Link先を確認
Mingcan Xiang, Steven Jiaxun Tang, Qizheng Yang, Hui Guan, Tongping Liu, (参考訳) マルチメディアおよびマルチモーダル処理の分野では、画像、ビデオ、センサーデータなどの多様なデータストリームの効率的な処理が最重要である。 この分野ではモデル圧縮とマルチタスク学習(MTL)が不可欠であり、複数のメディアを同時に処理し解釈するリソース集約的な要求に対処する能力を提供する。 しかし、マルチタスクモデルを効果的に圧縮することは、複数のタスクにまたがる空間割当と精度性能のバランスの複雑さにより、大きな課題を生じさせる。 これらの課題に対処するために,MTLモデルの適応型プルーニングフレームワークであるAdapMTLを提案する。 AdapMTLは、共有バックボーンとタスク固有のヘッドに独立して割り当てられた複数の学習可能なソフトしきい値を利用して、異なるコンポーネントのプルーニングに対する感度でニュアンスをキャプチャする。 トレーニング中、ソフトしきい値とMTLモデルの重みを共同で最適化し、各コンポーネントの適切な疎度レベルを自動的に決定し、高いタスク精度と全体的な疎度の両方を達成する。 さらに、各タスクのプルーニングに対する堅牢性に基づいてタスク固有の損失の重要性を動的に調整する適応重み付け機構も組み込まれている。 本稿では,一般的なマルチタスクデータセットであるNYU-v2とTiny-Taskonomyの総合的な実験を通じて,AdapMTLの有効性を示す。

In the domain of multimedia and multimodal processing, the efficient handling of diverse data streams such as images, video, and sensor data is paramount. Model compression and multitask learning (MTL) are crucial in this field, offering the potential to address the resource-intensive demands of processing and interpreting multiple forms of media simultaneously. However, effectively compressing a multitask model presents significant challenges due to the complexities of balancing sparsity allocation and accuracy performance across multiple tasks. To tackle these challenges, we propose AdapMTL, an adaptive pruning framework for MTL models. AdapMTL leverages multiple learnable soft thresholds independently assigned to the shared backbone and the task-specific heads to capture the nuances in different components' sensitivity to pruning. During training, it co-optimizes the soft thresholds and MTL model weights to automatically determine the suitable sparsity level at each component to achieve both high task accuracy and high overall sparsity. It further incorporates an adaptive weighting mechanism that dynamically adjusts the importance of task-specific losses based on each task's robustness to pruning. We demonstrate the effectiveness of AdapMTL through comprehensive experiments on popular multitask datasets, namely NYU-v2 and Tiny-Taskonomy, with different architectures, showcasing superior performance compared to state-of-the-art pruning methods.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# FMiFood:食品画像分類のためのマルチモーダルコントラスト学習

FMiFood: Multi-modal Contrastive Learning for Food Image Classification ( http://arxiv.org/abs/2408.03922v1 )

ライセンス: Link先を確認
Xinyue Pan, Jiangpeng He, Fengqing Zhu, (参考訳) 食事イメージ分類は,食事イメージから栄養摂取量を推定することを目的とした,画像に基づく食事評価の基本的なステップである。 食品画像の一般的な課題は、クラス内の多様性とクラス間の類似性であり、分類性能を著しく損なう可能性がある。 この課題に対処するために,食品カテゴリーのテキスト記述などの付加的な文脈情報を統合することで,より差別的な特徴を学習し,分類精度を向上させる,FMiFoodという新しいマルチモーダルコントラスト学習フレームワークを導入する。 具体的には、テキストと画像の埋め込みの類似性マッチングを改善し、複数のキー情報にフォーカスするフレキシブルマッチング手法を提案する。 さらに、分類対象をフレームワークに組み込んで、GPT-4を用いてテキスト記述を強化し、より詳細なコンテキストを提供する。 本手法は,既存の手法と比較してUPMC-101とVFNの両方の性能向上を示す。

Food image classification is the fundamental step in image-based dietary assessment, which aims to estimate participants' nutrient intake from eating occasion images. A common challenge of food images is the intra-class diversity and inter-class similarity, which can significantly hinder classification performance. To address this issue, we introduce a novel multi-modal contrastive learning framework called FMiFood, which learns more discriminative features by integrating additional contextual information, such as food category text descriptions, to enhance classification accuracy. Specifically, we propose a flexible matching technique that improves the similarity matching between text and image embeddings to focus on multiple key information. Furthermore, we incorporate the classification objectives into the framework and explore the use of GPT-4 to enrich the text descriptions and provide more detailed context. Our method demonstrates improved performance on both the UPMC-101 and VFN datasets compared to existing methods.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# アニメーショングラフィックスからの高速スプライト分解

Fast Sprite Decomposition from Animated Graphics ( http://arxiv.org/abs/2408.03923v1 )

ライセンス: Link先を確認
Tomoyuki Suzuki, Kotaro Kikuchi, Kota Yamaguchi, (参考訳) 本稿では,アニメーショングラフィックをスプライト(基本要素や層)に分解する手法を提案する。 提案手法は,ラスタビデオに適合するスプライトパラメータの最適化に基づいている。 効率的のために,スプライトの静的テクスチャを仮定し,テクスチャ先行モデルを用いたアーティファクトの防止と探索空間の削減を図る。 さらに最適化を高速化するために,事前訓練されたビデオオブジェクト分割モデルと単一フレームアノテーションのユーザ入力を用いたスプライトパラメータの初期化を導入する。 本研究では,オンラインデザインサービスからCrello Animationデータセットを構築し,抽出したスプライトの品質を測定するための定量的指標を定義した。 実験の結果,本手法は品質/効率のトレードオフの観点から,類似の分解タスクのベースラインを著しく上回ることがわかった。

This paper presents an approach to decomposing animated graphics into sprites, a set of basic elements or layers. Our approach builds on the optimization of sprite parameters to fit the raster video. For efficiency, we assume static textures for sprites to reduce the search space while preventing artifacts using a texture prior model. To further speed up the optimization, we introduce the initialization of the sprite parameters utilizing a pre-trained video object segmentation model and user input of single frame annotations. For our study, we construct the Crello Animation dataset from an online design service and define quantitative metrics to measure the quality of the extracted sprites. Experiments show that our method significantly outperforms baselines for similar decomposition tasks in terms of the quality/efficiency tradeoff.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# 言葉から価値へ: LLMで生まれ変わった記事インパクト予測

From Words to Worth: Newborn Article Impact Prediction with LLM ( http://arxiv.org/abs/2408.03934v1 )

ライセンス: Link先を確認
Penghai Zhao, Qinghua Xing, Kairan Dou, Jinyu Tian, Ying Tai, Jian Yang, Ming-Ming Cheng, Xiang Li, (参考訳) 学術的な景観が拡大するにつれて、新刊作品の膨大な数の中で、潜在的にインパクトの高い記事を効果的に特定するという課題が重要となる。 本稿では,書名と要約のみに基づく新生記事の今後の影響を予測するために,微調整LDMの能力を活用する,有望なアプローチを提案する。 外部情報に大きく依存する従来の手法を超えて、提案手法は、非常に影響力のある論文の共有意味的特徴を、タイトルと潜在的なインパクトペアの大規模なコレクションから識別する。 これらのセマンティック機能は、値、フィールド、時間正規化特性を付与した改良されたメトリックである TNCSI_SP にさらに活用される。 さらに、LLMを微調整するための包括的なデータセットが構築されリリースされ、対応するタイトル、抽象化、TLCSI_SPを含む12,000以上のエントリが含まれている。 0.901のNDCG@20を用いて, 提案手法は, 競合する記事と比較して, 新生記事の影響を予測する上で, 最先端の性能を実現することを実証した。 最後に,新たな雑誌記事の影響を予測するための実世界のアプリケーションを紹介し,その実用的価値を実証する。 全体として、既存のパラダイムに挑戦し、よりコンテンツを重視した学術的影響予測へのシフトを提案し、新しく生まれた記事の影響を評価するための新たな洞察を提供する。

As the academic landscape expands, the challenge of efficiently identifying potentially high-impact articles among the vast number of newly published works becomes critical. This paper introduces a promising approach, leveraging the capabilities of fine-tuned LLMs to predict the future impact of newborn articles solely based on titles and abstracts. Moving beyond traditional methods heavily reliant on external information, the proposed method discerns the shared semantic features of highly impactful papers from a large collection of title-abstract and potential impact pairs. These semantic features are further utilized to regress an improved metric, TNCSI_SP, which has been endowed with value, field, and time normalization properties. Additionally, a comprehensive dataset has been constructed and released for fine-tuning the LLM, containing over 12,000 entries with corresponding titles, abstracts, and TNCSI_SP. The quantitative results, with an NDCG@20 of 0.901, demonstrate that the proposed approach achieves state-of-the-art performance in predicting the impact of newborn articles when compared to competitive counterparts. Finally, we demonstrate a real-world application for predicting the impact of newborn journal articles to demonstrate its noteworthy practical value. Overall, our findings challenge existing paradigms and propose a shift towards a more content-focused prediction of academic impact, offering new insights for assessing newborn article impact.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# SLIM-RAFT: Mercosur Common Nomenclature における言語横断性能向上のためのファインチューニング手法

SLIM-RAFT: A Novel Fine-Tuning Approach to Improve Cross-Linguistic Performance for Mercosur Common Nomenclature ( http://arxiv.org/abs/2408.03936v1 )

ライセンス: Link先を確認
Vinícius Di Oliveira, Yuri Façanha Bezerra, Li Weigang, Pedro Carvalho Brom, Victor Rafael R. Celestino, (参考訳) 自然言語処理(NLP)は、大規模言語モデル(LLM)の出現とともに、大きな進歩を遂げてきた。 しかし、英語以外の言語、特にブラジルの調和システム(HS)であるMercosur Common Nomenclature (NCM)の応用のような特定のドメインでは、依然として大幅な改善が必要である。 このギャップに対処するため,ポルトガルのLLMであるTeenyTineLLaMAをLCMソースとして使用し,NCMアプリケーション処理を実装した。 さらに, SLIM-RAFTと呼ばれる簡易型検索ファインチューニング(RAFT)技術が, LLMのタスク固有微調整のために提案されている。 このアプローチは、より簡潔で合理化された方法で開発を促進するためのチェーン・オブ・シント(CoT)方法論を維持し、トレーニングに簡潔で集中したドキュメントを活用する。 提案モデルでは,より小型のLDMを微調整する手法として,TeenyTineLLaMA や ChatGPT-4 より優れた効率性を示す。 この研究はNCMアプリケーションに焦点をあてているが、この方法論は世界中のHSアプリケーションに容易に適用できる。

Natural language processing (NLP) has seen significant advancements with the advent of large language models (LLMs). However, substantial improvements are still needed for languages other than English, especially for specific domains like the applications of Mercosur Common Nomenclature (NCM), a Brazilian Harmonized System (HS). To address this gap, this study uses TeenyTineLLaMA, a foundational Portuguese LLM, as an LLM source to implement the NCM application processing. Additionally, a simplified Retrieval-Augmented Fine-Tuning (RAFT) technique, termed SLIM-RAFT, is proposed for task-specific fine-tuning of LLMs. This approach retains the chain-of-thought (CoT) methodology for prompt development in a more concise and streamlined manner, utilizing brief and focused documents for training. The proposed model demonstrates an efficient and cost-effective alternative for fine-tuning smaller LLMs, significantly outperforming TeenyTineLLaMA and ChatGPT-4 in the same task. Although the research focuses on NCM applications, the methodology can be easily adapted for HS applications worldwide.
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# 視覚言語モデルはどのようにして画像の詳細を見ることができるのか?

How Well Can Vision Language Models See Image Details? ( http://arxiv.org/abs/2408.03940v1 )

ライセンス: Link先を確認
Chenhui Gou, Abdulwahab Felemban, Faizan Farooq Khan, Deyao Zhu, Jianfei Cai, Hamid Rezatofighi, Mohamed Elhoseiny, (参考訳) 大規模言語モデルに基づく視覚言語モデル(LLMベースのVLM)は、様々な視覚言語理解タスクにおいて印象的な結果を示した。 しかしながら、これらのVLMがセマンティックレベルを超えて画像の詳細を見ることができるかは、まだ不明である。 本研究では,画素値予測タスク (PVP) を導入し,「どのように視覚言語モデルが画像の詳細を見るか?」を探索し,VLMの詳細な理解を支援する。 通常、これらのモデルは凍結したCLIPビジュアルエンコーダ、大きな言語モデル、接続モジュールから構成される。 PVPタスクでVLMを微調整した後、以下のことが分かる。 1)既存のVLMは接続モジュールとLCMを微調整するだけで正確な画素値を予測するのに苦労している。 2)視覚エンコーダも適応すると予測精度が大幅に向上する。 さらに,VLM事前学習タスクとビジョンエンコーダ適応の1つとして画素値予測を組み込むことで,画像セグメンテーション(平均+10.19 cIoU改善)やゲーム決定(平均スコアは+80.34,+70.54)などの画像認識を必要とする下流画像言語理解タスクにおいて,VLM性能が著しく向上することを明らかにした。

Large Language Model-based Vision-Language Models (LLM-based VLMs) have demonstrated impressive results in various vision-language understanding tasks. However, how well these VLMs can see image detail beyond the semantic level remains unclear. In our study, we introduce a pixel value prediction task (PVP) to explore "How Well Can Vision Language Models See Image Details?" and to assist VLMs in perceiving more details. Typically, these models comprise a frozen CLIP visual encoder, a large language model, and a connecting module. After fine-tuning VLMs on the PVP task, we find: 1) existing VLMs struggle to predict precise pixel values by only fine-tuning the connection module and LLM; and 2) prediction precision is significantly improved when the vision encoder is also adapted. Additionally, our research reveals that incorporating pixel value prediction as one of the VLM pre-training tasks and vision encoder adaptation markedly boosts VLM performance on downstream image-language understanding tasks requiring detailed image perception, such as referring image segmentation (with an average +10.19 cIoU improvement) and video game decision making (with average score improvements of +80.34 and +70.54 on two games, respectively).
翻訳日:2024-08-08 12:35:07 公開日:2024-08-07
# 幾何学的視点から見たボールの最小包含小ささオーバーサンプリング技術

Minimum Enclosing Ball Synthetic Minority Oversampling Technique from a Geometric Perspective ( http://arxiv.org/abs/2408.03526v1 )

ライセンス: Link先を確認
Yi-Yang Shangguan, Shi-Shun Chen, Xiao-Yang Li, (参考訳) クラス不均衡とは、データセット内の異なるクラスからのサンプルの数に大きな違いがあり、少数クラスのサンプルを正しく識別することは困難である。 この問題は、ソフトウェア欠陥予測、診断、不正検出など、現実世界の分類タスクで広く使われている。 シンセティックマイノリティオーバーサンプリング技術(SMOTE)は、ランダムに選択されたマイノリティクラスサンプルとその隣人間の補間に基づくクラス不均衡問題に対処するために広く用いられている。 しかし、従来のSMOTEとその変種のほとんどは既存のサンプルの間でのみ補間し、いくつかのケースではノイズサンプルの影響を受け、多様性に欠けるサンプルを合成する。 これらの欠点を克服するために,幾何学的観点から最小閉球法(MEB-SMOTE)を提案する。 具体的には、MEBをオーバーサンプリング法に革新的に導入し、代表点を構築する。 そして、この代表点と既存試料との補間により高品質な試料を合成する。 代表点構築の背景にある理論的根拠を議論し、MEBの中心が代表点としてより適していることを示す。 MEB-SMOTEの優位性を示すために、15の現実世界の不均衡データセットを用いて実験を行った。 その結果,MEB-SMOTEは不均衡データセットの分類性能を効果的に向上できることがわかった。

Class imbalance refers to the significant difference in the number of samples from different classes within a dataset, making it challenging to identify minority class samples correctly. This issue is prevalent in real-world classification tasks, such as software defect prediction, medical diagnosis, and fraud detection. The synthetic minority oversampling technique (SMOTE) is widely used to address class imbalance issue, which is based on interpolation between randomly selected minority class samples and their neighbors. However, traditional SMOTE and most of its variants only interpolate between existing samples, which may be affected by noise samples in some cases and synthesize samples that lack diversity. To overcome these shortcomings, this paper proposes the Minimum Enclosing Ball SMOTE (MEB-SMOTE) method from a geometry perspective. Specifically, MEB is innovatively introduced into the oversampling method to construct a representative point. Then, high-quality samples are synthesized by interpolation between this representative point and the existing samples. The rationale behind constructing a representative point is discussed, demonstrating that the center of MEB is more suitable as the representative point. To exhibit the superiority of MEB-SMOTE, experiments are conducted on 15 real-world imbalanced datasets. The results indicate that MEB-SMOTE can effectively improve the classification performance on imbalanced datasets.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# ロボットのための深層強化学習 : 実世界における成功事例調査

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes ( http://arxiv.org/abs/2408.03539v1 )

ライセンス: Link先を確認
Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone, (参考訳) Reinforcement Learning(RL)、特にDeep RL(DRL)と呼ばれるディープニューラルネットワークの組み合わせは、幅広いアプリケーションで大きな可能性を示しており、高度なロボット行動の開発を可能にする可能性を示唆している。 しかし、ロボットの問題は、物理世界との相互作用の複雑さとコストから、RLの適用に根本的な困難をもたらす。 本稿では、ロボット工学におけるDRLの近代的な調査について紹介し、DRLが達成した実世界の成功を、いくつかの重要なロボット能力の実現に焦点をあてる。 我々の分析は、これらのエキサイティングな成功の根底にある重要な要因を特定し、未探索領域を明らかにし、ロボット工学におけるDRLの現状を総合的に評価することを目的としている。 今後の課題として, 安定的でサンプル効率のよい実世界のRLパラダイムの必要性を強調し, 複雑な長期的, オープンワールド的な課題に対処するための様々な能力の発見と統合のための総合的なアプローチ, 開発と評価の原則を強調した。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。

Reinforcement learning (RL), particularly its combination with deep neural networks referred to as deep RL (DRL), has shown tremendous promise across a wide range of applications, suggesting its potential for enabling the development of sophisticated robotic behaviors. Robotics problems, however, pose fundamental difficulties for the application of RL, stemming from the complexity and cost of interacting with the physical world. This article provides a modern survey of DRL for robotics, with a particular focus on evaluating the real-world successes achieved with DRL in realizing several key robotic competencies. Our analysis aims to identify the key factors underlying those exciting successes, reveal underexplored areas, and provide an overall characterization of the status of DRL in robotics. We highlight several important avenues for future work, emphasizing the need for stable and sample-efficient real-world RL paradigms, holistic approaches for discovering and integrating various competencies to tackle complex long-horizon, open-world tasks, and principled development and evaluation procedures. This survey is designed to offer insights for both RL practitioners and roboticists toward harnessing RL's power to create generally capable real-world robotic systems.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# Time is notough: Time-Frequency based Explanation for Time-Series Black-Box Models

Time is Not Enough: Time-Frequency based Explanation for Time-Series Black-Box Models ( http://arxiv.org/abs/2408.03636v1 )

ライセンス: Link先を確認
Hyunseung Chung, Sumin Jo, Yeonsu Kwon, Edward Choi, (参考訳) 大規模な適用による時系列説明に対する大きな関心にもかかわらず、既存のアプローチの顕著な制限は、時間領域への依存である。 これは、時間的特徴と周波数的特徴の両方を含む時系列データの本質的な特徴を見落としている。 本稿では、時系列ブラックボックス分類器の時間周波数説明を提供するXAIフレームワークであるSpectral eXplanation(SpectralX)を提案する。 この容易に適応可能なフレームワークにより、事前訓練された時系列分類モデルに対して、様々な摂動ベースのXAIメソッドを"プラグイン"して、フレームワークアーキテクチャを変更することなく、説明品質への影響を評価することができる。 さらに,新しい摂動型XAI法であるFeature Importance Approximations (FIA)を導入する。 これらの手法は、時系列分類タスクにおける計算効率とクラス固有の説明を高めるために、特徴挿入、削除、組み合わせ技術から構成される。 生成した合成データセットと様々なUCR時系列データセットを用いて、時間領域と時間周波数領域の両方において、FIAや他の既存の摂動型XAI手法の説明性能を比較検討し、スペクトラルXフレームワークを用いて、時間周波数領域におけるFIAの優位性を示す。 最後に、クラス固有の時間周波数に基づく時系列説明のためのSpectralXフレームワークにおけるFIAの実用性を確認するために、ユーザスタディを実施している。 ソースコードはhttps://github.com/gustmd0121/Time_is_not_Enoughで公開されている。

Despite the massive attention given to time-series explanations due to their extensive applications, a notable limitation in existing approaches is their primary reliance on the time-domain. This overlooks the inherent characteristic of time-series data containing both time and frequency features. In this work, we present Spectral eXplanation (SpectralX), an XAI framework that provides time-frequency explanations for time-series black-box classifiers. This easily adaptable framework enables users to "plug-in" various perturbation-based XAI methods for any pre-trained time-series classification models to assess their impact on the explanation quality without having to modify the framework architecture. Additionally, we introduce Feature Importance Approximations (FIA), a new perturbation-based XAI method. These methods consist of feature insertion, deletion, and combination techniques to enhance computational efficiency and class-specific explanations in time-series classification tasks. We conduct extensive experiments in the generated synthetic dataset and various UCR Time-Series datasets to first compare the explanation performance of FIA and other existing perturbation-based XAI methods in both time-domain and time-frequency domain, and then show the superiority of our FIA in the time-frequency domain with the SpectralX framework. Finally, we conduct a user study to confirm the practicality of our FIA in SpectralX framework for class-specific time-frequency based time-series explanations. The source code is available in https://github.com/gustmd0121/Time_is_not_Enough
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# 凸最適化に基づく大規模言語モデルのための階層学習後プランナ

A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models ( http://arxiv.org/abs/2408.03728v1 )

ライセンス: Link先を確認
Pengxiang Zhao, Hanyu Hu, Ping Li, Yi Zheng, Zhefeng Wang, Xiaoming Yuan, (参考訳) プラニングは訓練済みの大規模言語モデル(LLM)を圧縮するための重要な戦略であり、性能を損なうことなくメモリ保存と計算の高速化を実現する。 しかし、既存のプルーニング法は、数十億のLLMの非効率な再訓練を必要とすることや、性能を低下させる最適な脳外科医の枠組みのようなヒューリスティックな手法に依存していることが多い。 本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナーであるFISTAPrunerを紹介する。 具体的には,$\ell_1$ノルムを取り入れた凸最適化モデルを提案し,FISTAソルバを用いて最適化を行う。 FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。 OPT, LLaMA, LLaMA-2, LLaMA-3などのモデル上でFISTAPrunerを, 125Mから70Bのパラメータを非構造化および2:4の半構造化空間下で総合的に評価し, 各種言語ベンチマークにおける既存手法よりも優れた性能を示した。

Pruning is a critical strategy for compressing trained large language models (LLMs), aiming at substantial memory conservation and computational acceleration without compromising performance. However, existing pruning methods often necessitate inefficient retraining for billion-scale LLMs or rely on heuristic methods such as the optimal brain surgeon framework, which degrade performance. In this paper, we introduce FISTAPruner, the first post-training pruner based on convex optimization models and algorithms. Specifically, we propose a convex optimization model incorporating $\ell_1$ norm to induce sparsity and utilize the FISTA solver for optimization. FISTAPruner incorporates an intra-layer cumulative error correction mechanism and supports parallel pruning. We comprehensively evaluate FISTAPruner on models such as OPT, LLaMA, LLaMA-2, and LLaMA-3 with 125M to 70B parameters under unstructured and 2:4 semi-structured sparsity, demonstrating superior performance over existing state-of-the-art methods across various language benchmarks.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# 平面量子ドットにおけるフローッピングモードスピン量子ビットの動的スイートスポット

Dynamic sweet spot of driven flopping-mode spin qubits in planar quantum dots ( http://arxiv.org/abs/2408.03730v1 )

ライセンス: Link先を確認
Yaser Hajati, Guido Burkard, (参考訳) 電子やホールスピンが制限された量子ドットは、効率的な電場駆動量子ビット操作を可能にするため、量子情報処理を約束する。 しかし、その電気ノイズに対する感受性は、これらの量子ビットの有効性を阻害する可能性がある。 本稿では, 平面二重量子ドット(DQD)スピン量子ビットに対する電気ノイズの影響を, スピン-軌道相互作用によるフリップモードスピン量子ビットに焦点をあてて検討する。 時間依存の有効ハミルトニアン内に回転波近似を用いて、DQD内の単一電子または穴を持つスピン量子ビット振動のラビ周波数の解析式を導出する。 クォービットをオフ共鳴的に駆動することは電荷ノイズの影響を効果的に軽減し、ダイナミックなスイートスポットの出現につながる。 提案した動作モードは量子ゲートの忠実度を特に、特に特定の駆動パラメータの範囲内で改善し、量子ビット操作時のデチューニングを行う。 さらに,本研究では,駆動およびDQDパラメータによって調節可能な2次動的スイートスポットを誘導する可能性を明らかにした。 量子ビットをオフ共鳴的に駆動することの重要性を理解することは、高コヒーレンスな平面DQDスピン量子ビットの開発に不可欠である。

Semiconductor quantum dots with confined electron or hole spins show promise for quantum information processing as they allow for efficient electric field-driven qubit manipulation. However, their susceptibility to electric noise poses a challenge that may hinder the effectiveness of these qubits. Here, we explore the impact of electric noise on a planar double quantum dot (DQD) spin qubit under the influence of AC gates applied to the dot levels, focusing on the flopping-mode spin qubit with spin-orbit interaction. We employ a rotating wave approximation within a time-dependent effective Hamiltonian to derive analytic expressions for the Rabi frequency of spin qubit oscillations with a single electron or hole in a DQD. We find that driving the qubit off-resonantly effectively mitigates the influence of charge noise, leading to a manifestation of a dynamic sweet spot. The proposed mode of operation notably improves the fidelity of quantum gates, particularly within specific ranges of drive parameters and detuning during qubit manipulation. Furthermore, our study unveils the potential of inducing a second-order dynamic sweet spot, a phenomenon tunable by drive and DQD parameters. Understanding the importance of driving qubits off-resonantly is essential for developing high-coherence planar DQD spin qubits, both for electrons in silicon and holes in germanium.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# ボース・アインシュタイン凝縮体における散逸駆動コヒーレントダイナミクス

Dissipation Driven Coherent Dynamics Observed in Bose-Einstein Condensates ( http://arxiv.org/abs/2408.03815v1 )

ライセンス: Link先を確認
Ye Tian, Yajuan Zhao, Yue Wu, Jilai Ye, Shuyao Mei, Zhihao Chi, Tian Tian, Ce Wang, Zhe-Yu Shi, Yu Chen, Jiazhong Hu, Hui Zhai, Wenlan Chen, (参考訳) 本報では, 散逸駆動型量子多体発振の初回実験を行い, この発振を3次元部分凝縮ボースガス中における熱と凝縮成分間の原子のコヒーレント交換として示す。 まず, 放散時間の増加に伴い, 放散速度が熱量と凝縮成分の間に2つの異なる原子損失率をもたらすことが観察された。 したがって、この散逸過程は、余分な密度の励起を導入することなく、システムの温度を均一に上昇させるツールとして機能する。 その後、熱と凝縮成分の間の原子のコヒーレントな対交換が起こり、両成分の原子数のコヒーレントな振動が起こる。 この発振は、原子の損失過程に恒久的に埋め込まれており、最終的に全原子数の発振として現れる、散逸のない進化の期間を全ダイナミクスに設定すると明らかにされる。 最後に、この物理機構を支持する理論計算を提案し、同時に散逸、相互作用、有限温度、ハーモニックトラップ効果を含む。 我々の研究は、量子多体力学を制御するための新しいツールとして、高度に制御可能な散逸を導入する。

We report the first experimental observation of dissipation-driven coherent quantum many-body oscillation, and this oscillation is manifested as the coherent exchange of atoms between the thermal and the condensate components in a three-dimensional partially condensed Bose gas. Firstly, we observe that the dissipation leads to two different atom loss rates between the thermal and the condensate components, such that the thermal fraction increases as dissipation time increases. Therefore, this dissipation process serves as a tool to uniformly ramp up the system's temperature without introducing extra density excitation. Subsequently, a coherent pair exchange of atoms between the thermal and the condensate components occurs, resulting in coherent oscillation of atom numbers in both components. This oscillation, permanently embedded in the atom loss process, is revealed clearly when we inset a duration of dissipation-free evolution into the entire dynamics, manifested as an oscillation of total atom number at the end. Finally, we also present a theoretical calculation to support this physical mechanism, which simultaneously includes dissipation, interaction, finite temperature, and harmonic trap effects. Our work introduces a highly controllable dissipation as a new tool to control quantum many-body dynamics.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# グラフ問題に対するパラメータ化量子クエリアルゴリズム

Parameterized Quantum Query Algorithms for Graph Problems ( http://arxiv.org/abs/2408.03864v1 )

ライセンス: Link先を確認
Tatsuya Terao, Ryuhei Mori, (参考訳) 本稿では,グラフ問題に対するパラメータ化量子クエリの複雑性について考察する。 我々は、$k$-vertexカバーと$k$-matching問題に対するパラメータ化量子クエリアルゴリズムを設計し、パラメータ化量子クエリ複雑性の低い境界を提示する。 そこで,我々の量子クエリアルゴリズムは,パラメータが小さい場合,定数係数まで最適であることを示す。

In this paper, we consider the parameterized quantum query complexity for graph problems. We design parameterized quantum query algorithms for $k$-vertex cover and $k$-matching problems, and present lower bounds on the parameterized quantum query complexity. Then, we show that our quantum query algorithms are optimal up to a constant factor when the parameters are small.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# 重力量子オットー冷凍サイクル

The gravitational quantum Otto refrigeration cycle ( http://arxiv.org/abs/2408.03905v1 )

ライセンス: Link先を確認
Nikos K. Kollas, (参考訳) 我々は、量子オットー冷凍サイクルを構築するために、曲面時空で伝播する光子によって経験される重力的赤方偏移を利用する。 エンジンが作動する冷水貯留層と高温水貯留層の相対温度の低い値から、回転しない球対称帯電体によって生じる重力場と同様に、一様重力場の存在下での冷凍サイクルの例と、膨張する宇宙におけるアインシュタイン方程式の真空解から得られるものについて、各時空を記述するパラメータの関数として提示する。

We take advantage of the gravitational redshift experienced by a photon propagating in curved spacetime in order to construct a quantum Otto refrigeration cycle. Deriving a lower bound for the relative temperature between the cold and hot reservoirs at which the engine operates, we provide examples of refrigeration cycles in the presence of a uniform gravitational field as well as in the case of a gravitational field produced by a non-rotating spherically symmetric charged body, and the one obtained from the vacuum solution of Einstein's field equations in an expanding universe, as a function of the parameters which describe each spacetime.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-07
# ニューラルネットワークを用いた部分状態解による自律システムの状態とダイナミクスの復元

Recovering the state and dynamics of autonomous system with partial states solution using neural networks ( http://arxiv.org/abs/2408.02050v2 )

ライセンス: Link先を確認
Vijay Kag, (参考訳) 本稿では,自律システムにおける深部隠れ物理モデル(M. Raissi 2018)の性能について検討する。 これらの系は、時間に明示的に依存しない通常の微分方程式の集合によって記述される。 このような系は自然界で発見でき、化学濃度、人口動態、物理学におけるn体問題などのモデリングに応用できる。 この研究では、状態がどのように進化するかを説明する状態のダイナミクスについて考察する。 ニューラルネットワークを用いて状態と力学を近似する。 2次元線形・非線形・ローレンツ系の例を検討した。 すべての状態情報を知ることなく、状態情報が知られている特定の状態のダイナミクスを推定することができる。

In this paper we explore the performance of deep hidden physics model (M. Raissi 2018) for autonomous systems. These systems are described by set of ordinary differential equations which do not explicitly depend on time. Such systems can be found in nature and have applications in modeling chemical concentrations, population dynamics, n-body problems in physics etc. In this work we consider dynamics of states, which explain how the states will evolve are unknown to us. We approximate state and dynamics both using neural networks. We have considered examples of 2D linear/nonlinear and Lorenz systems. We observe that even without knowing all the states information, we can estimate dynamics of certain states whose state information are known.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# データ津波の力を解き明かす:言語モデルの学習指導のためのデータアセスメントと選択に関する包括的調査

Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models ( http://arxiv.org/abs/2408.02085v3 )

ライセンス: Link先を確認
Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun, (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。 膨大な量のオープンな命令データセットにもかかわらず、既存のすべての命令に対してLSMを鼻で訓練することは、最適で実用的ではないかもしれない。 最も有用なデータポイントを特定するために、自然言語処理(NLP)とディープラーニングの分野において、データアセスメントと選択法が提案されている。 しかし、命令チューニングのコンテキスト下では、どのようなデータ評価指標を使用できるか、どのように選択メカニズムに統合できるかについて、知識のギャップがまだ残っている。 このギャップを埋めるため,従来のデータアセスメントと選択に関する文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。 我々は、すべての適用可能な手法を、統一されたきめ細かい分類法が構成されている品質ベース、多様性ベース、重要ベースに体系的に分類する。 各カテゴリについて、関連する研究の展望を説明するために、代表的手法を詳述する。 また, 最新の手法の比較を, 公式報告された結果に基づいて実施し, その限界について詳細な議論を行う。 最後に,オープンな課題を要約し,今後の研究の道筋を提案する。 関連コンテンツはすべてhttps://github.com/yuleiqin/fantastic-data-engineering.comで公開されている。

Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 影響分析の再考:公正性と一貫性を確保するためのプロトコル

Rethinking Affect Analysis: A Protocol for Ensuring Fairness and Consistency ( http://arxiv.org/abs/2408.02164v2 )

ライセンス: Link先を確認
Guanyu Hu, Dimitrios Kollias, Eleni Papadopoulou, Paraskevi Tzouveli, Jie Wei, Xinyu Yang, (参考訳) 影響分析手法の評価は、データベース分割と評価プロトコルの不整合による課題を示し、不公平で偏りのある結果をもたらす。 これまでの研究では、継続的なパフォーマンス改善が主張されていたが、我々の研究はこのような主張に異議を唱えた。 これらの知見を用いて、公平性と互換性を確保するために、データベース分割のための統一的なプロトコルを提案する。 本稿では,(人種,性別,年齢の面で)詳細な統計アノテーション,評価指標,表現認識,行動単位検出,原子価-覚醒推定のための共通フレームワークを提供する。 また、新しいプロトコルでメソッドを再実行し、より公平な比較で影響認識の今後の研究を促進するための新しいリーダーボードを導入します。 私たちのアノテーション、コード、事前トレーニングされたモデルは、 \hyperlink{https://github.com/dkollias/Fair-Consistent-Affect-Analysis}{Github}で利用可能です。

Evaluating affect analysis methods presents challenges due to inconsistencies in database partitioning and evaluation protocols, leading to unfair and biased results. Previous studies claim continuous performance improvements, but our findings challenge such assertions. Using these insights, we propose a unified protocol for database partitioning that ensures fairness and comparability. We provide detailed demographic annotations (in terms of race, gender and age), evaluation metrics, and a common framework for expression recognition, action unit detection and valence-arousal estimation. We also rerun the methods with the new protocol and introduce a new leaderboards to encourage future research in affect recognition with a fairer comparison. Our annotations, code, and pre-trained models are available on \hyperlink{https://github.com/dkollias/Fair-Consistent-Affect-Analysis}{Github}.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# SpecRover: LLMによるコードインテント抽出

SpecRover: Code Intent Extraction via LLMs ( http://arxiv.org/abs/2408.02232v2 )

ライセンス: Link先を確認
Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury, (参考訳) 自動プログラムの改善は通常、バグ修正と機能追加を自動的に生成する。 このようなプログラム改善は、LLMエージェントの形式で、大きな言語モデル(LLM)とプログラム解析機能を組み合わせることで達成できる。 プログラムの修復やプログラムの改善は通常、意図した振る舞いの仕様を必要とするので、仕様推論は高品質なプログラムパッチを作成するのに役立ちます。 本研究では,LLMエージェント内での反復的仕様推論のための効率的かつ低コストなワークフローについて検討する。 ソフトウェアプロジェクトで解決すべきGitHubの問題を考えると、私たちのゴールは、仕様推論を伴う反復的なコード検索を行うことです。 これらを捉えた意図は、レビューエージェントによって、パッチを検証するとともに、検証されたパッチに対する信頼性の尺度を提供することを目標として検査される。 当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。 2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。 利用可能なオープンソースエージェントと比較して、当社の作業は、SWE-Bench liteにおけるGitHubの平均的な問題を解決する上で、控えめなコスト(イシューあたり0.65ドル)を示しています。 SpecRoverによる説明の生成により、提案されたパッチが信頼できる形で受け入れられる場合において、より優れた"署名"が開発者に与えられるようになる。 SpecRoverはまた、プログラム修復技術がLLM時代に入ったとしても、自動プログラム修復における仕様推論の継続的な重要性を実証しようと試みている。

Autonomous program improvement typically involves automatically producing bug fixes and feature additions. Such program improvement can be accomplished by a combination of large language model (LLM) and program analysis capabilities, in the form of an LLM agent. Since program repair or program improvement typically requires a specification of intended behavior - specification inference can be useful for producing high quality program patches. In this work, we examine efficient and low-cost workflows for iterative specification inference within an LLM agent. Given a GitHub issue to be resolved in a software project, our goal is to conduct iterative code search accompanied by specification inference - thereby inferring intent from both the project structure and behavior. The intent thus captured is examined by a reviewer agent with the goal of vetting the patches as well as providing a measure of confidence in the vetted patches. Our approach SpecRover (AutoCodeRover-v2) is built on the open-source LLM agent AutoCodeRover. In an evaluation on the full SWE-Bench consisting of 2294 GitHub issues, it shows more than 50% improvement in efficacy over AutoCodeRover. Compared to the open-source agents available, our work shows modest cost ($0.65 per issue) in resolving an average GitHub issue in SWE-Bench lite. The production of explanation by SpecRover allows for a better "signal" to be given to the developer, on when the suggested patches can be accepted with confidence. SpecRover also seeks to demonstrate the continued importance of specification inference in automated program repair, even as program repair technologies enter the LLM era.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 標準機械学習ツールを用いた多層動的スピントロニクスネットワークの訓練と時系列分類

Training a multilayer dynamical spintronic network with standard machine learning tools to perform time series classification ( http://arxiv.org/abs/2408.02835v2 )

ライセンス: Link先を確認
Erwan Plouet, Dédalo Sanz-Hernández, Aymeric Vecchiola, Julie Grollier, Frank Mizrahi, (参考訳) 低コストで時系列を処理できることは多くのアプリケーションにとって重要である。 このようなタスクを実行できるリカレントニューラルネットワークは、従来のコンピュータ上でソフトウェアを実装する場合、計算コストがかかる。 本稿では,スピントロニック振動子を動的ニューロンとして用いたハードウェア上でのリカレントニューラルネットワークを提案する。 数値シミュレーションを用いて,多層ネットワークを構築し,BPTT(back propagation through time)と標準機械学習ツールを用いてネットワークをトレーニングできることを実証する。 スピントロニック発振器の過渡ダイナミクスを活用して、シーケンシャル桁分類タスクを89.83\pm2.91~\%$精度で解く。 我々は、異なる入力時間スケールに対応するために、発振器の時間定数とネットワークのハイパーパラメータをどう選択するかのガイドラインを考案する。

The ability to process time-series at low energy cost is critical for many applications. Recurrent neural network, which can perform such tasks, are computationally expensive when implementing in software on conventional computers. Here we propose to implement a recurrent neural network in hardware using spintronic oscillators as dynamical neurons. Using numerical simulations, we build a multi-layer network and demonstrate that we can use backpropagation through time (BPTT) and standard machine learning tools to train this network. Leveraging the transient dynamics of the spintronic oscillators, we solve the sequential digits classification task with $89.83\pm2.91~\%$ accuracy, as good as the equivalent software network. We devise guidelines on how to choose the time constant of the oscillators as well as hyper-parameters of the network to adapt to different input time scales.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 擬似魔法:ハイブリッドマンバGCNネットワークを用いた効率的で時間的に一貫性のある人間の擬似感情推定

Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network ( http://arxiv.org/abs/2408.02922v2 )

ライセンス: Link先を確認
Xinyi Zhang, Qiqi Bao, Qinpeng Cui, Wenming Yang, Qingmin Liao, (参考訳) HPE(3D Human Pose Estimation)におけるSOTA(State-of-the-art)法は主にトランスフォーマーに基づいている。 しかし、既存のTransformerベースの3D HPEバックボーンは、精度と計算効率のトレードオフに遭遇することが多い。 上記のジレンマを解決するため、本稿では状態空間モデルの最近の進歩を活用し、Mambaを高品質で効率的な長距離モデリングに活用する。 それでもMambaは,関節間のローカル依存関係を正確に活用する上で,依然として課題に直面している。 これらの課題に対処するために,Hybrid Mamba-GCN (Pose Magic) という,注目のない新しいハイブリッド時空間アーキテクチャを提案する。 このアーキテクチャは、隣接する関節間の関係を捉えることによってGCNによる局所的な拡張を導入し、Mambaの出力を補完する新しい表現を生成する。 MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。 リアルタイム推論の要件を満たすため、完全な因果バージョンも提供します。 大規模な実験によると、Pose Magicは新たなSOTA結果(\downarrow 0.9 mm$)を達成し、74.1\%のFLOPを節約している。 さらに、Pose Magicは最適な動きの一貫性と、目に見えないシーケンス長に一般化する能力を示す。

Current state-of-the-art (SOTA) methods in 3D Human Pose Estimation (HPE) are primarily based on Transformers. However, existing Transformer-based 3D HPE backbones often encounter a trade-off between accuracy and computational efficiency. To resolve the above dilemma, in this work, we leverage recent advances in state space models and utilize Mamba for high-quality and efficient long-range modeling. Nonetheless, Mamba still faces challenges in precisely exploiting local dependencies between joints. To address these issues, we propose a new attention-free hybrid spatiotemporal architecture named Hybrid Mamba-GCN (Pose Magic). This architecture introduces local enhancement with GCN by capturing relationships between neighboring joints, thus producing new representations to complement Mamba's outputs. By adaptively fusing representations from Mamba and GCN, Pose Magic demonstrates superior capability in learning the underlying 3D structure. To meet the requirements of real-time inference, we also provide a fully causal version. Extensive experiments show that Pose Magic achieves new SOTA results ($\downarrow 0.9 mm$) while saving $74.1\%$ FLOPs. In addition, Pose Magic exhibits optimal motion consistency and the ability to generalize to unseen sequence lengths.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 深部展開型局所量子アニール

Deep Unfolded Local Quantum Annealing ( http://arxiv.org/abs/2408.03026v2 )

ライセンス: Link先を確認
Shunta Arai, Satoshi Takabe, (参考訳) 反復アルゴリズムである局所量子アニール (LQA) は組合せ最適化問題の解法として設計されている。 これは、ある対象関数の大域的最小値を決定するために断熱時間進化を利用するQAからインスピレーションを得ている。 元の LQA では、古典的ハミルトニアンは勾配降下によって最小化される。 LQAの性能はパラメータの選択に依存する。 原価関数の非凸性のため、LQAは局所ミニマに閉じ込められ、その効果が制限される。 この課題に対処するために、LQAと深い展開スキームを組み合わせることで、バックプロパゲーションを通じてトレーニングデータからパラメータをチューニングできる。 その結果, 深部展開LQAは元のLQAよりも優れており, 収束速度と性能が著しく向上していることがわかった。 トレーニングされたパラメータは未知のインスタンスや異なるシステムサイズに一般化できるため、本研究の結果は重要な実践的意味を持ち、現実世界のアプリケーションに貴重な洞察を与えてくれる。

Local quantum annealing (LQA), an iterative algorithm, is designed to solve combinatorial optimization problems. It draws inspiration from QA, which utilizes adiabatic time evolution to determine the global minimum of a given objective function. In the original LQA, the classical Hamiltonian is minimized via gradient descent. The performance of LQA depends on the choice of the parameters. Owing to the non-convex nature of the original cost function, LQA often becomes trapped in local minima, limiting its effectiveness. To address this challenge, we combine LQA with a deep unfolding scheme, which enables us to tune the parameters from the training data via back-propagation. Our findings demonstrate that deep unfolded LQA outperforms the original LQA, exhibiting remarkable convergence speed and performance improvement. As the trained parameters can be generalized to unknown instances and different system sizes, our results have significant practical implications and provide valuable insights for real-world applications.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 強化学習のための高能率自己適応型逆方向整形

Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning ( http://arxiv.org/abs/2408.03029v2 )

ライセンス: Link先を確認
Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong, (参考訳) Reward Shapingは、より高密度でより情報的な報酬信号を構築することで、強化学習におけるスパース報酬の課題に対処する。 自己適応的かつ高効率な報酬形成を実現するために,歴史的経験から得られた成功率を形状報酬に組み込む手法を提案する。 提案手法は, ベータ分布から採取した成功率を利用して, より多くのデータが収集されるにつれて, 不確実な値から信頼性のある値へと動的に進化する。 最初は、自己適応的な成功率は、探索を促進するためによりランダム性を示す。 時間が経つにつれて、彼らは搾取を強化し、探検と搾取のバランスを良くするようになる。 我々はKDE(カーネル密度推定)とRFF(ランダムフーリエ特徴量)を組み合わせてベータ分布を導出し,高次元連続状態空間における計算効率の良い実装を実現する。 この方法は、非パラメトリックで学習自由なアプローチを提供する。 提案手法は,スパースおよび遅延報酬を用いた多種多様な連続制御タスクにおいて評価され,関連するベースラインと比較して試料効率および収束安定性が著しく向上したことを示す。

Reward shaping addresses the challenge of sparse rewards in reinforcement learning by constructing denser and more informative reward signals. To achieve self-adaptive and highly efficient reward shaping, we propose a novel method that incorporates success rates derived from historical experiences into shaped rewards. Our approach utilizes success rates sampled from Beta distributions, which dynamically evolve from uncertain to reliable values as more data is collected. Initially, the self-adaptive success rates exhibit more randomness to encourage exploration. Over time, they become more certain to enhance exploitation, thus achieving a better balance between exploration and exploitation. We employ Kernel Density Estimation (KDE) combined with Random Fourier Features (RFF) to derive the Beta distributions, resulting in a computationally efficient implementation in high-dimensional continuous state spaces. This method provides a non-parametric and learning-free approach. The proposed method is evaluated on a wide range of continuous control tasks with sparse and delayed rewards, demonstrating significant improvements in sample efficiency and convergence stability compared to relevant baselines.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# TestART: 自動生成と修復の同時進化によるLCMベースのユニットテストの改善

TestART: Improving LLM-based Unit Test via Co-evolution of Automated Generation and Repair Iteration ( http://arxiv.org/abs/2408.03095v2 )

ライセンス: Link先を確認
Siqi Gu, Chunrong Fang, Quanjun Zhang, Fangyuan Tian, Zhenyu Chen, (参考訳) 単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。 既存の自動単体テスト生成方法は、主に開発者を解放するための検索ベースのソフトウェアテスト(SBST)と言語モデルに基づいている。 近年,大規模言語モデル (LLM) が顕著な推論と生成能力を示している。 しかしながら, 1) LLMは, 文脈が不十分な場合に, 不正なテストケースを生成でき, コンパイルエラーが発生し, (2) テストやカバレッジのフィードバック情報が不足すると, 実行時のエラーやカバレッジ率の低下が発生する。 (3) 反復抑制問題により, LLMは自己再生や再生の繰り返しループに陥る。 本稿では,LLMの強みを生かした新しい単体テスト生成手法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。 TestARTはテンプレートベースの修復技術を活用して、LCM生成のテストケースのバグを修正し、プロンプトインジェクションを使用して、次のステップの自動生成をガイドし、繰り返しの抑制を回避する。 さらに、TestARTはパスしたテストケースからカバレッジ情報を抽出し、テストフィードバックとして利用して最終テストケースの効率を高める。 この生成と修復の相乗効果は、生成したテストケースの品質、有効性、可読性を高める。 比較実験では、TestARTの生成したテストケースのパスレートは78.55%であり、ChatGPT-4.0モデルとChatGPT-3.5ベースのChatUniTestの両方よりも約18%高い。 また、テストに合格した焦点メソッドの90.96%のラインカバレッジ率も達成し、EvoSuiteを3.4%上回った。

Unit test is crucial for detecting bugs in individual program units but consumes time and effort. The existing automated unit test generation methods are mainly based on search-based software testing (SBST) and language models to liberate developers. Recently, large language models (LLMs) have demonstrated remarkable reasoning and generation capabilities. However, several problems limit their ability to generate high-quality test cases: (1) LLMs may generate invalid test cases under insufficient context, resulting in compilation errors; (2) Lack of test and coverage feedback information may cause runtime errors and low coverage rates. (3) The repetitive suppression problem causes LLMs to get stuck into the repetition loop of self-repair or re-generation attempts. In this paper, we propose TestART, a novel unit test generation method that leverages the strengths of LLMs while overcoming the limitations mentioned. TestART improves LLM-based unit test via co-evolution of automated generation and repair iteration. TestART leverages the template-based repair technique to fix bugs in LLM-generated test cases, using prompt injection to guide the next-step automated generation and avoid repetition suppression. Furthermore, TestART extracts coverage information from the passed test cases and utilizes it as testing feedback to enhance the sufficiency of the final test case. This synergy between generation and repair elevates the quality, effectiveness, and readability of the produced test cases significantly beyond previous methods. In comparative experiments, the pass rate of TestART-generated test cases is 78.55%, which is approximately 18% higher than both the ChatGPT-4.0 model and the same ChatGPT-3.5-based method ChatUniTest. It also achieves an impressive line coverage rate of 90.96% on the focal methods that passed the test, exceeding EvoSuite by 3.4%.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# ナチュラル・ヒューマン・ドライビング・プライオリティを用いた対人安全批判シナリオ生成

Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors ( http://arxiv.org/abs/2408.03200v2 )

ライセンス: Link先を確認
Kunkun Hao, Yonggang Luo, Wen Cui, Yuqiao Bai, Jucheng Yang, Songyang Yan, Yuxi Pan, Zijiang Yang, (参考訳) 自動運転車の開発には意思決定システムの評価が不可欠であり、現実的で挑戦的な安全クリティカルなテストシナリオが重要な役割を果たす。 これらのシナリオの達成は、現実世界のデータセットにおける長い尾の分布、空間性、希少性のおかげで、簡単ではない。 この問題に対処するために,本論文では,自然主義的人間運転先行と強化学習技術を用いた自然な逆シナリオ生成ソリューションを提案する。 これを行うことで、多様かつ現実的な大規模なテストシナリオが得られます。 具体的には、自然の交通相互作用のシナリオを模倣するシミュレーション環境を構築する。 この環境により、我々は2段階の手順を実装した。 第1段階では、従来のルールベースのモデル、例えば、IMM~(Intelligent Driver Model)、MOBIL~(Lane Changeによって誘導される総合ブレーキの最小化)モデルを導入し、現実世界のデータセットからキー制御パラメータを粗く、離散的にキャプチャし、校正する。 次に、GAIL~(Generative Adversarial Imitation Learning)を利用して、ドライバーの動作を継続的に表現する。 GAILは、PPO~(Proximal Policy Optimization)ベースのアクタークリティカルネットワークフレームワークを設計し、報酬関数を微調整し、自然なシナリオ生成ソリューションを最適化する。 NGSIMデータセットでは3,000台の車両の軌道を含む大規模な実験が行われた。 交通パラメータは, ベースラインモデル, 衝突速度, 加速度, ステアリング, レーン数と比較した。 提案モデルにより, 自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオが生成できることが, 自動運転車開発の基礎となることを実証した。

Evaluating the decision-making system is indispensable in developing autonomous vehicles, while realistic and challenging safety-critical test scenarios play a crucial role. Obtaining these scenarios is non-trivial, thanks to the long-tailed distribution, sparsity, and rarity in real-world data sets. To tackle this problem, in this paper, we introduce a natural adversarial scenario generation solution using naturalistic human driving priors and reinforcement learning techniques. By doing this, we can obtain large-scale test scenarios that are both diverse and realistic. Specifically, we build a simulation environment that mimics natural traffic interaction scenarios. Informed by this environment, we implement a two-stage procedure. The first stage incorporates conventional rule-based models, e.g., IDM~(Intelligent Driver Model) and MOBIL~(Minimizing Overall Braking Induced by Lane changes) model, to coarsely and discretely capture and calibrate key control parameters from the real-world dataset. Next, we leverage GAIL~(Generative Adversarial Imitation Learning) to represent driver behaviors continuously. The derived GAIL can be further used to design a PPO~(Proximal Policy Optimization)-based actor-critic network framework to fine-tune the reward function, and then optimizes our natural adversarial scenario generation solution. Extensive experiments have been conducted in the NGSIM dataset including the trajectory of 3,000 vehicles. Essential traffic parameters were measured in comparison with the baseline model, e.g., the collision rate, accelerations, steering, and the number of lane changes. Our findings demonstrate that the proposed model can generate realistic safety-critical test scenarios covering both naturalness and adversariality, which can be a cornerstone for the development of autonomous vehicles.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# StructEval:構造化評価による大規模言語モデル評価の深化と広化

StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation ( http://arxiv.org/abs/2408.03281v2 )

ライセンス: Link先を確認
Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun, (参考訳) 評価は、大きな言語モデルを開発するためのバトンである。 現在の評価では、通常、各原子テストの目標に対して単一項目の評価パラダイムが採用されている。これは、モデルが本当に必要な能力を持っているか、あるいは単に特定の質問に対する回答を覚えたり、理解したりするのに苦労している。 そこで本研究では,StructEvalと呼ばれる新しい評価フレームワークを提案する。 原子実験の目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張し、LLMに対して包括的で堅牢で一貫した評価を提供する。 広く使用されている3つのベンチマークの実験では、StructEvalはデータ汚染のリスクに抵抗し、潜在的なバイアスの干渉を減らすための信頼性の高いツールとして機能し、モデル機能に関するより信頼性が高く一貫性のある結論を提供する。 我々のフレームワークはまた、将来の原則および信頼性の高いLCM評価プロトコルの設計にも光を当てています。

Evaluation is the baton for the development of large language models. Current evaluations typically employ a single-item assessment paradigm for each atomic test objective, which struggles to discern whether a model genuinely possesses the required capabilities or merely memorizes/guesses the answers to specific questions. To this end, we propose a novel evaluation framework referred to as StructEval. Starting from an atomic test objective, StructEval deepens and broadens the evaluation by conducting a structured assessment across multiple cognitive levels and critical concepts, and therefore offers a comprehensive, robust and consistent evaluation for LLMs. Experiments on three widely-used benchmarks demonstrate that StructEval serves as a reliable tool for resisting the risk of data contamination and reducing the interference of potential biases, thereby providing more reliable and consistent conclusions regarding model capabilities. Our framework also sheds light on the design of future principled and trustworthy LLM evaluation protocols.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07
# 局所グラフ推論を用いた悪意のあるインターネットエンティティ検出

Malicious Internet Entity Detection Using Local Graph Inference ( http://arxiv.org/abs/2408.03287v2 )

ライセンス: Link先を確認
Simon Mandlik, Tomas Pevny, Vaclav Smidl, Lukas Bajer, (参考訳) 大規模ネットワークにおける悪意のある振る舞いの検出は、高い表現力とスケーラブルな推論を必要とするため、コンピュータセキュリティにおいて機械学習にとって難しい問題である。 既存のソリューションは、この偉業を達成するのに苦労している。現在のサイバーシークで調整されたアプローチは、まだ表現力に制限があり、他のドメインで成功したメソッドは、大量のデータに対してうまくスケールできないため、頻繁な再トレーニングは不可能である。 本研究では,ネットワークエンティティ間の相互作用を異種グラフとしてモデル化するグラフデータから学習する新たな視点を提案する。 この手法の高表現性は、ニューラルネットワークアーキテクチャのHMILnetによって達成され、このタイプのデータを自然にモデル化し、理論的保証を提供する。 このスケーラビリティは、局所グラフ推論、すなわち個々の頂点とその近傍を独立したサンプルとして分類することで達成される。 我々の実験は、最先端の確率的脅威伝播(PTP)アルゴリズムの改善を示し、PTPアルゴリズムでは不可能な追加データを使用した場合、さらに3倍の精度の向上を示し、従来見つからなかった新しいエンティティへの一般化能力を実証した。

Detection of malicious behavior in a large network is a challenging problem for machine learning in computer security, since it requires a model with high expressive power and scalable inference. Existing solutions struggle to achieve this feat -- current cybersec-tailored approaches are still limited in expressivity, and methods successful in other domains do not scale well for large volumes of data, rendering frequent retraining impossible. This work proposes a new perspective for learning from graph data that is modeling network entity interactions as a large heterogeneous graph. High expressivity of the method is achieved with neural network architecture HMILnet that naturally models this type of data and provides theoretical guarantees. The scalability is achieved by pursuing local graph inference, i.e., classifying individual vertices and their neighborhood as independent samples. Our experiments exhibit improvement over the state-of-the-art Probabilistic Threat Propagation (PTP) algorithm, show a further threefold accuracy improvement when additional data is used, which is not possible with the PTP algorithm, and demonstrate the generalization capabilities of the method to new, previously unseen entities.
翻訳日:2024-08-08 12:15:09 公開日:2024-08-07