このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240904となっている論文です。

PDF登録状況(公開日: 20240904)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子文脈トポスの基礎--量子論理におけるモダリティとトポス理論の統合

Foundations of Quantum Contextual Topos: Integrating Modality and Topos Theory in Quantum Logic ( http://arxiv.org/abs/2409.12198v1 )

ライセンス: Link先を確認
Jesse Werbow, (参考訳) 本稿では,従来の量子論理をtopos-theoretic構造に埋め込むことで拡張する新しいフレームワークであるQuantum Contextual Topos (QCT)を紹介する。 このフレームワークは、量子力学の論理的基礎を探索するための古典的に従順なツールを提供することを目指している。 QCTフレームワークは、古典的な量子論理の限界、特に量子現象の動的および文脈的性質を捉える際の課題に対処することを目的としている。 モーダル作用素と古典命題論理をトポス構造に統合することにより、QCTは量子システムをモデル化するための統一的なアプローチを提供する。 この研究の主な成果は、QCTの内部論理が古典命題多元論理の形式に対応することを示すことである。 我々は、多元環とその基礎となるストーン空間の特定のケースに対して、ストーンの表現定理を一般化することでこれを実現している。

This paper introduces the Quantum Contextual Topos (QCT), a novel framework that extends traditional quantum logic by embedding contextual elements within a topos-theoretic structure. This framework seeks to provide a classically-obedient tool for exploring the logical foundations of quantum mechanics. The QCT framework aims to address the limitations of classical quantum logic, particularly its challenges in capturing the dynamic and contextual nature of quantum phenomena. By integrating modal operators and classical propositional logic within a topos structure, the QCT offers a unified approach to modeling quantum systems. The main result of this work is demonstrating that the internal logic of QCT corresponds to a form of classical propositional polymodal logic. We do this by generalizing Stone's Representation Theorem for a specific case of polymodal algebras and their underlying Stone Spaces.
翻訳日:2024-11-07 19:26:16 公開日:2024-09-04
# ブラジルテレグラムの新世界秩序、グローバル主義、QAnonコミュニティ : 共謀がより有害な集団にどのように扉を開くか

New world order, globalism and QAnon communities on Brazilian Telegram: how conspiracism opens doors to more harmful groups ( http://arxiv.org/abs/2409.12983v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 新世界秩序(NWO)、グローバリズム、QAnonを含む陰謀論は、特に新型コロナウイルスのパンデミックのような世界的な危機の中で、ブラジル電報に関する議論の中心となっている。 そこで本研究では, ブラジルの陰謀論コミュニティが, 新たな世界秩序, グローバル主義, QAnon のトピックをテレグラムで明らかにし, どのように扱うのか, という研究課題に対処することを目的とする。 この研究は、ブラジルの陰謀論コミュニティをテレグラム上で理解し、特徴づけることが主な目的である7つの研究のシリーズの一部であることは注目に値する。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、最初は7つの研究にミラーリングされた手法を適用し、分析の主題だけを変更し、プロプライエタリで認可されたコードを含む調査の再現性を提供し、フリーでオープンソースのソフトウェアの文化を付加した。 この研究の主な成果は、NWOとグローバリズムが陰謀論の普及の中心的触媒となっていること、QAnonがNWOとグローバリズムを結び付ける中心的な物語として活動していること、危機時においてNWOの言及が指数関数的に増加し、機関の不信を反映していること、NWOとグローバリズムが反ワクチンなどの陰謀論の支持者を引きつけ、陰謀論ネットワークのメインゲートキーパーとして機能すること、宗教的な物語がNWOの正当化、イデオロギー的結束の強化にしばしば使用されること、である。

Conspiracy theories involving the New World Order (NWO), Globalism, and QAnon have become central to discussions on Brazilian Telegram, especially during global crises such as the COVID-19 pandemic. Therefore, this study aims to address the research question: how are Brazilian conspiracy theory communities on new world order, globalism and QAnon topics characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies whose main objective is to understand and characterize Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on arXiv at Cornell University, applying a mirrored method across the seven studies, changing only the thematic object of analysis and providing investigation replicability, including with proprietary and authored codes, adding to the culture of free and open-source software. Regarding the main findings of this study, the following were observed: NWO and Globalism have become central catalysts for the dissemination of conspiracy theories; QAnon acts as a hub narrative that connects NWO and Globalism; During crises, mentions of NWO have grown exponentially, reflecting distrust in institutions; NWO and Globalism attract followers of other conspiracy theories, such as anti-vaccines, serving as the main gatekeeper of the entire conspiracy theory network; Religious narratives are often used to legitimize NWO, reinforcing ideological cohesion.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-04
# Cプログラムにおける非終端チェックの深さの浅い潜入

A shallow dive into the depths of non-termination checking for C programs ( http://arxiv.org/abs/2409.12985v1 )

ライセンス: Link先を確認
Ravindra Metta, Hrishikesh Karmarkar, Kumar Madhukar, R Venkatesh, Supratik Chakraborty, Samarjit Chakraborty, (参考訳) 与えられたプログラムPの非終端チェック(NT)、すなわち、Pが少なくとも1つの非終端ランを持っているかどうかを決定することは、決定不能な問題であり、重要な研究の注目を集め続けている。 非意図のNTは、現実世界のソフトウェア開発では一般的であるが、NTチェックの最高のパフォーマンスツールでさえ、実際のプログラムでは効果がなく、オーバーフローの欠如のような非現実的な仮定のため、しばしば正しくない。 そこで本研究では,実世界のソフトウェアにも有効であるNTチェックのための,健全で効率的な手法を提案する。 P が与えられたとき、我々は NT プロパティを P の各ループ内のアサーションとしてエンコードし、境界モデルチェッカーを用いて、そのループ内のリカレント状態をチェックする。 曲がらない深さは、NTが見つかるか、予め定義された限界に達するまで反復的に増加する。 幅広いソフトウェアベンチマーク実験により、この手法は最先端のNTチェッカーより優れていることが示された。

Checking for Non-Termination (NT) of a given program P, i.e., determining if P has at least one non-terminating run, is an undecidable problem that continues to garner significant research attention. While unintended NT is common in real-world software development, even the best-performing tools for NT checking are often ineffective on real-world programs and sometimes incorrect due to unrealistic assumptions such as absence of overflows. To address this, we propose a sound and efficient technique for NT checking that is also effective on realworld software. Given P, we encode the NT property as an assertion inside each loop of P to check for recurrent states in that loop, up to a fixed unwinding depth, using a Bounded Model Checker. The unwinding depth is increased iteratively until either NT is found or a predefined limit is reached. Our experiments on wide ranging software benchmarks show that the technique outperforms state-of-the-art NT checkers
翻訳日:2024-11-07 12:25:44 公開日:2024-09-04
# 双曲型脳表現

Hyperbolic Brain Representations ( http://arxiv.org/abs/2409.12990v1 )

ライセンス: Link先を確認
Alexander Joseph, Nathan Francis, Meijke Balay, (参考訳) 人工ニューラルネットワーク(ANN)は人間の脳のアーキテクチャと機能にインスパイアされ、人工知能(AI)の分野に革命をもたらした。 機械学習における双曲幾何学の研究と応用の増大は、脳の潜伏幾何学の研究に触発され、精度の向上、特徴空間表現の改善、タスクの範囲におけるより効率的なモデルの改善につながると仮定する。 人間の脳の構造と機能を見て、脳の階層的性質と双曲幾何学の整合性を強調します。 脳の複雑なニューロンのネットワークとその認知過程を調べることで、双曲的幾何学が人間の知性においてどのように重要な役割を担っているかを説明する。 経験的証拠は、双曲型ニューラルネットワークが自然言語処理、コンピュータビジョン、複雑なネットワーク分析などのタスクにおいてユークリッドモデルを上回っ、パラメータを少なくし、より良い一般化を示すことを示している。 初期の採用にもかかわらず、双曲幾何学は機械学習モデルの改善とAGIに向けた分野の前進を約束している。

Artificial neural networks (ANN) were inspired by the architecture and functions of the human brain and have revolutionised the field of artificial intelligence (AI). Inspired by studies on the latent geometry of the brain we posit that an increase in the research and application of hyperbolic geometry in machine learning will lead to increased accuracy, improved feature space representations and more efficient models across a range of tasks. We look at the structure and functions of the human brain, highlighting the alignment between the brain's hierarchical nature and hyperbolic geometry. By examining the brain's complex network of neuron connections and its cognitive processes, we illustrate how hyperbolic geometry plays a pivotal role in human intelligence. Empirical evidence indicates that hyperbolic neural networks outperform Euclidean models for tasks including natural language processing, computer vision and complex network analysis, requiring fewer parameters and exhibiting better generalisation. Despite its nascent adoption, hyperbolic geometry holds promise for improving machine learning models and advancing the field toward AGI.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-04
# プロンプトベーキング

Prompt Baking ( http://arxiv.org/abs/2409.13697v1 )

ライセンス: Link先を確認
Aman Bhargava, Cameron Witkowski, Alexander Detkov, Matt Thomson, (参考訳) LLMの動作を変える2つの主要な方法は、プロンプトとウェイト更新(例えば、微調整)である。 LLMのプロンプティングは単純で効果的で、自然言語で望まれる変更を明示的に指定するのに対して、重み更新は大きなデータセットでのトレーニングを通じて暗黙的に指定される、より表現力が高く永続的な振る舞いの変化を提供する。 本稿では, LLM の重みに "baking" プロンプトを組み込む手法を提案する。 Prompt Bakingはプロンプト$u$と初期ウェイト$\theta$を新しいウェイトセット$\theta_u$に変換する。 数学的には、$P_\theta(\cdot | u)$と$P_{\theta_u}(\cdot)$の間のKLの発散を最小限に抑える。 すべての実験で、プロンプトは簡単に重み付けの更新に組み込めることが分かりました。 ベーキングチェーン・オブ・シークレットは、GSM8K、ASDiv、MBPP、ARC-Easy、ARC-Challenge、CommonsenseQAベンチマークのゼロショット性能を改善する。 ベーキングニュースの見出しは LLM の知識を直接更新する。 そして、指示やペルソナを焼くことで、長いシーケンスを「忘れるな」ことが軽減される。 さらに、焼くのを早く止めると「半焼」なモデルが生まれ、急激な強度を継続的に拡大する。 焼成されたモデルは、焼成されたプロンプトで再増殖するなど、さらなるプロンプトや焼成に対する感受性を維持している。 驚くべきことに、再試行されたモデルは、その後の命令、および数学推論とコーディングベンチマークにおいてさらなるパフォーマンス向上をもたらす。 再プロンプティングとリベーキングは、我々がPrompt Pursuitと呼ぶ反復的な自己改善の形式となり、劇的なパフォーマンス向上の後に指導の予備的な結果が得られます。 最後に、AIの安全性、継続的なモデル更新、LLMベースのエージェントにおけるリアルタイム学習能力の向上、より安定したAIペルソナの生成などについて論じる。

Two primary ways to change LLM behavior are prompting and weight updates (e.g., fine-tuning). Prompting LLMs is simple and effective, specifying the desired changes explicitly in natural language, whereas weight updates provide more expressive and permanent behavior changes, specified implicitly via training on large datasets. We present a technique for "baking" prompts into the weights of an LLM. Prompt Baking converts a prompt $u$ and initial weights $\theta$ to a new set of weights $\theta_u$ such that new "baked" LLM behaves like the original prompted LLM. Mathematically, we minimize the KL divergence between $P_\theta(\cdot | u)$ and $P_{\theta_u}(\cdot)$, where $P$ is the LLM's probability distribution over token sequences. Across all our experiments, we find prompts can be readily baked into weight updates. Baking chain-of-thought prompts improves zero-shot performance on GSM8K, ASDiv, MBPP, ARC-Easy, ARC-Challenge, and CommonsenseQA benchmarks. Baking news headlines directly updates an LLM's knowledge. And baking instructions & personas alleviates "prompt forgetting" over long sequences. Furthermore, stopping baking early creates "half-baked" models, continuously scaling prompt strength. Baked models retain their sensitivity to further prompting and baking, including re-prompting with the baked-in prompt. Surprisingly, the re-prompted models yield further performance gains in instruction following, as well as math reasoning and coding benchmarks. Taking re-prompting and re-baking to the limit yields a form of iterative self-improvement we call Prompt Pursuit, and preliminary results on instruction following exhibit dramatic performance gains. Finally, we discuss implications for AI safety, continuous model updating, enhancing real-time learning capabilities in LLM-based agents, and generating more stable AI personas.
翻訳日:2024-11-07 05:57:35 公開日:2024-09-04
# 学生のクリックストリームデータのクロスコースプロセスマイニング -集約とグループ比較-

Cross-course Process Mining of Student Clickstream Data -- Aggregation and Group Comparison ( http://arxiv.org/abs/2409.14244v1 )

ライセンス: Link先を確認
Tobias Hildebrandt, Lars Mehnen, (参考訳) 本稿では, プロセスフローを示すグラフの作成など, プロセスマイニングを容易にするため, Moodle などのコース管理システムから抽出した学生のインタラクションデータの作成と解析を行う新しい手法を提案する。 このようなグラフは非常に複雑になり、Moodleコースには数百の異なるアクティビティが含まれているため、異なる学生コホートのパスを比較するのが難しくなる。 さらに、既存の研究は個々のコースに焦点を絞っており、コースの境界を越える可能性のある潜在的なパターンを見落としている。 我々の研究は、MoodleデータベースからのデータをSQL経由で直接クエリする自動データフローを実装することで、これらの課題に対処します。 個別のMoodle活動の分析に加えて,集約されたコースセクションレベルでパターンを探索する。 さらに,コース横断のセクションラベルを標準化する手法を提案する。 以上の結果から,ハイパフォーマンスな学生は,より頻繁に活動し,物体間のダイナミックな動きを示す傾向を示すことが示唆された。 これらのパターンは、個々のコースのアクティビティイベントを分析する際に識別可能であるが、セクションレベルに集約して複数のコースで分析すると、より顕著になる。

This paper introduces novel methods for preparing and analyzing student interaction data extracted from course management systems like Moodle to facilitate process mining, like the creation of graphs that show the process flow. Such graphs can get very complex as Moodle courses can contain hundreds of different activities, which makes it difficult to compare the paths of different student cohorts. Moreover, existing research often confines its focus to individual courses, overlooking potential patterns that may transcend course boundaries. Our research addresses these challenges by implementing an automated dataflow that directly queries data from the Moodle database via SQL, offering the flexibility of filtering on individual courses if needed. In addition to analyzing individual Moodle activities, we explore patterns at an aggregated course section level. Furthermore, we present a method for standardizing section labels across courses, facilitating cross-course analysis to uncover broader usage patterns. Our findings reveal, among other insights, that higher-performing students demonstrate a propensity to engage more frequently with available activities and exhibit more dynamic movement between objects. While these patterns are discernible when analyzing individual course activity-events, they become more pronounced when aggregated to the section level and analyzed across multiple courses.
翻訳日:2024-11-06 23:37:15 公開日:2024-09-04
# 病理診断におけるコパイロットとしてのマルチモーダルチャットボットAIの可能性を探る:ジェネラリストモデルの落とし穴

Exploring the Feasibility of Multimodal Chatbot AI as Copilot in Pathology Diagnostics: Generalist Model's Pitfall ( http://arxiv.org/abs/2409.15291v1 )

ライセンス: Link先を確認
Mianxin Liu, Jianfeng Wu, Fang Yan, Hongjun Li, Wei Wang, Shaoting Zhang, Zhe Wang, (参考訳) 病理画像は、細胞および組織レベルの異常を可視化することにより、様々な疾患の診断および管理に不可欠である。 人工知能(AI)の最近の進歩、特にChatGPTのようなマルチモーダルモデルでは、医療ビジョン言語質問応答のような機能を通じて、医療画像分析を変換する可能性を示している。 しかし、臨床応用のために、これらのAIモデルと病理画像データを統合することには大きなギャップがある。 本研究は,病理画像におけるGPTの性能をベンチマークし,その診断精度と実単語臨床記録の効率を評価する。 骨疾患におけるGPTの有意な欠損と他の3つの疾患の公平なパフォーマンスを観察した。 良好な異常アノテーションを提供するにもかかわらず、GPTは用語の精度とマルチモーダル統合において一貫した欠点を示す。 具体的には,免疫組織化学的結果の解釈と転移性癌の診断におけるGPTの失敗を実証する。 本研究は、現在の一般GPTモデルの弱点を強調し、病理学と高度なAIの統合に寄与する。

Pathology images are crucial for diagnosing and managing various diseases by visualizing cellular and tissue-level abnormalities. Recent advancements in artificial intelligence (AI), particularly multimodal models like ChatGPT, have shown promise in transforming medical image analysis through capabilities such as medical vision-language question answering. However, there remains a significant gap in integrating pathology image data with these AI models for clinical applications. This study benchmarks the performance of GPT on pathology images, assessing their diagnostic accuracy and efficiency in real-word clinical records. We observe significant deficits of GPT in bone diseases and a fair-level performance in diseases from other three systems. Despite offering satisfactory abnormality annotations, GPT exhibits consistent disadvantage in terminology accuracy and multimodal integration. Specifically, we demonstrate GPT's failures in interpreting immunohistochemistry results and diagnosing metastatic cancers. This study highlight the weakness of current generalist GPT model and contribute to the integration of pathology and advanced AI.
翻訳日:2024-11-06 20:16:59 公開日:2024-09-04
# SketcherX: 拡散モデルとベクトル化技術を用いたAI駆動型インタラクティブロボット描画

SketcherX: AI-Driven Interactive Robotic drawing with Diffusion model and Vectorization Techniques ( http://arxiv.org/abs/2409.15292v1 )

ライセンス: Link先を確認
Jookyung Song, Mookyoung Kang, Nojun Kwak, (参考訳) SketcherXは、対話型人間ロボットエンゲージメントによる人物像のパーソナライズのための新しいロボットシステムである。 アナログ印刷技術に頼っている従来のロボットアートシステムとは異なり、SketcherXは顔画像をキャプチャして処理し、独特な人間のような芸術スタイルでベクター化された描画を生成する。 本システムは、6軸ロボットアームと、リアルタイムインタラクションのためのヘッドマウントカメラとLarge Language Model(LLM)を備えた顔ロボットと、動的でスタイリングされた描画のための微調整された安定拡散モデル、制御ネット、ビジョンランゲージモデルを利用する描画ロボットとからなる。 我々の貢献には、カスタムベクター低ランク適応モデル(LoRA)の開発、様々な芸術スタイルへのシームレスな適応、ストローク品質とスタイリスティックな精度を高めるためのペアワイズ微調整アプローチの統合などが含まれます。 実験の結果、2分以内に高品質でパーソナライズされた肖像画を制作できることが示され、ロボットの創造性の新しいパラダイムとしての可能性を強調した。 この研究は、ロボットを創造プロセスの活発な参加者として位置づけ、対話的で人間とロボットの芸術的コラボレーションにおける将来の探索の道を開くことによって、ロボット芸術の分野を前進させる。

We introduce SketcherX, a novel robotic system for personalized portrait drawing through interactive human-robot engagement. Unlike traditional robotic art systems that rely on analog printing techniques, SketcherX captures and processes facial images to produce vectorized drawings in a distinctive, human-like artistic style. The system comprises two 6-axis robotic arms : a face robot, which is equipped with a head-mounted camera and Large Language Model (LLM) for real-time interaction, and a drawing robot, utilizing a fine-tuned Stable Diffusion model, ControlNet, and Vision-Language models for dynamic, stylized drawing. Our contributions include the development of a custom Vector Low Rank Adaptation model (LoRA), enabling seamless adaptation to various artistic styles, and integrating a pair-wise fine-tuning approach to enhance stroke quality and stylistic accuracy. Experimental results demonstrate the system's ability to produce high-quality, personalized portraits within two minutes, highlighting its potential as a new paradigm in robotic creativity. This work advances the field of robotic art by positioning robots as active participants in the creative process, paving the way for future explorations in interactive, human-robot artistic collaboration.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# バージョン管理と自動フィードバックによるMBSE教育の強化

Enhancing MBSE Education with Version Control and Automated Feedback ( http://arxiv.org/abs/2409.15294v1 )

ライセンス: Link先を確認
Levente Bajczi, Dániel Szekeres, Daniel Siegl, Vince Molnár, (参考訳) 本稿では,モデルベースシステム工学(MBSE)コースを毎年80名を超える参加者で実施する革新的な手法を提案する。 このコースは、学生がEnterprise Architectを使って6つのサブミッションで複雑なシステムエンジニアリングタスクを完了する、協調的なグループ割り当てを中心に構成されている。 今年は、LemonTree、SmartGit、GitHubなど、学習エクスペリエンスを向上させるためのいくつかの技術的進歩を紹介しました。 学生はGitHubの共有リポジトリで協力し、LemonTree Automationを通じて自動チェックを通じて継続的なフィードバックを受け、事前にレンダリングされ、継続的に更新されたダイアグラムで進捗状況をドキュメント化した。 さらに、SmartGitで直接2方向と3方向のマージを管理し、各Work-in-Progressサブミッションで利用可能なマージ問題、更新、モデル統計をマージした。 GitHubのアクセス可能な変更ログとレンダリングのおかげで、手動によるフィードバックの修正と提供のプロセスが合理化された。 終末フィードバック形式では,生徒の満足度が高いことが判明した。

This paper presents an innovative approach to conducting a Model-Based Systems Engineering (MBSE) course, engaging over 80 participants annually. The course is structured around collaborative group assignments, where students utilize Enterprise Architect to complete complex systems engineering tasks across six submissions. This year, we introduced several technological advancements to enhance the learning experience, including the use of LemonTree, SmartGit, and GitHub. Students collaborated on shared repositories in GitHub, received continuous feedback via automated checks through LemonTree Automation, and documented their progress with pre-rendered, continuously updating diagrams. Additionally, they managed 2-way and 3-way merges directly in SmartGit, with merge issues, updates, and model statistics readily available for each Work-in-Progress submission. The process of correcting and providing manual feedback was streamlined, thanks to accessible changelogs and renders in GitHub. An end-of-course feedback form revealed high student satisfaction.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# 教育における人工知能 : 古代ギリシア哲学の倫理的考察と展望

Artificial Intelligence in Education: Ethical Considerations and Insights from Ancient Greek Philosophy ( http://arxiv.org/abs/2409.15296v1 )

ライセンス: Link先を確認
Kostas Karpouzis, (参考訳) 本稿では,小学校から大学まで,人工知能(AI)を教育環境に統合する上での倫理的意義を考察するとともに,古代ギリシア哲学から洞察を引き出し,新たな懸念に対処する。 AI技術が学習環境に影響を及ぼすにつれて、パーソナライズされた学習、効率的な評価、データ駆動型意思決定のための新たな機会を提供する。 しかし、これらの進歩は、データのプライバシー、アルゴリズムバイアス、学生の自律性、教育者の役割の変化に関する批判的な倫理的問題も提起している。 本研究では、教育におけるAIの特定の利用事例を調査し、その潜在的な利点と欠点の両方を分析した。 ソクラテス、アリストテレス、プラトンといった古代ギリシアの思想家の哲学的原理を再考することにより、現代の教育におけるAIの倫理的実践をどのように導くかについて議論する。 論文は、AIは重大な課題を提示するが、古典哲学的思想によって知らされるバランスのとれたアプローチは、倫理的に健全な教育の変容につながると論じている。 ファシリテーターとしての教師の役割の進化と、AIに富む環境における学生主導の育成の重要性を強調している。

This paper explores the ethical implications of integrating Artificial Intelligence (AI) in educational settings, from primary schools to universities, while drawing insights from ancient Greek philosophy to address emerging concerns. As AI technologies increasingly influence learning environments, they offer novel opportunities for personalized learning, efficient assessment, and data-driven decision-making. However, these advancements also raise critical ethical questions regarding data privacy, algorithmic bias, student autonomy, and the changing roles of educators. This research examines specific use cases of AI in education, analyzing both their potential benefits and drawbacks. By revisiting the philosophical principles of ancient Greek thinkers such as Socrates, Aristotle, and Plato, we discuss how their writings can guide the ethical implementation of AI in modern education. The paper argues that while AI presents significant challenges, a balanced approach informed by classical philosophical thought can lead to an ethically sound transformation of education. It emphasizes the evolving role of teachers as facilitators and the importance of fostering student initiative in AI-rich environments.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# Sorbet: ニューロモルフィックなハードウェア互換トランスフォーマーベースのスパイク言語モデル

Sorbet: A Neuromorphic Hardware-Compatible Transformer-Based Spiking Language Model ( http://arxiv.org/abs/2409.15298v1 )

ライセンス: Link先を確認
Kaiwen Tang, Zhanglu Yan, Weng-Fai Wong, (参考訳) プライバシなどの理由から、エッジに言語モデル用のユースケースがある。 これにより、エネルギー効率が重要な懸念事項であるリソース制限されたデバイスへの展開を目的とした、小さな言語モデル(SLM)が生まれている。 スパイキングニューラルネットワーク(SNN)はそのエネルギー効率のために有望なソリューションを提供しており、すでにSNN上でトランスフォーマーベースのモデルの実現に取り組んでいる。 しかしながら、ソフトマックスやレイヤー正規化(LN)のような重要な操作は、ニューロモルフィックなハードウェア上では実装が困難であり、初期の多くの研究がそれらを後押しした。 これらの課題に対処するために,我々は,よりニューロモルフィックなハードウェア互換なトランスフォーマーベースのスパイク言語モデルであるSorbetを紹介した。 SorbetはPTsoftmaxと呼ばれる新しいシフトベースソフトマックスとビットシフト(BSPN)を用いた電力正規化手法を取り入れている。 知識蒸留とモデル量子化を活用することで、ソルベットは競争性能を維持しながらエネルギー消費を大幅に削減する高度に圧縮された二分重モデルを達成した。 本研究では,言語モデル推論におけるエネルギー効率の高い解法としての可能性を示すとともに,GLUEベンチマークの広範囲な検証と一連のアブレーション研究を通じて,Sorbetの有効性を検証する。

For reasons such as privacy, there are use cases for language models at the edge. This has given rise to small language models (SLMs) targeted for deployment in resource-constrained devices where energy efficiency is a significant concern. Spiking neural networks (SNNs) offer a promising solution due to their energy efficiency, and there are already works on realizing transformer-based models on SNNs. However, key operations like softmax and layer normalization (LN) are difficult to implement on neuromorphic hardware, and many of these early works sidestepped them. To address these challenges, we introduce Sorbet, a transformer-based spiking language model that is more neuromorphic hardware-compatible. Sorbet incorporates a novel shifting-based softmax called PTsoftmax and a power normalization method using bit-shifting (BSPN), both designed to replace the respective energy-intensive operations. By leveraging knowledge distillation and model quantization, Sorbet achieved a highly compressed binary weight model that maintains competitive performance while significantly reducing energy consumption. We validate Sorbet's effectiveness through extensive testing on the GLUE benchmark and a series of ablation studies, demonstrating its potential as an energy-efficient solution for language model inference.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# 非関連代替案 大規模言語モデル採用決定

Irrelevant Alternatives Bias Large Language Model Hiring Decisions ( http://arxiv.org/abs/2409.15299v1 )

ライセンス: Link先を確認
Kremena Valkanova, Pencho Yordanov, (参考訳) 雇用決定において,LLMが認知バイアス,アトラクション効果をよく表すかどうかを検討する。 このアトラクション効果は、下位候補の存在が上位候補をより魅力的にすることで、上位候補が非上位候補よりも選択される可能性を高める。 本研究は,GPT-3.5とGPT-4のアトラクション効果が,リクルーターの役割を担っていることを示すものである。 デコイの非関連属性、例えば性別は、観察されたバイアスをさらに増幅する。 GPT-4はGPT-3.5よりも大きなバイアス変化を示す。 デコイ効果に対する警告を含まなかったり、採用者の役割定義が異なっていたりしても、この知見は引き続き堅牢である。

We investigate whether LLMs display a well-known human cognitive bias, the attraction effect, in hiring decisions. The attraction effect occurs when the presence of an inferior candidate makes a superior candidate more appealing, increasing the likelihood of the superior candidate being chosen over a non-dominated competitor. Our study finds consistent and significant evidence of the attraction effect in GPT-3.5 and GPT-4 when they assume the role of a recruiter. Irrelevant attributes of the decoy, such as its gender, further amplify the observed bias. GPT-4 exhibits greater bias variation than GPT-3.5. Our findings remain robust even when warnings against the decoy effect are included and the recruiter role definition is varied.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# パワーアウェア蒸留によるタスクベース学習型学習型ニューロモルフィックADC

Learning Task-Based Trainable Neuromorphic ADCs via Power-Aware Distillation ( http://arxiv.org/abs/2409.15300v1 )

ライセンス: Link先を確認
Tal Vol, Loai Danial, Nir Shlezinger, (参考訳) デジタル形式で信号を処理する能力はアナログ・デジタルコンバータ(ADC)に依存している。 伝統的に、ADCはデジタル表現がアナログ信号と密接に一致するように設計されている。 しかし、近年の研究では、ダウンストリーム処理タスクに合わせて取得プロセスが調整されたタスクベースの取得によって、かなりの電力とメモリの節約が達成できることが示されている。 タスクベースの獲得のための新しい技術は、ニューロモルフィックコンピューティングのキーイネーラであるメムリスタ(memristor)の使用を含む。 Memristorは、調整可能なマッピングでADCを実装し、特定のシステムタスクや電力制約への適応を可能にする。 本研究では,経験的ADCを用いた汎用分類タスクのタスクベース獲得について検討する。 本稿では,これらのニューロモルフィックADCの特性について考察し,その電力消費と雑音による読み書き動作を考慮し,メムリスタ成分と統合された抵抗性逐次近似レジスタADCに基づく物理的に適合したモデルを提案し,量子化領域の調整を可能にする。 性能を最適化するために,デジタル処理とアナログ処理の両面からタスクベースの経験的ADCを協調的に調整するデータ駆動アルゴリズムを提案する。 本設計では, 固有アナログ-ディジタルマッピングに適応する特殊な学習アルゴリズムによって補足された, パワー・アウェア蒸留によるメムリスタの固有確率性に対処する。 提案手法は、一様ADCと比較して、最大27%の精度向上と最大66%の消費電力削減を実現している。 ノイズ条件下であっても, 精度は19%, 消費電力は57%向上した。 これらの結果は,多種多様なタスクにおけるシステム性能向上におけるパワーアウェアニューロモルフィックADCの有効性を浮き彫りにした。

The ability to process signals in digital form depends on analog-to-digital converters (ADCs). Traditionally, ADCs are designed to ensure that the digital representation closely matches the analog signal. However, recent studies have shown that significant power and memory savings can be achieved through task-based acquisition, where the acquisition process is tailored to the downstream processing task. An emerging technology for task-based acquisition involves the use of memristors, which are considered key enablers for neuromorphic computing. Memristors can implement ADCs with tunable mappings, allowing adaptation to specific system tasks or power constraints. In this work, we study task-based acquisition for a generic classification task using memristive ADCs. We consider the unique characteristics of this such neuromorphic ADCs, including their power consumption and noisy read-write behavior, and propose a physically compliant model based on resistive successive approximation register ADCs integrated with memristor components, enabling the adjustment of quantization regions. To optimize performance, we introduce a data-driven algorithm that jointly tunes task-based memristive ADCs alongside both digital and analog processing. Our design addresses the inherent stochasticity of memristors through power-aware distillation, complemented by a specialized learning algorithm that adapts to their unique analog-to-digital mapping. The proposed approach is shown to enhance accuracy by up to 27% and reduce power consumption by up to 66% compared to uniform ADCs. Even under noisy conditions, our method achieves substantial gains, with accuracy improvements of up to 19% and power reductions of up to 57%. These results highlight the effectiveness of our power-aware neuromorphic ADCs in improving system performance across diverse tasks.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# 量子コンピュータによる局所親和性の違反に向けて

Towards violations of Local Friendliness with quantum computers ( http://arxiv.org/abs/2409.15302v1 )

ライセンス: Link先を確認
William J. Zeng, Farrokh Labib, Vincent Russo, (参考訳) ローカルフレンドリ(LF)の不等式は、現実に関する合理的な仮定から従う。 (i)『観測イベントの絶対性』(例:すべての観測イベントがすべての観測者に対して起こる) (ii)「地方機関」(例えば、自由選択は、将来の光円錐以外の出来事とは無関係にすることができる。) 拡張ウィグナーのフレンドシナリオ(EWFS)は、教科書の量子力学がこれらの不等式に反することを示した。 したがって、これらの違反の実験的証拠は、これらの2つの仮定を相容れないものにする。 筆者らは[Nature Physics 16, 1199 (2020)]でEWFSを実験的に実装し, フォトニックキュービットを用いて「友達」の役を演じ, LFの違反を測定した。 フォトニックキュービットが 'observer'' と数えられる物理系であるかどうかを問うことができ、その結果、実験の結果が重要であるかどうかを問うことができる。 ますます意味のある違反を測定するために,システムの‘オブザーバネス’を定量化するために,‘branch factor’と呼ばれる統計的尺度を提案する。 次に、EWFSを量子回路として符号化し、フレンドを定義する回路の成分が分岐係数を増大させる量子系となるようにする。 この回路は量子シミュレータやハードウェアデバイス上で動作し、システムサイズがスケールするにつれてLF違反を観測する。 量子コンピュータのエラーによって違反の重要度が低下するので、より良い量子コンピュータはより良い違反を生み出すことができる。 本研究は, 分岐因子0.0から分岐因子16.0への概念実証実験違反の実態を拡張した。 これは、より強力な量子プロセッサやネットワークを用いて、ますます意味のある分岐因子でLF違反を測定する実験プログラムの最初の結果である。 我々は,このプログラムを,短期的・発展的な量子技術のための基礎科学応用として紹介する。

Local Friendliness (LF) inequalities follow from seemingly reasonable assumptions about reality: (i) ``absoluteness of observed events'' (e.g., every observed event happens for all observers) and (ii) ``local agency'' (e.g., free choices can be made uncorrelated with other events outside their future light cone). Extended Wigner's Friend Scenario (EWFS) thought experiments show that textbook quantum mechanics violates these inequalities. Thus, experimental evidence of these violations would make these two assumptions incompatible. In [Nature Physics 16, 1199 (2020)], the authors experimentally implemented an EWFS, using a photonic qubit to play the role of each of the ``friends'' and measured violations of LF. One may question whether a photonic qubit is a physical system that counts as an ``observer'' and thereby question whether the experiment's outcome is significant. Intending to measure increasingly meaningful violations, we propose using a statistical measure called the ``branch factor'' to quantify the ``observerness'' of the system. We then encode the EWFS as a quantum circuit such that the components of the circuit that define the friend are quantum systems of increasing branch factor. We run this circuit on quantum simulators and hardware devices, observing LF violations as the system sizes scale. As errors in quantum computers reduce the significance of the violations, better quantum computers can produce better violations. Our results extend the state of the art in proof-of-concept experimental violations from branch factor 0.0 to branch factor 16.0. This is an initial result in an experimental program for measuring LF violations at increasingly meaningful branch factors using increasingly more powerful quantum processors and networks. We introduce this program as a fundamental science application for near-term and developing quantum technology.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# 切り離されたグラフニューラルネットワークを用いたグローバルコンテキストによるサイバー攻撃の異常検出

Global Context Enhanced Anomaly Detection of Cyber Attacks via Decoupled Graph Neural Networks ( http://arxiv.org/abs/2409.15304v1 )

ライセンス: Link先を確認
Ahmad Hafez, (参考訳) 近年,GNNによる異常検出への関心が高まっている。 既存の取り組みでは、ノード表現と、比較的浅いモデルの異常を識別して埋め込みを生成するのに必要な分類器を同時にマスターすることに重点を置いている。 したがって、既存の最先端モデルは、非線形ネットワーク情報をキャプチャし、準最適結果を生成することができない。 この論文では、分離されたGNNをデプロイしてこの問題を克服する。 具体的には、異常を検出するために必須ノード表現と分類器を分離する。 さらに,ノード表現学習のために,ノード特徴情報を集約して最終ノード埋め込みを生成するための2つのモジュールを備えたGNNアーキテクチャを開発する。 最後に,提案手法の有効性を検証する実験を行った。 その結果, ノードのグローバルなコンテキスト拡張表現とともに, 分離学習がAUCの最先端モデルよりも優れており, ノード情報をキャプチャする新たな方法が導入された。

Recently, there has been a substantial amount of interest in GNN-based anomaly detection. Existing efforts have focused on simultaneously mastering the node representations and the classifier necessary for identifying abnormalities with relatively shallow models to create an embedding. Therefore, the existing state-of-the-art models are incapable of capturing nonlinear network information and producing suboptimal outcomes. In this thesis, we deploy decoupled GNNs to overcome this issue. Specifically, we decouple the essential node representations and classifier for detecting anomalies. In addition, for node representation learning, we develop a GNN architecture with two modules for aggregating node feature information to produce the final node embedding. Finally, we conduct empirical experiments to verify the effectiveness of our proposed approach. The findings demonstrate that decoupled training along with the global context enhanced representation of the nodes is superior to the state-of-the-art models in terms of AUC and introduces a novel way of capturing the node information.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-04
# 畳み込みニューラルネットワークを用いたマンモグラムの検出と分類

Computer Aided Detection and Classification of mammograms using Convolutional Neural Network ( http://arxiv.org/abs/2409.16290v1 )

ライセンス: Link先を確認
Kashif Ishaq, Muhammad Mustagis, (参考訳) 乳癌は、肺癌に次いで、女性の間で最も大きな死因の1つである。 乳がん検出の進歩は、早期発見によって患者の生存率を増加させる可能性がある。 マンモグラフィー画像を用いて検出できる乳癌は、コンピュータ支援システムにとって重要なステップであると考えられている。 研究者たちは、初期腫瘍の自動検出のための多くの技術を説明してきた。 乳がんの早期症状には、質量と微小石灰化がある。 腫瘍の形状、大きさ、位置に変化があるため、正常な組織から異常な領域を抽出することは困難である。 そのため、機械学習は、医療従事者が病気のより正確な診断を行うのに役立つ一方、ディープラーニングやニューラルネットワークは、正常な乳房の識別と不規則な乳房の識別に使用できる方法の1つである。 本研究では,乳房腫瘤を正常・異常に分類するための抽出法として,マンモグラム上の畳み込みニューラルネットワーク(CNN)を用いた。 DDSMデータセットは、460枚の画像が正常で、920枚の異常な乳房が使用されている。

Breast cancer is one of the most major causes of death among women, after lung cancer. Breast cancer detection advancements can increase the survival rate of patients through earlier detection. Breast cancer that can be detected by using mammographic imaging is now considered crucial step for computer aided systems. Researchers have explained many techniques for the automatic detection of initial tumors. The early breast cancer symptoms include masses and micro-calcifications. Because there is the variation in the tumor shape, size and position it is difficult to extract abnormal region from normal tissues. So, machine learning can help medical professionals make more accurate diagnoses of the disease whereas deep learning or neural networks are one of the methods that can be used to distinguish regular and irregular breast identification. In this study the extraction method for the classification of breast masses as normal and abnormal we have used is convolutional neural network (CNN) on mammograms. DDSM dataset has been used in which nearly 460 images are of normal and 920 of abnormal breasts.
翻訳日:2024-11-06 17:52:35 公開日:2024-09-04
# 長期記憶(LSTM)と量子長期記憶(QLSTM)の比較研究 : 株式市場の動向の予測

Comparative Study of Long Short-Term Memory (LSTM) and Quantum Long Short-Term Memory (QLSTM): Prediction of Stock Market Movement ( http://arxiv.org/abs/2409.08297v1 )

ライセンス: Link先を確認
Tariq Mahmood, Ibtasam Ahmad, Malik Muhammad Zeeshan Ansar, Jumanah Ahmed Darwish, Rehan Ahmad Khan Sherwani, (参考訳) 近年、金融アナリストは株価指数の動きを予測するモデルの開発を試みている。 この仕事は、パキスタンのような曖昧な経済、社会的、政治的状況において困難になる。 本研究では,2004年2月から2020年12月までの26の経済・社会・政治・行政指標の月次データを用いて,長短期記憶(LSTM)や量子長短期記憶(QLSTM)といった機械学習の効率的なモデルを用いて,カラチ証券取引所(KSE)100指数の予測を行った。 LSTMとQLSTMの比較結果は、KSE100指数の値と実際の値とを比較して、QLSTMが株式市場の動向を予測する潜在的手法であることを示唆した。

In recent years, financial analysts have been trying to develop models to predict the movement of a stock price index. The task becomes challenging in vague economic, social, and political situations like in Pakistan. In this study, we employed efficient models of machine learning such as long short-term memory (LSTM) and quantum long short-term memory (QLSTM) to predict the Karachi Stock Exchange (KSE) 100 index by taking monthly data of twenty-six economic, social, political, and administrative indicators from February 2004 to December 2020. The comparative results of LSTM and QLSTM predicted values of the KSE 100 index with the actual values suggested QLSTM a potential technique to predict stock market trends.
翻訳日:2024-09-22 21:50:24 公開日:2024-09-04
# TS-EoH:ヒューリスティック進化に基づくエッジサーバタスクスケジューリングアルゴリズム

TS-EoH: An Edge Server Task Scheduling Algorithm Based on Evolution of Heuristic ( http://arxiv.org/abs/2409.09063v1 )

ライセンス: Link先を確認
Wang Yatong, Pei Yuchen, Zhao Yuqi, (参考訳) 5GとIoT(Internet of Things)技術の普及により、エッジコンピューティングが提供する低レイテンシは、リアルタイム処理において非常に重要である。 しかしながら、複数の同時サービス要求を管理することは、低レイテンシを維持する上で大きな課題となる。 現在のエッジサーバのタスクスケジューリング手法は、複数の最適化目標を効果的にバランスするのに失敗することが多い。 本稿では進化コンピューティング(EC)理論とヒューリスティックアルゴリズムに基づく新しいタスクスケジューリング手法を提案する。 サービス要求をタスクシーケンスとしてモデル化し、LLM(Large Language Models)サービスを用いて、各進化過程における様々なスケジューリングスキームを評価する。 実験の結果,タスクスケジューリングアルゴリズムは既存のヒューリスティックおよび従来の強化学習法よりも優れていた。 さらに, 異なるヒューリスティック戦略の効果について検討し, 様々なLCMサービスにおける進化的成果を比較した。

With the widespread adoption of 5G and Internet of Things (IoT) technologies, the low latency provided by edge computing has great importance for real-time processing. However, managing numerous simultaneous service requests poses a significant challenge to maintaining low latency. Current edge server task scheduling methods often fail to balance multiple optimization goals effectively. This paper introduces a novel task-scheduling approach based on Evolutionary Computing (EC) theory and heuristic algorithms. We model service requests as task sequences and evaluate various scheduling schemes during each evolutionary process using Large Language Models (LLMs) services. Experimental results show that our task-scheduling algorithm outperforms existing heuristic and traditional reinforcement learning methods. Additionally, we investigate the effects of different heuristic strategies and compare the evolutionary outcomes across various LLM services.
翻訳日:2024-09-22 21:42:00 公開日:2024-09-04
# ISO: LLM推論のためのシーケンス内の計算と通信のオーバーラップ

ISO: Overlap of Computation and Communication within Seqenence For LLM Inference ( http://arxiv.org/abs/2409.11155v1 )

ライセンス: Link先を確認
Bin Xiao, Lei Su, (参考訳) 大規模言語モデル(LLM)推論の領域では、マルチGPUテンソル並列化戦略と組み合わさったトランスフォーマーモデル固有の構造が、計算と通信のシーケンシャルな実行に繋がる。 これにより、通信フェーズにおけるコンピューティングリソースのかなりの未利用化が実現される。 この非効率性を軽減するため、通信プロセス全体にわたって計算パワーの使用を最適化する様々な技術が開発されている。 これらの戦略は主に、行列計算と通信の重複と、異なる要求にまたがるマイクロバッチのインターリーブを含む。 それにもかかわらず、これらのアプローチは理想的な重複を達成できないか、アプリケーションに一定の制限を課すかのどちらかです。 本稿では,これらの課題を克服するために,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。 この方法は重なり合いの度合いを高めるだけでなく、適用性に対する制約を最小限にする。 30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。 具体的には、LLM推論のプリフィル段階において、4090 GPUで約35%、A800 GPUで約15%の時間消費を削減できることが示されている。

In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.
翻訳日:2024-09-22 21:12:27 公開日:2024-09-04
# RTLRewriter: RTLコードの最適化を支援する大規模モデルのための方法論

RTLRewriter: Methodologies for Large Models aided RTL Code Optimization ( http://arxiv.org/abs/2409.11414v1 )

ライセンス: Link先を確認
Xufeng Yao, Yiwen Wang, Xing Li, Yingzhao Lian, Ran Chen, Lei Chen, Mingxuan Yuan, Hong Xu, Bei Yu, (参考訳) レジスタ転送レベル(RTL)コードの最適化は、初期の合成段階でのディジタル回路の効率と性能を向上させるために重要である。 現在、最適化は熟練したエンジニアによる手作業に大きく依存しており、しばしば合成フィードバックに基づいて複数のイテレーションを必要とする。 対照的に、既存のコンパイラベースのメソッドは複雑な設計に対処するのに不足している。 本稿では,RTLコードの最適化に大規模なモデルを活用する革新的なフレームワークであるRTLRewriterを紹介する。 回路分割パイプラインを高速な合成と効率的な書き換えに利用する。 最適化手法として重要な視覚図情報を含むマルチモーダルプログラム解析を提案する。 専用検索エンジンは、最適化RTLを生成するモデル能力を向上する有用な最適化ガイド、アルゴリズム、コードスニペットを特定するように設計されている。 さらに,コスト対応のモンテカルロ木探索 (C-MCTS) アルゴリズムを導入する。 さらに,検証コストを低減するため,高速検証パイプラインを提案する。 産業とアカデミックの両方のニーズに対応するために,大規模リライターベンチマーク(Large Rewriter Benchmark)と,より広い範囲のシナリオとパターンを対象としたスモールリライターベンチマーク(Small Rewriter Benchmark)という2つのベンチマークスイートを提案する。 Yosys や E-graph などの既存のコンパイラとの比較分析では,回路設計の初期段階に大規模なモデルを統合するメリットが強調されている。 ベンチマークはhttps://github.com/yaoxufeng/RTLRewriter-Benchで公開しています。

Register Transfer Level (RTL) code optimization is crucial for enhancing the efficiency and performance of digital circuits during early synthesis stages. Currently, optimization relies heavily on manual efforts by skilled engineers, often requiring multiple iterations based on synthesis feedback. In contrast, existing compiler-based methods fall short in addressing complex designs. This paper introduces RTLRewriter, an innovative framework that leverages large models to optimize RTL code. A circuit partition pipeline is utilized for fast synthesis and efficient rewriting. A multi-modal program analysis is proposed to incorporate vital visual diagram information as optimization cues. A specialized search engine is designed to identify useful optimization guides, algorithms, and code snippets that enhance the model ability to generate optimized RTL. Additionally, we introduce a Cost-aware Monte Carlo Tree Search (C-MCTS) algorithm for efficient rewriting, managing diverse retrieved contents and steering the rewriting results. Furthermore, a fast verification pipeline is proposed to reduce verification cost. To cater to the needs of both industry and academia, we propose two benchmarking suites: the Large Rewriter Benchmark, targeting complex scenarios with extensive circuit partitioning, optimization trade-offs, and verification challenges, and the Small Rewriter Benchmark, designed for a wider range of scenarios and patterns. Our comparative analysis with established compilers such as Yosys and E-graph demonstrates significant improvements, highlighting the benefits of integrating large models into the early stages of circuit design. We provide our benchmarks at https://github.com/yaoxufeng/RTLRewriter-Bench.
翻訳日:2024-09-22 21:12:27 公開日:2024-09-04
# MarS:ジェネレーティブ・ファンデーション・モデルによる金融市場シミュレーションエンジン

MarS: a Financial Market Simulation Engine Powered by Generative Foundation Model ( http://arxiv.org/abs/2409.07486v1 )

ライセンス: Link先を確認
Junjie Li, Yang Liu, Weiqing Liu, Shikai Fang, Lewen Wang, Chang Xu, Jiang Bian, (参考訳) 生成モデルは、テキスト生成から視覚効果まで、さまざまなコンテキストにわたる様々なアクションの現実的な効果をシミュレートすることを目的としている。 現実世界のシミュレーターを作る努力にもかかわらず、金融市場のようなバーチャル世界の生成モデルを活用することは、まだ未定だ。 金融市場では、生成モデルは様々な行動の市場効果をシミュレートし、市場シーンやプレイヤーとの相互作用を可能にし、金融リスクのないトレーニング戦略を訓練することができる。 このシミュレーションは、注文のような金融市場の最も優れた構造化データに依存しているので、最も優れた現実的なシミュレーションを構築することができる。 本稿では,金融市場シミュレーションのための秩序レベル生成基盤モデルであるLarge Market Model (LMM)を提案する。 LMMを利用した金融市場シミュレーションエンジン(MarS)は,現実的でインタラクティブで制御可能な注文生成の必要性に対処する。 本論文の主な目的は、金融市場におけるLMMのスケーリング法則の評価、MarSのリアリズムの評価、制御された世代と市場への影響のバランス、およびMarSの潜在的な応用の実証である。 予測ツール、検知システム、分析プラットフォーム、エージェントトレーニング環境としてMarSを紹介する。 私たちのコントリビューションには、金融市場のための生成モデルを開拓し、ドメイン固有のニーズを満たすようにMarSを設計し、MarSベースのアプリケーション産業の可能性を示すことが含まれます。

Generative models aim to simulate realistic effects of various actions across different contexts, from text generation to visual effects. Despite efforts to build real-world simulators, leveraging generative models for virtual worlds, like financial markets, remains underexplored. In financial markets, generative models can simulate market effects of various behaviors, enabling interaction with market scenes and players, and training strategies without financial risk. This simulation relies on the finest structured data in financial market like orders thus building the finest realistic simulation. We propose Large Market Model (LMM), an order-level generative foundation model, for financial market simulation, akin to language modeling in the digital world. Our financial Market Simulation engine (MarS), powered by LMM, addresses the need for realistic, interactive and controllable order generation. Key objectives of this paper include evaluating LMM's scaling law in financial markets, assessing MarS's realism, balancing controlled generation with market impact, and demonstrating MarS's potential applications. We showcase MarS as a forecast tool, detection system, analysis platform, and agent training environment. Our contributions include pioneering a generative model for financial markets, designing MarS to meet domain-specific needs, and demonstrating MarS-based applications' industry potential.
翻訳日:2024-09-15 05:01:16 公開日:2024-09-04
# 機械学習による皮膚癌診断の評価

Evaluating Machine Learning-based Skin Cancer Diagnosis ( http://arxiv.org/abs/2409.03794v1 )

ライセンス: Link先を確認
Tanish Jain, (参考訳) 本研究では,皮膚がん検出のための2つの深層学習モデルの信頼性を評価し,その説明可能性と公平性に着目した。 皮膚内視鏡画像のHAM10000データセットを使用して、MobileNetベースのモデルとカスタムCNNモデルという、2つの畳み込みニューラルネットワークアーキテクチャを評価する。 どちらのモデルも、皮膚病変を7つのカテゴリに分類し、危険病変と良性病変を区別する能力について評価されている。 感性マップと統合勾配を用いて説明可能性を評価し, 皮膚科医が解釈した。 この研究は、両モデルが一般的にほとんどの病変の関連性を強調しているが、セボリック角化症や血管病変のような特定のクラスに苦慮していることを示している。 フェアネスは、性別と肌のトーングループ間での等化オッズ測定を用いて評価される。 両モデルとも性グループ間で公平性を示すが、明るい肌の色調と暗い肌の色調の間には偽陽性と偽陰性率に有意な相違が見られる。 Calibrated Equalized Odds postprocessing strategy を用いてこれらの格差を緩和し、特に偽陰性率の差を減少させる。 この研究は、モデルが説明可能性を示す一方で、異なる肌のトーンの公平性を確保するためにさらなる開発が必要であると結論付けている。 これらの知見は、医療応用、特に多様な集団におけるAIモデルの厳格な評価の重要性を浮き彫りにした。

This study evaluates the reliability of two deep learning models for skin cancer detection, focusing on their explainability and fairness. Using the HAM10000 dataset of dermatoscopic images, the research assesses two convolutional neural network architectures: a MobileNet-based model and a custom CNN model. Both models are evaluated for their ability to classify skin lesions into seven categories and to distinguish between dangerous and benign lesions. Explainability is assessed using Saliency Maps and Integrated Gradients, with results interpreted by a dermatologist. The study finds that both models generally highlight relevant features for most lesion types, although they struggle with certain classes like seborrheic keratoses and vascular lesions. Fairness is evaluated using the Equalized Odds metric across sex and skin tone groups. While both models demonstrate fairness across sex groups, they show significant disparities in false positive and false negative rates between light and dark skin tones. A Calibrated Equalized Odds postprocessing strategy is applied to mitigate these disparities, resulting in improved fairness, particularly in reducing false negative rate differences. The study concludes that while the models show promise in explainability, further development is needed to ensure fairness across different skin tones. These findings underscore the importance of rigorous evaluation of AI models in medical applications, particularly in diverse population groups.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-04
# MPLSネットワークにおけるセキュリティの意義と緩和戦略

Security Implications and Mitigation Strategies in MPLS Networks ( http://arxiv.org/abs/2409.03795v1 )

ライセンス: Link先を確認
Ayush Thakur, (参考訳) Multiprotocol Label Switching (MPLS) は、長いネットワークアドレスではなく、短いパスラベルに基づいて、あるネットワークノードから別のネットワークノードへデータを転送する高性能な通信技術である。 その効率性とスケーラビリティは、大規模およびエンタープライズネットワークにおいて一般的な選択肢となっている。 しかし、MPLSネットワークが成長し進化するにつれて、様々なセキュリティ上の課題に直面している。 本稿では,ラベルスプーフィングやトラヒックインターセプション,サービスアタックの否定など,MPLSネットワークに関連するセキュリティへの影響について検討する。 さらに、これらの脆弱性に対処するための高度な緩和戦略を評価し、MPLSネットワークレジリエンスを高めるために数学的モデルとセキュリティプロトコルを活用する。 本稿では,MPLSのセキュリティを包括的に理解し,ネットワークインフラストラクチャの保護に有効な手法を提案する。

Multiprotocol Label Switching (MPLS) is a high-performance telecommunications technology that directs data from one network node to another based on short path labels rather than long network addresses. Its efficiency and scalability have made it a popular choice for large-scale and enterprise networks. However, as MPLS networks grow and evolve, they encounter various security challenges. This paper explores the security implications associated with MPLS networks, including risks such as label spoofing, traffic interception, and denial of service attacks. Additionally, it evaluates advanced mitigation strategies to address these vulnerabilities, leveraging mathematical models and security protocols to enhance MPLS network resilience. By integrating theoretical analysis with practical solutions, this paper aims to provide a comprehensive understanding of MPLS security and propose effective methods for safeguarding network infrastructure.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-04
# 階層型情報解離を用いたデータプライバシ検出活動の保護

Protecting Activity Sensing Data Privacy Using Hierarchical Information Dissociation ( http://arxiv.org/abs/2409.03796v1 )

ライセンス: Link先を確認
Guangjing Wang, Hanqing Guo, Yuanda Wang, Bocheng Chen, Ce Zhou, Qiben Yan, (参考訳) スマートフォンやウェアラブルデバイスは私たちの日常生活に統合され、パーソナライズされたサービスを提供している。 しかし、収集されたセンシングデータが不必要な機密情報を含んでいるため、多くのアプリが過小評価される。 例えば、モバイルセンシングデータは、プライベート属性(例、性別、年齢)と意図しないセンシティブな特徴(例、パスワード入力時の手振り)を明らかにすることができる。 機密情報の漏洩を防ぐため、既存の方法はプライベートラベルを取得し、ユーザーはプライバシポリシーを指定する必要がある。 しかし、情報開示に対する限定的な制御しか達成していない。 本研究では,センサデータから,プライベートメタデータや多粒度活動情報を含む階層情報を解離するために,ヒッポを提示する。 Hippoは、機密情報の開示に対して、プライベートラベルを必要とせずにきめ細かな制御を実現する。 具体的には,階層的な潜在活動特徴を前提とした多粒質の生センサデータを生成する潜在誘導に基づく拡散モデルの設計を行う。 Hippoを使用すると、ユーザは、センサーデータにおける機密情報の開示を制御でき、アプリケーションの実用要件を満たすために必要な機能を保ちながら、プライバシを確保することができる。 Hippoは2つの目標を達成する最初の統一モデルであり、センシティブな属性の摂動と、モバイルセンシングデータにおけるセンシティブな情報の開示を制御する。 大規模な実験により、ヒッポは個人属性を匿名化し、さまざまな種類のセンシングデータに対して様々な解像度で活動情報を変換できることが示されている。

Smartphones and wearable devices have been integrated into our daily lives, offering personalized services. However, many apps become overprivileged as their collected sensing data contains unnecessary sensitive information. For example, mobile sensing data could reveal private attributes (e.g., gender and age) and unintended sensitive features (e.g., hand gestures when entering passwords). To prevent sensitive information leakage, existing methods must obtain private labels and users need to specify privacy policies. However, they only achieve limited control over information disclosure. In this work, we present Hippo to dissociate hierarchical information including private metadata and multi-grained activity information from the sensing data. Hippo achieves fine-grained control over the disclosure of sensitive information without requiring private labels. Specifically, we design a latent guidance-based diffusion model, which generates multi-grained versions of raw sensor data conditioned on hierarchical latent activity features. Hippo enables users to control the disclosure of sensitive information in sensing data, ensuring their privacy while preserving the necessary features to meet the utility requirements of applications. Hippo is the first unified model that achieves two goals: perturbing the sensitive attributes and controlling the disclosure of sensitive information in mobile sensing data. Extensive experiments show that Hippo can anonymize personal attributes and transform activity information at various resolutions across different types of sensing data.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-04
# NESTFUL: APIコールのネストシーケンス上でのLLMの評価ベンチマーク

NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls ( http://arxiv.org/abs/2409.03797v1 )

ライセンス: Link先を確認
Kinjal Basu, Ibrahim Abdelaziz, Kelsey Bradford, Maxwell Crouse, Kiran Kate, Sadhana Kumaravel, Saurabh Goyal, Asim Munawar, Yara Rizk, Xin Wang, Luis Lastras, Pavan Kapanipathi, (参考訳) 大規模言語モデル(LLM)を利用した自律エージェントアプリケーションは最近、複雑な現実世界のタスクに対処するための効果的なツールとして注目されている。 その中核となるのは、エージェントワークフローは、ユーザの要求に答えるために、ツールと外部アプリケーションプログラミングインターフェース(API)を計画し、実行するためにLLMに依存しています。 LLMのツールとAPI使用能力を評価するために、さまざまなベンチマークやリーダボードが登場したが、これらの評価のほとんどは、単一のあるいは複数の独立したAPI呼び出し機能を追跡するだけである。 本稿では,API呼び出しのネストシーケンス,すなわち1つのAPI呼び出しの出力が後続の呼び出しに入力として渡されるシーケンスに対して,LSMを評価するベンチマークであるNESTFULを提案する。 NESTFULには、合計300人の注釈付きサンプルがあり、実行可能と実行不可能の2つのタイプに分けられている。 実行可能なサンプルは、Rapid-APIをクロールすることで手動でキュレートされる一方、実行不可能なサンプルは、LLMを使用して合成されたデータからヒトのアノテータによって手作業で選択される。 NESTFUL 上で関数呼び出し機能を有する最先端 LLM の評価を行った。 その結果,ほとんどのモデルではNESTFULのネストしたAPIでは,既存のベンチマークで利用可能なより単純な問題設定では,性能が良くないことがわかった。

Autonomous agent applications powered by large language models (LLMs) have recently risen to prominence as effective tools for addressing complex real-world tasks. At their core, agentic workflows rely on LLMs to plan and execute the use of tools and external Application Programming Interfaces (APIs) in sequence to arrive at the answer to a user's request. Various benchmarks and leaderboards have emerged to evaluate an LLM's capabilities for tool and API use; however, most of these evaluations only track single or multiple isolated API calling capabilities. In this paper, we present NESTFUL, a benchmark to evaluate LLMs on nested sequences of API calls, i.e., sequences where the output of one API call is passed as input to a subsequent call. NESTFUL has a total of 300 human annotated samples divided into two types - executable and non-executable. The executable samples are curated manually by crawling Rapid-APIs whereas the non-executable samples are hand picked by human annotators from data synthetically generated using an LLM. We evaluate state-of-the-art LLMs with function calling abilities on NESTFUL. Our results show that most models do not perform well on nested APIs in NESTFUL as compared to their performance on the simpler problem settings available in existing benchmarks.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-04
# 企業用ネットワークの解釈可能なサイバー脅威検出:計算設計科学アプローチ

Interpretable Cyber Threat Detection for Enterprise Industrial Networks: A Computational Design Science Approach ( http://arxiv.org/abs/2409.03798v1 )

ライセンス: Link先を確認
Prabhat Kumar, A. K. M. Najmul Islam, (参考訳) エンタープライズ産業ネットワークは、データと運用を危険にさらす脅威に直面している。 しかし、特にプライバシーが懸念されるデータ不足のため、効率的な脅威検出システムの設計は困難である。 エンタープライズ産業用ネットワークデータの複雑さは、この課題に重きを置き、偽陽性と解釈の問題を引き起こす。 そこで我々は、IS計算設計科学パラダイムを用いて、企業レベルのISのための二段階のサイバー脅威検出システムを開発し、技術・ビジネス環境の進化に適応することができる。 第1段階は、改良された生成逆ネットワークを用いて合成産業ネットワークデータを生成する。 第2段階は、新しい双方向ゲートリカレントユニットと、効果的な脅威検出のための改良された注意機構を開発する。 また, キャラクタビリティ向上のために, シェープな付加的な説明や決定木手法も用いている。 2つの公開データセットの解析は、脅威検出の高精度なフレームワークを示し、実用的なサイバーセキュリティソリューションと方法論の進歩を提供する。

Enterprise industrial networks face threats that risk data and operations. However, designing efficient threat detection system is challenging due to data scarcity, especially where privacy is a concern. The complexity of enterprise industrial network data adds to this challenge, causing high false positives and interpretation issues. Towards this, we use IS computational design science paradigm to develop a two-stage cyber threat detection system for enterprise-level IS that are both secure and capable of adapting to evolving technological and business environments. The first stage generates synthetic industrial network data using a modified generative adversarial network. The second stage develops a novel bidirectional gated recurrent unit and a modified attention mechanism for effective threat detection. We also use shapley additive explanations and a decision tree technique for enhancing interpretability. Our analysis on two public datasets shows the frameworks high precision in threat detection and offers practical cybersecurity solutions and methodological advancements.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-04
# EBIC:高次元・ビッグデータビクラスタリング解析のためのオープンソースソフトウェア

EBIC: an open source software for high-dimensional and big data biclustering analyses ( http://arxiv.org/abs/1807.09932v2 )

ライセンス: Link先を確認
Patryk Orzechowski, Jason H. Moore, (参考訳) モチベーション:本論文では,遺伝データをマイニングするための次世代ビクラスタリングアルゴリズムであるEBICの最新のリリースについて述べる。 この論文の主な貢献は、ビッグデータのサポートを追加し、大規模なゲノムデータマイニング分析を効率的に実行できるようにすることである。 さらに、RとBioconductorとの統合や、最終的な結果に欠落した値の影響を取り除くオプションも追加されている。 結果:EBICは436,444行のDNAメチル化データセットを含む,異なるサイズのデータセットに適用された。 最も大きなデータセットでは、単一のGPU上でメソッドを実行するのと比較して、8GPUのクラスタ上での計算時間の6.6倍のスピードアップを観察しました。 これによりアルゴリズムのスケーラビリティが向上する。 可用性: EBICの最新バージョンはhttp://github.com/EpistasisLab/ebicからダウンロードできる。 インストールと利用の指示もオンラインで入手できる。

Motivation: In this paper we present the latest release of EBIC, a next-generation biclustering algorithm for mining genetic data. The major contribution of this paper is adding support for big data, making it possible to efficiently run large genomic data mining analyses. Additional enhancements include integration with R and Bioconductor and an option to remove influence of missing value on the final result. Results: EBIC was applied to datasets of different sizes, including a large DNA methylation dataset with 436,444 rows. For the largest dataset we observed over 6.6 fold speedup in computation time on a cluster of 8 GPUs compared to running the method on a single GPU. This proves high scalability of the algorithm. Availability: The latest version of EBIC could be downloaded from http://github.com/EpistasisLab/ebic . Installation and usage instructions are also available online.
翻訳日:2024-09-08 15:56:29 公開日:2024-09-04
# 浮遊ナノ球による光の最適非古典的相関

Optimal non-classical correlations of light with a levitated nano-sphere ( http://arxiv.org/abs/2006.15050v3 )

ライセンス: Link先を確認
Alexander Pitchford, Andrey A. Rakhubovsky, Rick Mukherjee, Darren W. Moore, Frédéric Sauvage, Daniel Burgarth, Radim Filip, Florian Mintert, (参考訳) 非古典的相関は、量子技術における多くの応用のためのリソースを提供するとともに、システムが実際に量子状態で動いているという強い証拠を提供する。 光学系は、機械モードと移動光モードの間の非古典的相関(量子絡み合いなど)を生成するように配置することができる。 本稿では、制御パラメータにベイズ最適化を適用することにより、解析的手法によって達成できることを超えて、そのようなシステムにおける量子相関生成の自動最適化を提案する。 2モードの光学的スキーズ実験は、システムの詳細な理論モデルとベイズ最適化プロセスに供給される測定可能な出力を用いてシミュレーションされる。 これにより、制御可能なパラメータを変更して、モデルの内部動作とは独立に、非古典的な2モードのスクイーズと検出を最大化する。 ナノスフィアシステムに焦点をあてるが、その技術は光学実験に広く応用でき、特に詳細な理論的な処理ができない場合にも広く応用できる。 実験的に関連する熱状態において、広範囲の制御パラメータを変更・最適化する能力は、2モードのスクイージングの大きな値にアクセスでき、それ以外は解析的または試行錯誤法によって発見することが困難または困難である。 特に、共振側バンド周辺での駆動周波数の変調は、より強い非古典的相関をもたらすことを観察する。 また, この最適化手法は, 高温条件下での相当なスチーズを許容するパラメータを見出すことができる。 これは、古典的でない相関が高量子協調性の領域を超えて生成される実験的な設定の範囲を広げる。

Nonclassical correlations provide a resource for many applications in quantum technology as well as providing strong evidence that a system is indeed operating in the quantum regime. Optomechanical systems can be arranged to generate nonclassical correlations (such as quantum entanglement) between the mechanical mode and a mode of travelling light. Here we propose automated optimization of the production of quantum correlations in such a system, beyond what can be achieved through analytical methods, by applying Bayesian optimization to the control parameters. A two-mode optomechanical squeezing experiment is simulated using a detailed theoretical model of the system and the measurable outputs fed to the Bayesian optimization process. This then modifies the controllable parameters in order to maximize the non-classical two-mode squeezing and its detection, independently of the inner workings of the model. We focus on a levitated nano-sphere system, but the techniques described are broadly applicable in optomechanical experiments, and also more widely, especially where no detailed theoretical treatment is available. We find that in the experimentally relevant thermal regimes, the ability to vary and optimize a broad array of control parameters provides access to large values of two-mode squeezing that would otherwise be difficult or intractable to discover via analytical or trial and error methods. In particular we observe that modulation of the driving frequency around the resonant sideband allows for stronger nonclassical correlations. We also observe that our optimization approach finds parameters that allow significant squeezing in the high temperature regime. This extends the range of experimental setups in which non-classical correlations could be generated beyond the region of high quantum cooperativity.
翻訳日:2024-09-07 07:35:31 公開日:2024-09-04
# サブワード表現学習と位置認識型自己注意を用いたシンジ単語セグメンテーションの強化

Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention ( http://arxiv.org/abs/2012.15079v2 )

ライセンス: Link先を確認
Wazir Ali, Jay Kumar, Saifullah Tumrani, Redhwan Nour, Adeeb Noor, Zenglin Xu, (参考訳) シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。 Sindhi言語自体がこの複雑さを増している。 カーシブで、単語境界とは独立して、固有の結合性と非結合性を持つ文字で構成されている。 既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。 しかし、これらの手法には、語彙外単語の扱いの難しさ、他言語の頑健さの制限、大量のノイズや原文による非効率性など、制限がある。 対照的に、ニューラルネットワークベースのモデルでは、事前知識を必要とせずに、単語境界情報を自動でキャプチャすることができる。 本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。 SGNWSモデルは、双方向長短期メモリエンコーダ、位置認識型自己アテンション、条件付きランダムフィールドによるサブワード表現学習を取り入れている。 実験により,SGNWSモデルが6つのデータセット上でシンジ単語セグメンテーションの最先端性能を達成することを示す。

Sindhi word segmentation is a challenging task due to space omission and insertion issues. The Sindhi language itself adds to this complexity. It's cursive and consists of characters with inherent joining and non-joining properties, independent of word boundaries. Existing Sindhi word segmentation methods rely on designing and combining hand-crafted features. However, these methods have limitations, such as difficulty handling out-of-vocabulary words, limited robustness for other languages, and inefficiency with large amounts of noisy or raw text. Neural network-based models, in contrast, can automatically capture word boundary information without requiring prior knowledge. In this paper, we propose a Subword-Guided Neural Word Segmenter (SGNWS) that addresses word segmentation as a sequence labeling task. The SGNWS model incorporates subword representation learning through a bidirectional long short-term memory encoder, position-aware self-attention, and a conditional random field. Our empirical results demonstrate that the SGNWS model achieves state-of-the-art performance in Sindhi word segmentation on six datasets.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# 逆問題に対する変分推論フレームワーク

A variational inference framework for inverse problems ( http://arxiv.org/abs/2103.05909v4 )

ライセンス: Link先を確認
Luca Maestrini, Robert G. Aykroyd, Matt P. Wand, (参考訳) 変分ベイズ近似を用いて逆問題モデルに適合するフレームワークを提示する。 この方法論は、広範囲のアプリケーションに対する統計モデル仕様への柔軟性を保証する。 メッセージパッシングと因子グラフのフラグメントアプローチは、同様に説明される変分ベイズへのアプローチにより、近似推論アルゴリズムの合理化が容易になり、多くの応答分布とペナル化を逆問題モデルに組み込むことができる。 1次元および2次元の応答変数に対するモデルについて検討し、より高次元の逆問題に対して、変数間の弱い相互作用の無効化に基づく効率的なアルゴリズム更新も導出できるようなインフラを構築した。 バイオメディカル問題によって動機付けられた画像処理アプリケーションとシミュレーションは、マルコフ連鎖モンテカルロに対する変分ベイズの効率的な実装によって得られる計算上の優位性を明らかにする。

A framework is presented for fitting inverse problem models via variational Bayes approximations. This methodology guarantees flexibility to statistical model specification for a broad range of applications, good accuracy and reduced model fitting times. The message passing and factor graph fragment approach to variational Bayes that is also described facilitates streamlined implementation of approximate inference algorithms and allows for supple inclusion of numerous response distributions and penalizations into the inverse problem model. Models for one- and two-dimensional response variables are examined and an infrastructure is laid down where efficient algorithm updates based on nullifying weak interactions between variables can also be derived for inverse problems in higher dimensions. An image processing application and a simulation exercise motivated by biomedical problems reveal the computational advantage offered by efficient implementation of variational Bayes over Markov chain Monte Carlo.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# 非IIDデータの高速収束のための半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data ( http://arxiv.org/abs/2104.12678v6 )

ライセンス: Link先を確認
Yuchang Sun, Jiawei Shao, Yuyi Mao, Jessie Hui Wang, Jun Zhang, (参考訳) フェデレーションエッジラーニング(FEEL)は、データプライバシを保護しながら、クラウドベースの機械学習ソリューションにおける大きな通信遅延を低減する効果的なアプローチとして登場した。 残念ながら、FEELの学習性能は、単一エッジクラスタでの限られたトレーニングデータのために損なわれる可能性がある。 本稿では,FEELの新たな枠組み,すなわち半分散型フェデレーションエッジ学習(SD-FEEL)について検討する。 異なるエッジクラスタ間のモデルアグリゲーションを可能にすることで、SD-FEELは、複数のエッジクラスタからよりリッチなトレーニングデータにアクセスすることで、学習パフォーマンスを改善しながら、トレーニングレイテンシの削減におけるFEELのメリットを享受する。 ローカルモデル更新,クラスタ内モデルアグリゲーション,クラスタ間モデルアグリゲーションなど,各ラウンドに3つの主要な手順を持つSD-FEELのトレーニングアルゴリズムが提示され,非独立かつ同一に分散された(非IID)データに収束することが証明された。 また,エッジサーバのネットワークトポロジと,クラスタ間モデルアグリゲーションの通信オーバーヘッドがトレーニング性能に与える影響を特徴付ける。 実験結果は,従来のフェデレート学習アーキテクチャよりも高速な収束を実現する上でのSD-FFELの有効性を裏付けるものである。 また、トレーニングアルゴリズムの重要なハイパーパラメータの選択に関するガイドラインも提供される。

Federated edge learning (FEEL) has emerged as an effective approach to reduce the large communication latency in Cloud-based machine learning solutions, while preserving data privacy. Unfortunately, the learning performance of FEEL may be compromised due to limited training data in a single edge cluster. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL). By allowing model aggregation across different edge clusters, SD-FEEL enjoys the benefit of FEEL in reducing the training latency, while improving the learning performance by accessing richer training data from multiple edge clusters. A training algorithm for SD-FEEL with three main procedures in each round is presented, including local model updates, intra-cluster and inter-cluster model aggregations, which is proved to converge on non-independent and identically distributed (non-IID) data. We also characterize the interplay between the network topology of the edge servers and the communication overhead of inter-cluster model aggregation on the training performance. Experiment results corroborate our analysis and demonstrate the effectiveness of SD-FFEL in achieving faster convergence than traditional federated learning architectures. Besides, guidelines on choosing critical hyper-parameters of the training algorithm are also provided.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# より高速なグラディエントバリアントを用いたプライバシー保護ロジスティック回帰トレーニング

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v8 )

ライセンス: Link先を確認
John Chiang, (参考訳) 暗号化されたデータに対するロジスティック回帰のトレーニングは、セキュリティ上の問題に何年も取り組んできた。 本稿では、プライバシー保護ロジスティック回帰トレーニングのための効率的な勾配変種である$quadratic$$gradient$を紹介する。 我々は,Nesterov の Accelerated Gradient (NAG),Adaptive Gradient Algorithm (Adagrad) およびAdamアルゴリズムを2次勾配を組み込んで拡張し,これらの改良アルゴリズムを様々なデータセット上で評価する。 実験により, 従来の1次勾配法と比較して, 改良アルゴリズムは収束速度を著しく向上することを示した。 さらに,同相ロジスティック回帰学習の実装に改良NAG法を適用し,わずか4回の反復で同等の結果を得ることができた。 二次勾配法は2階のニュートン・ラフソン法と1階の勾配勾配勾配/上昇アルゴリズムを統合することができ、幅広い数値最適化問題に適用できる可能性は高い。

Training logistic regression over encrypted data has been a compelling approach in addressing security concerns for several years. In this paper, we introduce an efficient gradient variant, called $quadratic$ $gradient$, for privacy-preserving logistic regression training. We enhance Nesterov's Accelerated Gradient (NAG), Adaptive Gradient Algorithm (Adagrad) and Adam algorithms by incorporating their quadratic gradients and evaluate these improved algorithms on various datasets. Experimental results demonstrate that the enhanced algorithms achieve significantly improved convergence speed compared to traditional first-order gradient methods. Moreover, we applied the enhanced NAG method to implement homomorphic logistic regression training, achieving comparable results within just 4 iterations. There is a good chance that the quadratic gradient approach could integrate first-order gradient descent/ascent algorithms with the second-order Newton-Raphson methods, and that it could be applied to a wide range of numerical optimization problems.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# ロバスト量子回路テストのための自動テストパターン生成

Automatic Test Pattern Generation for Robust Quantum Circuit Testing ( http://arxiv.org/abs/2202.10697v4 )

ライセンス: Link先を確認
Kean Chen, Mingsheng Ying, (参考訳) 量子回路テストは、現実的な量子デバイスにおける潜在的な欠陥を検出するのに不可欠であるが、テストプロセス自体も、量子演算の不正確さと信頼性に悩まされている。 本稿では、論理量子回路のロバストなテストのための新しいテストパターン生成フレームワーク(ATPG)を提案することにより、この問題を軽減する。 本稿では, 量子テストパターンを表す安定型プロジェクタ分解(SPD)を導入し, クリフォードのみの回路を用いて, 耐故障性量子計算で証明されたように, 比較的堅牢で効率的なテストアプリケーション(状態準備と測定)を構築した。 しかし、安定プロジェクタの指数的な増加により、一般的にSPDを生成することは困難である。 この難しさを回避するため,SPD生成アルゴリズムと,SPD生成における局所性と疎性の両方を活用できる加速度技術を開発した。 アルゴリズムの有効性を検証した。 1) 合理的条件下での理論的保証 2) IBM QiskitのQuantum Fourier Transform(QFT)、Quantum Volume(QV)、Bernstein-Vazirani(BV)などの一般的なベンチマーク回路の実験結果。

Quantum circuit testing is essential for detecting potential faults in realistic quantum devices, while the testing process itself also suffers from the inexactness and unreliability of quantum operations. This paper alleviates the issue by proposing a novel framework of automatic test pattern generation (ATPG) for robust testing of logical quantum circuits. We introduce the stabilizer projector decomposition (SPD) for representing the quantum test pattern, and construct the test application (i.e., state preparation and measurement) using Clifford-only circuits, which are rather robust and efficient as evidenced in the fault-tolerant quantum computation. However, it is generally hard to generate SPDs due to the exponentially growing number of the stabilizer projectors. To circumvent this difficulty, we develop an SPD generation algorithm, as well as several acceleration techniques which can exploit both locality and sparsity in generating SPDs. The effectiveness of our algorithms are validated by 1) theoretical guarantees under reasonable conditions, 2) experimental results on commonly used benchmark circuits, such as Quantum Fourier Transform (QFT), Quantum Volume (QV) and Bernstein-Vazirani (BV) in IBM Qiskit.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# 古典的使用者による量子計測を伴わないベル状態に基づく半量子プライベート比較

Semiquantum private comparison based on Bell states without quantum measurements from the classical user ( http://arxiv.org/abs/2205.04927v4 )

ライセンス: Link先を確認
Mao-Jie Geng, Xia Li, Tian-Yu Ye, (参考訳) 本稿では,ベル状態に基づく新しい半量子プライベート比較(SQPC)プロトコルを提案する。これは,1人の量子ユーザと1人の古典的ユーザに対して,プライベート入力の等価性を半最高量子サードパーティ(TP)の助けを借りて比較できるようにするものである。 TPは、誰とでも共謀する以外は、ユーザーのプライベート入力を盗むためにあらゆる攻撃を受ける可能性があるという意味で、半正直であると考えられている。 セキュリティ分析により、我々のプロトコルは内部の参加者からの攻撃だけでなく、外部の盗聴者からの攻撃にも抵抗できることを確認した。 さらに、我々のプロトコルは、ベル基底測定のみをTPに要求するが、量子エンタングルメントスワッピングは必要とせず、古典的なユーザを量子測定や量子メモリの保持から解放する。 さらに,提案プロトコルは,ベル状態に基づく従来のSQPCプロトコルを量子ビット効率で利用することができる。 最後に、我々のプロトコルは、集合的に強調されるノイズ量子チャネルのそれに対応するものに一般化することができる。

In this paper, we propose a novel semiquantum private comparison (SQPC) protocol based on Bell states, which enables one quantum user and one classical user to compare the equality of their private inputs with the help of a semi-honest quantum third party (TP). TP is assumed to be semi-honest in the sense that she may take all possible attacks to steal users' private inputs except conspiring with anyone. The security analysis validates that our protocol can resist not only the attacks from internal participants but also the attacks from an external eavesdropper. Besides, our protocol only asks TP to perform Bell basis measurements but doesn't need quantum entanglement swapping; and it releases the classical user from conducting quantum measurements and having a quantum memory. Moreover, our protocol can take advantage over previous SQPC protocols based on Bell states in qubit efficiency. Finally, our protocol can be generalized into its counterpart of the collective-dephasing noise quantum channel.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-04
# Few-Shot分類のためのベイジアン・エビデンシャル・ラーニング

Bayesian Evidential Learning for Few-Shot Classification ( http://arxiv.org/abs/2207.13137v2 )

ライセンス: Link先を確認
Xiongkun Linghu, Yan Bai, Yihang Lou, Shengsen Wu, Jinze Li, Jianzhong He, Tao Bai, (参考訳) ファウショット分類(Few-Shot Classification, FSC)は、基本クラスから、非常に限定されたラベル付きサンプルを与えられた新しいクラスへ一般化することを目的としており、これは人間のような機械学習への道のりの重要なステップである。 最先端のソリューションは、サンプル間の距離を計算するための良い計量と表現空間を見つけることを含む。 有望な精度性能にもかかわらず、計量ベースのFSC手法の不確実性を効果的にモデル化する方法は依然として課題である。 不確実性をモデル化するために、エビデンスの理論に基づいてクラス確率上の分布を配置する。 その結果、不確実性モデリングとメートル法学習を分離することができる。 分類の不確実性を低減するため,ベイズ的エビデンス融合定理を提案する。 観測されたサンプルから、ネットワークは事前学習されたネットワークによって生成された事前パラメータから、後続分布パラメータを取得することを学習する。 詳細な勾配解析により,本手法はスムーズな最適化目標を提供し,不確実性を捉えることができることが示された。 提案手法は,距離学習戦略に非依存であり,プラグイン・アンド・プレイモジュールとして実装できる。 提案手法をいくつかの最新のFSC手法に統合し、標準FSCベンチマークにおける精度の向上と不確実性定量化を実証する。

Few-Shot Classification(FSC) aims to generalize from base classes to novel classes given very limited labeled samples, which is an important step on the path toward human-like machine learning. State-of-the-art solutions involve learning to find a good metric and representation space to compute the distance between samples. Despite the promising accuracy performance, how to model uncertainty for metric-based FSC methods effectively is still a challenge. To model uncertainty, We place a distribution over class probability based on the theory of evidence. As a result, uncertainty modeling and metric learning can be decoupled. To reduce the uncertainty of classification, we propose a Bayesian evidence fusion theorem. Given observed samples, the network learns to get posterior distribution parameters given the prior parameters produced by the pre-trained network. Detailed gradient analysis shows that our method provides a smooth optimization target and can capture the uncertainty. The proposed method is agnostic to metric learning strategies and can be implemented as a plug-and-play module. We integrate our method into several newest FSC methods and demonstrate the improved accuracy and uncertainty quantification on standard FSC benchmarks.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-04
# マルチモーダル体験によるAI創造

Multi-Modal Experience Inspired AI Creation ( http://arxiv.org/abs/2209.02427v2 )

ライセンス: Link先を確認
Qian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao, (参考訳) 詩や歌詞生成などのAI創造は、産業コミュニティと学術コミュニティの両方から注目を集めており、ここ数年で多くの有望なモデルが提案されている。 既存の手法は通常、単一および独立した視覚情報またはテキスト情報に基づいて出力を推定する。 しかし実際には、人間は経験に応じて創造を行い、異なるモダリティを伴い、逐次的に相関することがある。 このような人間の能力をモデル化するために,本稿では,人間の経験に基づく新しいAI創造問題を定義,解決する。 具体的には,逐次的マルチモーダル情報に基づいてテキストを生成する方法について検討する。 設計されたモデルでは、異なるモダリティ間のセマンティクスを十分に理解し、適応し、それらを逐次的に出力に変換する必要があるため、従来の作業と比較すると、このタスクははるかに難しい。 これらの問題を緩和するため、まずマルチモーダルアテンションネットワークを備えたマルチチャンネルシーケンス・ツー・シーケンスアーキテクチャを設計する。 より効果的に最適化するために、逐次入力に適したカリキュラム陰性サンプリング戦略を提案する。 この問題をベンチマークし、モデルの有効性を示すために、我々は新しいマルチモーダル体験データセットを手動でラベル付けした。 このデータセットでは、モデルと一連の代表的ベースラインを比較して広範な実験を行い、自動と人中心の両方のメトリクスに基づいて、モデルの大幅な改善を実証する。 コードとデータは以下の通りである。

AI creation, such as poem or lyrics generation, has attracted increasing attention from both industry and academic communities, with many promising models proposed in the past few years. Existing methods usually estimate the outputs based on single and independent visual or textual information. However, in reality, humans usually make creations according to their experiences, which may involve different modalities and be sequentially correlated. To model such human capabilities, in this paper, we define and solve a novel AI creation problem based on human experiences. More specifically, we study how to generate texts based on sequential multi-modal information. Compared with the previous works, this task is much more difficult because the designed model has to well understand and adapt the semantics among different modalities and effectively convert them into the output in a sequential manner. To alleviate these difficulties, we firstly design a multi-channel sequence-to-sequence architecture equipped with a multi-modal attention network. For more effective optimization, we then propose a curriculum negative sampling strategy tailored for the sequential inputs. To benchmark this problem and demonstrate the effectiveness of our model, we manually labeled a new multi-modal experience dataset. With this dataset, we conduct extensive experiments by comparing our model with a series of representative baselines, where we can demonstrate significant improvements in our model based on both automatic and human-centered metrics. The code and data are available at: \url{https://github.com/Aman-4-Real/MMTG}.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-04
# ハイブリッド分散最適化: 高速収束のための一階最適化とゼロ階最適化の活用

Hybrid Decentralized Optimization: Leveraging Both First- and Zeroth-Order Optimizers for Faster Convergence ( http://arxiv.org/abs/2210.07703v2 )

ライセンス: Link先を確認
Matin Ansaripour, Shayan Talaei, Giorgi Nadiradze, Dan Alistarh, (参考訳) 分散最適化は、機械学習のトレーニングを高速化する標準的な方法であり、この分野の研究の大部分は、分散一階述語、勾配に基づく方法に焦点を当てている。 しかし、いくつかの計算バウンドノードが一階の勾配ベースの最適化を実装できない場合もあり、共同最適化タスクに寄与する可能性がある。 本稿では,ハイブリッド分散最適化の研究を開始し,0階ノードと1階ノードの最適化能力を持つノードが分散システムに共存する環境について検討し,データ分散に関する最適化課題を共同で解決しようと試みる。 基本的に、適切なパラメータ設定の下では、そのようなシステムはノイズゼロオーダーエージェントに耐えるだけでなく、情報を無視するのではなく、最適化プロセスにそのようなエージェントを組み込むことのメリットも示している。 我々のアプローチの核心は、ノイズやバイアスのある勾配推定器による分散最適化の新しい分析であり、これは独立した関心を持つかもしれない。 我々の結果は凸目的と非凸目的の両方に当てはまる。 標準最適化タスクの実験結果から、ディープニューラルネットワークを訓練しても、ハイブリッドファーストゼロオーダー最適化が実用可能であることが確認された。

Distributed optimization is the standard way of speeding up machine learning training, and most of the research in the area focuses on distributed first-order, gradient-based methods. Yet, there are settings where some computationally-bounded nodes may not be able to implement first-order, gradient-based optimization, while they could still contribute to joint optimization tasks. In this paper, we initiate the study of hybrid decentralized optimization, studying settings where nodes with zeroth-order and first-order optimization capabilities co-exist in a distributed system, and attempt to jointly solve an optimization task over some data distribution. We essentially show that, under reasonable parameter settings, such a system can not only withstand noisier zeroth-order agents but can even benefit from integrating such agents into the optimization process, rather than ignoring their information. At the core of our approach is a new analysis of distributed optimization with noisy and possibly-biased gradient estimators, which may be of independent interest. Our results hold for both convex and non-convex objectives. Experimental results on standard optimization tasks confirm our analysis, showing that hybrid first-zeroth order optimization can be practical, even when training deep neural networks.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-04
# GT-CausIn:交通予測の新しい因果関係

GT-CausIn: a novel causal-based insight for traffic prediction ( http://arxiv.org/abs/2212.05782v2 )

ライセンス: Link先を確認
Ting Gao, Rodrigo Kappes Marques, Lei Yu, (参考訳) 交通予測は時空間予測の重要な応用である。 様々な手法の中で、グラフニューラルネットワークはこれまでに最も有望な結果を達成しており、グラフノード間の関係を学習することが重要な課題となっている。 しかし、これらの関係がノード-ノード方式で学習されると、改善空間は非常に制限される。 この課題は(1)異なる局間の不明瞭な時間的依存関係、(2)ノードレベルを超えて変数を定義することの難しさ、(3)学習された関係を検証するための既製の方法に起因している。 これらの課題に対処するために、トラフィックネットワーク内の因果関係を発見するための正当なトラフィック因果変数を定義し、統計ツールやケース分析で慎重にチェックする。 次に、因果情報に基づくグラフ空間時間ネットワーク(GT-CausIn)という、グラフ拡散層と時間畳み込みネットワーク(TCN)層を統合した新しいモデルを提案する。 PEMS-BAYとMETR-LAの2つの実世界のトラフィックデータセットで実験が行われ、これはGT-CausInが中期および長期予測において最先端のモデルを大幅に上回っていることを示している。

Traffic forecasting is an important application of spatiotemporal series prediction. Among different methods, graph neural networks have achieved so far the most promising results, learning relations between graph nodes then becomes a crucial task. However, improvement space is very limited when these relations are learned in a node-to-node manner. The challenge stems from (1) obscure temporal dependencies between different stations, (2) difficulties in defining variables beyond the node level, and (3) no ready-made method to validate the learned relations. To confront these challenges, we define legitimate traffic causal variables to discover the causal relation inside the traffic network, which is carefully checked with statistic tools and case analysis. We then present a novel model named Graph Spatial-Temporal Network Based on Causal Insight (GT-CausIn), where prior learned causal information is integrated with graph diffusion layers and temporal convolutional network (TCN) layers. Experiments are carried out on two real-world traffic datasets: PEMS-BAY and METR-LA, which show that GT-CausIn significantly outperforms the state-of-the-art models on mid-term and long-term prediction.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-04
# 自動単語イントルーダテストによる単語埋め込みの独立成分の解釈可能性の検討

Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test ( http://arxiv.org/abs/2212.09580v2 )

ライセンス: Link先を確認
Tomáš Musil, David Mareček, (参考訳) 独立成分分析(Independent Component Analysis, ICA)は、もともと同じ部屋にいる複数の人の録音を同時に行うような、混合信号で別々のソースを見つけるために開発されたアルゴリズムである。 主成分分析(PCA)とは異なり、ICAは単語を非構造的な特徴の集合として表現することを許可する。 本稿では,ICAを用いて単語の埋め込みを分析した。 ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索することができる。 独立したコンポーネントのほとんどは、このような特徴を表しています。 コンポーネントの解釈可能性の定量化には、人間と大規模言語モデルの両方で実行される「侵入者テスト」という単語を用いる。 本稿では,人的努力を必要とせず,高速かつ安価なベクトル解釈可能性の定量化手法として,単語侵入テストの自動バージョンを提案する。

Independent Component Analysis (ICA) is an algorithm originally developed for finding separate sources in a mixed signal, such as a recording of multiple people in the same room speaking at the same time. Unlike Principal Component Analysis (PCA), ICA permits the representation of a word as an unstructured set of features, without any particular feature being deemed more significant than the others. In this paper, we used ICA to analyze word embeddings. We have found that ICA can be used to find semantic features of the words, and these features can easily be combined to search for words that satisfy the combination. We show that most of the independent components represent such features. To quantify the interpretability of the components, we use the word intruder test, performed both by humans and by large language models. We propose to use the automated version of the word intruder test as a fast and inexpensive way of quantifying vector interpretability without the need for human effort.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-04
# 一貫性表現を用いたコントラスト学習

Contrastive Learning with Consistent Representations ( http://arxiv.org/abs/2302.01541v2 )

ライセンス: Link先を確認
Zihu Wang, Yu Wang, Zhuotong Chen, Hanbin Hu, Peng Li, (参考訳) コントラスト学習は表現学習に非常に有望である。 データ拡張は、明示的なラベルを必要とせず、データの情報的なビューを提供することによって、対照的な学習において重要な役割を果たす。 それでも、現在の方法論の有効性は、使用済みデータ拡張(DA)関数の品質に大きく左右され、多くの場合、限られた選択肢から手動で選択される。 多様なデータ拡張を活用することは魅力的だが、DAと表現学習の両方に固有の複雑さは、パフォーマンスの劣化につながる可能性がある。 本稿では,この課題に対処し,多様なデータ拡張の体系的導入を促進するために,一貫性表現を用いたコントラスト学習を提案する。 CoCorの中心には、DA整合性と呼ばれる新しい整合性指標があります。 この計量は、拡張入力データの表現空間へのマッピングを制御し、これらのインスタンスがDAの応用強度と一致する方法で最適に配置されることを保証する。 さらに,DA強度に対して所望の単調特性を保ちながら,DAの関数として最適マッピング位置を学習することを提案する。 実験結果から,CoCorはベースライン法と比較して,学習した表現の一般化可能性や伝達性を向上させることが明らかとなった。

Contrastive learning demonstrates great promise for representation learning. Data augmentations play a critical role in contrastive learning by providing informative views of the data without necessitating explicit labels. Nonetheless, the efficacy of current methodologies heavily hinges on the quality of employed data augmentation (DA) functions, often chosen manually from a limited set of options. While exploiting diverse data augmentations is appealing, the complexities inherent in both DAs and representation learning can lead to performance deterioration. Addressing this challenge and facilitating the systematic incorporation of diverse data augmentations, this paper proposes Contrastive Learning with Consistent Representations CoCor. At the heart of CoCor is a novel consistency metric termed DA consistency. This metric governs the mapping of augmented input data to the representation space, ensuring that these instances are positioned optimally in a manner consistent with the applied intensity of the DA. Moreover, we propose to learn the optimal mapping locations as a function of DA, all while preserving a desired monotonic property relative to DA intensity. Experimental results demonstrate that CoCor notably enhances the generalizability and transferability of learned representations in comparison to baseline methods.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# マルチモーダルレコメンダシステム:サーベイ

Multimodal Recommender Systems: A Survey ( http://arxiv.org/abs/2302.03883v2 )

ライセンス: Link先を確認
Qidong Liu, Jiaxi Hu, Yutian Xiao, Xiangyu Zhao, Jingtong Gao, Wanyu Wang, Qing Li, Jiliang Tang, (参考訳) 推薦システム(RS)はオンラインサービスの統合ツールキットである。 識別子と属性情報に基づいてユーザの好みをモデル化する,さまざまなディープラーニング技術を備えている。 ショートビデオやニュースなどのマルチメディアサービスが出現すると、推奨しながらこれらの内容を理解することが重要になる。 さらに、マルチモーダル機能は、RSにおけるデータの分散性の問題を軽減するのにも役立ちます。 このように、近年、学界と産業の双方から、MRS (Multimodal Recommender System) が注目されている。 本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。 まず、MDSの一般的な手順と課題をまとめ、その後、モーダリティエンコーダ(Modality Encoder)、特徴相互作用(Feature Interaction)、特徴強化(Feature Enhancement)、モデル最適化(Model Optimization)という4つのカテゴリで既存のMSSモデルを紹介します。 さらに、この分野を研究したい人には便利にするために、データセットとコードリソースを要約します。 最後に、MSSの将来的な方向性について論じ、本論文をまとめる。 実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。

The recommender system (RS) has been an integral toolkit of online services. They are equipped with various deep learning techniques to model user preference based on identifier and attribute information. With the emergence of multimedia services, such as short videos, news and etc., understanding these contents while recommending becomes critical. Besides, multimodal features are also helpful in alleviating the problem of data sparsity in RS. Thus, Multimodal Recommender System (MRS) has attracted much attention from both academia and industry recently. In this paper, we will give a comprehensive survey of the MRS models, mainly from technical views. First, we conclude the general procedures and major challenges for MRS. Then, we introduce the existing MRS models according to four categories, i.e., Modality Encoder, Feature Interaction, Feature Enhancement and Model Optimization. Besides, to make it convenient for those who want to research this field, we also summarize the dataset and code resources. Finally, we discuss some promising future directions of MRS and conclude this paper. To access more details of the surveyed papers, such as implementation code, we open source a repository.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# モード適応線形ユニット(MoLU)

Moderate Adaptive Linear Units (MoLU) ( http://arxiv.org/abs/2302.13696v5 )

ライセンス: Link先を確認
Hankyul Koh, Joon-hyuk Ko, Wonho Jhe, (参考訳) 深層ニューラルネットワークのための新しい高性能アクティベーション関数であるModrate Adaptive Linear Units (MoLU)を提案する。 MoLUはシンプルで美しく強力なアクティベーション関数であり、数百のアクティベーション関数の中で優れたメインアクティベーション関数となる。 MoLU は基本函数からなるので、微分同相(すなわち、全領域を解析する)であるだけでなく、訓練時間を短縮する。

We propose a new high-performance activation function, Moderate Adaptive Linear Units (MoLU), for the deep neural network. The MoLU is a simple, beautiful and powerful activation function that can be a good main activation function among hundreds of activation functions. Because the MoLU is made up of the elementary functions, not only it is a diffeomorphism (i.e. analytic over whole domains), but also it reduces the training time.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# MMA-MRNNet: 顔表情強度推定のための複数の効果モデルと動的マスクRNNのハーネス化

MMA-MRNNet: Harnessing Multiple Models of Affect and Dynamic Masked RNN for Precise Facial Expression Intensity Estimation ( http://arxiv.org/abs/2303.00180v4 )

ライセンス: Link先を確認
Dimitrios Kollias, Andreas Psaroudakis, Anastasios Arsenos, Paraskevi Theofilou, Chunchang Shao, Guanyu Hu, Ioannis Patras, (参考訳) 本稿では,映像データからの動的多出力表情強度推定(FEIE)のための新しいディープラーニングアーキテクチャであるMMA-MRNNetを提案する。 この課題に対する従来のアプローチは複雑な3次元CNNに依存しており、ビデオのすべてのフレームに顔の表情が均一に分散されていると仮定する。 これらの手法は、様々な長さのビデオを扱うのに苦労し、しばしば価値ある情報を捨てるかバイアスをもたらすアドホックな戦略に頼っている。 MMA-MRNNetは2段階のプロセスを通じてこれらの課題に対処する。 まず、MMA抽出部は、価覚醒を同時に推定し、基本的表情を認識し、各フレームにおけるアクション単位を検出するマルチタスク学習CNNである。 これらの表現はMasked RNNコンポーネントによって処理され、時間的依存関係をキャプチャし、入力ビデオの真の長さに応じて動的に重みを更新する。 提案した単音節非アンサンブル学習MMA-MRNNetは,Hum-Reactionデータセットを用いて評価され,一音節,マルチモーダル,アンサンブルアプローチの有無にかかわらず,最先端の手法よりもはるかに優れた性能を示した。 最後に,提案手法のMMA成分の有効性を複数の組込みデータセットで実証した。

This paper presents MMA-MRNNet, a novel deep learning architecture for dynamic multi-output Facial Expression Intensity Estimation (FEIE) from video data. Traditional approaches to this task often rely on complex 3-D CNNs, which require extensive pre-training and assume that facial expressions are uniformly distributed across all frames of a video. These methods struggle to handle videos of varying lengths, often resorting to ad-hoc strategies that either discard valuable information or introduce bias. MMA-MRNNet addresses these challenges through a two-stage process. First, the Multiple Models of Affect (MMA) extractor component is a Multi-Task Learning CNN that concurrently estimates valence-arousal, recognizes basic facial expressions, and detects action units in each frame. These representations are then processed by a Masked RNN component, which captures temporal dependencies and dynamically updates weights according to the true length of the input video, ensuring that only the most relevant features are used for the final prediction. The proposed unimodal non-ensemble learning MMA-MRNNet was evaluated on the Hume-Reaction dataset and demonstrated significantly superior performance, surpassing state-of-the-art methods by a wide margin, regardless of whether they were unimodal, multimodal, or ensemble approaches. Finally, we demonstrated the effectiveness of the MMA component of our proposed method across multiple in-the-wild datasets, where it consistently outperformed all state-of-the-art methods across various metrics.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# CCPL:クロスモーダルコントラストタンパク質学習

CCPL: Cross-modal Contrastive Protein Learning ( http://arxiv.org/abs/2303.11783v2 )

ライセンス: Link先を確認
Jiangbin Zheng, Stan Z. Li, (参考訳) 効果的なタンパク質表現学習はタンパク質機能の予測に不可欠である。 伝統的な方法では、大きくラベル付けされていないアミノ酸配列でタンパク質言語モデルを事前訓練し、次いでラベル付きデータで微調整する。 効果はあるものの、これらの方法は機能決定に不可欠なタンパク質構造のポテンシャルを過小評価する。 一般的な構造表現技術は注釈付きデータに大きく依存し、一般化可能性を制限する。 さらに、自然言語の事前学習と同様の構造的事前学習法は、実際のタンパク質構造を歪めることができる。 本研究では,新規な教師なしタンパク質構造表現事前学習法であるクロスモーダルコントラスト型タンパク質学習(CCPL)を紹介する。 CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを使用して構造学習を強化し、固有の構造情報を維持するために自己教師付き構造制約を取り入れている。 さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。

Effective protein representation learning is crucial for predicting protein functions. Traditional methods often pretrain protein language models on large, unlabeled amino acid sequences, followed by finetuning on labeled data. While effective, these methods underutilize the potential of protein structures, which are vital for function determination. Common structural representation techniques rely heavily on annotated data, limiting their generalizability. Moreover, structural pretraining methods, similar to natural language pretraining, can distort actual protein structures. In this work, we introduce a novel unsupervised protein structure representation pretraining method, cross-modal contrastive protein learning (CCPL). CCPL leverages a robust protein language model and uses unsupervised contrastive alignment to enhance structure learning, incorporating self-supervised structural constraints to maintain intrinsic structural information. We evaluated our model across various benchmarks, demonstrating the framework's superiority.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# 画像データにおける物体検出のためのモデルに依存しない説明可能な人工知能

Model-agnostic explainable artificial intelligence for object detection in image data ( http://arxiv.org/abs/2303.17249v4 )

ライセンス: Link先を確認
Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari, (参考訳) 近年、ディープニューラルネットワークはコンピュータビジョンアプリケーションのための高性能人工知能(AI)システムの構築に広く利用されている。 物体検出はコンピュータビジョンの基本的なタスクであり、大規模で複雑なAIモデルを開発することで大きく進歩してきた。 しかし、透明性の欠如は、これらのモデルの普及を許さない大きな課題である。 説明可能な人工知能(Explainable AI)は、AIシステムの振る舞い、決定ロジック、脆弱性を理解するための手法を開発する研究分野である。 従来,ランダムマスキングに基づく物体検出のための説明法がほとんど開発されていなかった。 しかし、ランダムマスクは画像内のピクセルの実際の重要性に関していくつかの問題を引き起こす可能性がある。 本稿では,マスキング(BODEM)によるブラックボックス型オブジェクト検出記述法の設計と実装を行い,オブジェクト検出システムに階層的ランダムマスキング手法を適用した。 本研究では, 粗いマスクを低レベルに使用して画像内の有意な領域を見つける階層的ランダムマスキングフレームワークを提案し, より高レベルな有意な領域を改良するために, きめ細かいマスクを用いる。 様々な物体検出データセットとモデルの実験により、BODEMは物体検出器の挙動を効果的に説明できることが示された。 さらに,提案手法は,説明の有効性の定量化に関して,D-RISE と局所解釈型モデル非依存的説明法(LIME)を比較検討した。 実験結果から,BODEMはブラックボックステストシナリオにおけるオブジェクト検出システムの説明と検証に有効な方法であることが示された。

In recent years, deep neural networks have been widely used for building high-performance Artificial Intelligence (AI) systems for computer vision applications. Object detection is a fundamental task in computer vision, which has been greatly progressed through developing large and intricate AI models. However, the lack of transparency is a big challenge that may not allow the widespread adoption of these models. Explainable artificial intelligence is a field of research where methods are developed to help users understand the behavior, decision logics, and vulnerabilities of AI systems. Previously, few explanation methods were developed for object detection based on random masking. However, random masks may raise some issues regarding the actual importance of pixels within an image. In this paper, we design and implement a black-box explanation method named Black-box Object Detection Explanation by Masking (BODEM) through adopting a hierarchical random masking approach for object detection systems. We propose a hierarchical random masking framework in which coarse-grained masks are used in lower levels to find salient regions within an image, and fine-grained mask are used to refine the salient regions in higher levels. Experimentations on various object detection datasets and models showed that BODEM can effectively explain the behavior of object detectors. Moreover, our method outperformed Detector Randomized Input Sampling for Explanation (D-RISE) and Local Interpretable Model-agnostic Explanations (LIME) with respect to different quantitative measures of explanation effectiveness. The experimental results demonstrate that BODEM can be an effective method for explaining and validating object detection systems in black-box testing scenarios.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# CADGE: グラフ構造化知識集約による文脈認識対話生成

CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation ( http://arxiv.org/abs/2305.06294v3 )

ライセンス: Link先を確認
Hongbo Zhang, Chen Tang, Tyler Loakman, Chenghua Lin, Stefan Goetze, (参考訳) 常識知識は多くの自然言語処理タスクに不可欠である。 既存の研究は通常、グラフ知識を従来のグラフニューラルネットワーク(GNN)に組み込む。 これらの異なる表現学習段階は、ニューラルネットワークが入力知識の両タイプに含まれる全体的な文脈を学習するのに最適であるかもしれない、と我々は主張する。 本稿では,コンテキスト対応の知識集約プロセスに基づいて,関連する知識グラフのグローバルな特徴を効果的に組み込むことのできる,コンテキスト対応のグラフアテンションモデルを提案する。 具体的には、フラットなグラフ知識とテキストを組み合わせることで、不均一な特徴を処理するために、新しい表現学習アプローチを活用している。 我々の知識を最大限に活用するために、コモンセンス対話生成を支援する文脈情報に加えて、連結されたサブグラフにグラフ知識集約を階層的に適用する最初の試みである。 このフレームワークは従来のGNNベースの言語フレームワークと比較して優れたパフォーマンスを示している。 自動評価と人的評価の両方で,提案モデルが最先端のベースラインに対して顕著な性能向上を示した。

Commonsense knowledge is crucial to many natural language processing tasks. Existing works usually incorporate graph knowledge with conventional graph neural networks (GNNs), leading to the text and graph knowledge encoding processes being separated in a serial pipeline. We argue that these separate representation learning stages may be suboptimal for neural networks to learn the overall context contained in both types of input knowledge. In this paper, we propose a novel context-aware graph-attention model (Context-aware GAT), which can effectively incorporate global features of relevant knowledge graphs based on a context-enhanced knowledge aggregation process. Specifically, our framework leverages a novel representation learning approach to process heterogeneous features - combining flattened graph knowledge with text. To the best of our knowledge, this is the first attempt at hierarchically applying graph knowledge aggregation on a connected subgraph in addition to contextual information to support commonsense dialogue generation. This framework shows superior performance compared to conventional GNN-based language frameworks. Both automatic and human evaluation demonstrates that our proposed model has significant performance uplifts over state-of-the-art baselines.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-04
# 一般化階層型ガウスフィルタ

The generalized Hierarchical Gaussian Filter ( http://arxiv.org/abs/2305.10937v2 )

ライセンス: Link先を確認
Lilian Aline Weber, Peter Thestrup Waade, Nicolas Legrand, Anna Hedvig Møller, Klaas Enno Stephan, Christoph Mathys, (参考訳) 階層的ベイズ的知覚と学習のモデルは、現代の認知神経科学において顕著に特徴付けられる。 これには、階層的表現の性質が異なる予測符号化と階層的ガウスフィルタリング(HGF)が含まれる。 予測符号化は、与えられた階層の上位レベルが下位レベルの状態(値)に影響を与えると仮定する。 しかし、HGFでは、より高いレベルが低いレベルでの変化率を決定する。 本稿では,HGFの基盤となる生成モデルの空間を,予測符号化やニューラルネットワーク全般に類似した状態値間の非線形階層的結合形式を含むように拡張する。 我々は、HGFのこの一般化に対応する更新方程式を導出し、親ノードが子ノードの状態や変化率を予測する(信じる)ノードのネットワークを接続するものとして概念化する。 これにより、(1)ネットワークの各ノードに汎用的な計算ステップを持つモジュラーアーキテクチャを作成し、(2)一般化されたHGFモデルによって示唆される階層的メッセージパッシングを開示し、これを予測符号化の下で同等のスキームと比較することができる。 一般化されたHGFによってインスタンス化されるアルゴリズムアーキテクチャは、予測符号化とほとんど互換性があるが、精度とボラティリティに関する計算から生じるいくつかのユニークな予測によって拡張されている。 我々の開発は、経験的データ分析のための階層ベイズモデルの高度に柔軟な実装を可能にし、オープンソースソフトウェアとして利用可能です。

Hierarchical Bayesian models of perception and learning feature prominently in contemporary cognitive neuroscience where, for example, they inform computational concepts of mental disorders. This includes predictive coding and hierarchical Gaussian filtering (HGF), which differ in the nature of hierarchical representations. Predictive coding assumes that higher levels in a given hierarchy influence the state (value) of lower levels. In HGF, however, higher levels determine the rate of change at lower levels. Here, we extend the space of generative models underlying HGF to include a form of nonlinear hierarchical coupling between state values akin to predictive coding and artificial neural networks in general. We derive the update equations corresponding to this generalization of HGF and conceptualize them as connecting a network of (belief) nodes where parent nodes either predict the state of child nodes or their rate of change. This enables us to (1) create modular architectures with generic computational steps in each node of the network, and (2) disclose the hierarchical message passing implied by generalized HGF models and to compare this to comparable schemes under predictive coding. We find that the algorithmic architecture instantiated by the generalized HGF is largely compatible with that of predictive coding but extends it with some unique predictions which arise from precision and volatility related computations. Our developments enable highly flexible implementations of hierarchical Bayesian models for empirical data analysis and are available as open source software.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# TikhonovおよびRKHS正則化のための小型ノイズ解析

Small noise analysis for Tikhonov and RKHS regularizations ( http://arxiv.org/abs/2305.11055v2 )

ライセンス: Link先を確認
Quanjun Lang, Fei Lu, (参考訳) 正規化は、不適切な機械学習と逆問題において重要な役割を果たす。 しかし、様々な正則化ノルムの基本的な比較分析は依然として未解決である。 我々は、ガウス雑音を伴う線形逆問題において、Tikhonov と RKHS の正規化におけるノルムの影響を評価するための小さな雑音解析フレームワークを構築した。 この枠組みは, 低雑音域における正規化推定器の収束率について検討し, 従来のL2正則化器の潜在的な不安定性を明らかにする。 このような不安定性は、L2 Tikhonov と RKHS の正則化をカバーする適応的分数正規化器の革新的なクラスを提案し、分数滑らか度パラメータを調整することによって解決する。 驚くべき洞察は、これらの分数RKHSによる過度な平滑化は、常に最適な収束率をもたらすが、最適のハイパーパラメータは、実際に選択するには早すぎるかもしれないということである。

Regularization plays a pivotal role in ill-posed machine learning and inverse problems. However, the fundamental comparative analysis of various regularization norms remains open. We establish a small noise analysis framework to assess the effects of norms in Tikhonov and RKHS regularizations, in the context of ill-posed linear inverse problems with Gaussian noise. This framework studies the convergence rates of regularized estimators in the small noise limit and reveals the potential instability of the conventional L2-regularizer. We solve such instability by proposing an innovative class of adaptive fractional RKHS regularizers, which covers the L2 Tikhonov and RKHS regularizations by adjusting the fractional smoothness parameter. A surprising insight is that over-smoothing via these fractional RKHSs consistently yields optimal convergence rates, but the optimal hyper-parameter may decay too fast to be selected in practice.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# 不均衡深部回帰のための不確かさ投票アンサンブル

Uncertainty Voting Ensemble for Imbalanced Deep Regression ( http://arxiv.org/abs/2305.15178v3 )

ライセンス: Link先を確認
Yuchang Jiang, Vivien Sainte Fare Garnot, Konrad Schindler, Jan Dirk Wegner, (参考訳) 実世界の問題、特に回帰問題に機械学習を適用する場合、データの不均衡はユビキタスである。 トレーニングデータが不均衡であれば、学習はターゲット分布の密集した領域に支配され、学習された回帰器は疎有な領域で性能が劣る傾向にある。 オーバーサンプリングや再重み付けといった標準的な手段以外にも、不均衡なデータから学ぶための2つの主要なアプローチがあります。 回帰に関して、最近の研究は分布の連続性を利用しており、分類ではアンサンブル法を使い、一部のメンバーはスペーサー領域の予測を専門化している。 UVOTEと呼ばれる本手法では,確率的深層学習の最近の進歩と,不均衡回帰のためのアンサンブルアプローチを統合する。 従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。 実験の結果, この損失関数は不均衡に対処できることがわかった。 さらに、予測されたアレタリック不確実性値を用いて、アンサンブル内の異なる専門家モデルの予測を融合させ、別個のアグリゲーションモジュールを不要にする。 提案手法を複数の公開ベンチマーク上で既存の代替手法と比較し,UVOTEが先行技術より一貫して優れており,同時に精度の高い不確実性推定を導出することを示す。 私たちのコードはlink-upon-publicationで利用可能です。

Data imbalance is ubiquitous when applying machine learning to real-world problems, particularly regression problems. If training data are imbalanced, the learning is dominated by the densely covered regions of the target distribution and the learned regressor tends to exhibit poor performance in sparsely covered regions. Beyond standard measures like oversampling or reweighting, there are two main approaches to handling learning from imbalanced data. For regression, recent work leverages the continuity of the distribution, while for classification, the trend has been to use ensemble methods, allowing some members to specialize in predictions for sparser regions. In our method, named UVOTE, we integrate recent advances in probabilistic deep learning with an ensemble approach for imbalanced regression. We replace traditional regression losses with negative log-likelihood, which also predicts sample-wise aleatoric uncertainty. Our experiments show that this loss function handles imbalance better. Additionally, we use the predicted aleatoric uncertainty values to fuse the predictions of different expert models in the ensemble, eliminating the need for a separate aggregation module. We compare our method with existing alternatives on multiple public benchmarks and show that UVOTE consistently outperforms the prior art, while at the same time producing better-calibrated uncertainty estimates. Our code is available at link-upon-publication.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# 対部フェアネス-フェアネス評価におけるグループ間差の系統的相違に対処する

Counterpart Fairness -- Addressing Systematic between-group Differences in Fairness Evaluation ( http://arxiv.org/abs/2305.18160v3 )

ライセンス: Link先を確認
Yifei Wang, Zhengyang Zhou, Liqin Wang, John Laurentiev, Peter Hou, Li Zhou, Pengyu Hong, (参考訳) 機械学習(ML)を用いて意思決定を行う場合、アルゴリズム上の決定が公平であり、特定の個人やグループ、特に未成年者に対する差別がないことを保証することが重要である。 既存のグループフェアネス法は、人種や性別のような保護された変数によって規定されたグループ間で平等な結果(ローン承認率など)を確保することを目的としている。 しかし、これらの手法は、結果に影響を及ぼす可能性のあるこれらのグループの間に、複雑で固有の違いを見落としている。 非保護変数であるが、系統的な差異が示される要因は、公平性評価に大きな影響を及ぼす可能性がある。 したがって、グループ間の系統的差異と、多面的、相互に結合した共役効果の両方を考慮に入れた、より洗練された包括的アプローチを推奨する。 我々は,集団の同一性をアルゴリズム的に区別できない要因を探索することで,異なるグループからの相手(すなわち,興味のあるタスクに関して類似した個人)に基づく公平度尺度を提案した。 そこで我々は,「オレンジ」と「アプルズ」を比較する問題を回避し,確率スコアに基づく相手の識別手法を開発した。 さらに,MLモデルの公正度を評価するために,CFair(Counterpart-Fairness)と呼ばれる対向型統計公正度指数を導入した。 CFairの有効性を検証するために様々な実験を行った。

When using machine learning (ML) to aid decision-making, it is critical to ensure that an algorithmic decision is fair and does not discriminate against specific individuals/groups, particularly those from underprivileged populations. Existing group fairness methods aim to ensure equal outcomes (such as loan approval rates) across groups delineated by protected variables like race or gender. However, these methods overlook the intricate, inherent differences among these groups that could influence outcomes. The confounding factors, which are non-protected variables but manifest systematic differences, can significantly affect fairness evaluation. Therefore, we recommend a more refined and comprehensive approach that accounts for both the systematic differences within groups and the multifaceted, intertwined confounding effects. We proposed a fairness metric based on counterparts (i.e., individuals who are similar with respect to the task of interest) from different groups, whose group identities cannot be distinguished algorithmically by exploring confounding factors. We developed a propensity-score-based method for identifying counterparts, avoiding the issue of comparing "oranges" with "apples". In addition, we introduced a counterpart-based statistical fairness index, called Counterpart-Fairness (CFair), to assess the fairness of ML models. Various empirical studies were conducted to validate the effectiveness of CFair.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# 分散再現型ロバストQ-ラーニングのサンプル複雑度

Sample Complexity of Variance-reduced Distributionally Robust Q-learning ( http://arxiv.org/abs/2305.18420v2 )

ライセンス: Link先を確認
Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou, (参考訳) データを収集する環境の分布は、モデルをデプロイする環境の分布と異なる可能性がある。 本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。 これらのアルゴリズムは、無限水平$\gamma$-discounted robust Markov decision process with Kullback-Leibler ambiguity set to a entry-wise $\epsilon$-degree of precision の$q$-functionを効率的に近似するように設計されている。 さらに、分散再現型分散ロバストQ-ラーニングは、同期Q-ラーニングと分散還元技術を組み合わせて、その性能を向上させる。 したがって、これは$\tilde O(|\mathbf{S}|||\mathbf{A}|(1-\gamma)^{-4}\epsilon^{-2})$のミニマックス標本複雑性上限に達し、$\mathbf{S}$と$\mathbf{A}$は状態と作用空間を表す。 これは曖昧さのサイズの$\delta$とは無関係に、新しい複雑性理論的な洞察を提供する最初の複雑性結果である。 さらに、一連の数値実験により、分布シフトを扱うアルゴリズムの理論的発見と効率が確認される。

Dynamic decision-making under distributional shifts is of fundamental interest in theory and applications of reinforcement learning: The distribution of the environment in which the data is collected can differ from that of the environment in which the model is deployed. This paper presents two novel model-free algorithms, namely the distributionally robust Q-learning and its variance-reduced counterpart, that can effectively learn a robust policy despite distributional shifts. These algorithms are designed to efficiently approximate the $q$-function of an infinite-horizon $\gamma$-discounted robust Markov decision process with Kullback-Leibler ambiguity set to an entry-wise $\epsilon$-degree of precision. Further, the variance-reduced distributionally robust Q-learning combines the synchronous Q-learning with variance-reduction techniques to enhance its performance. Consequently, we establish that it attains a minimax sample complexity upper bound of $\tilde O(|\mathbf{S}||\mathbf{A}|(1-\gamma)^{-4}\epsilon^{-2})$, where $\mathbf{S}$ and $\mathbf{A}$ denote the state and action spaces. This is the first complexity result that is independent of the ambiguity size $\delta$, thereby providing new complexity theoretic insights. Additionally, a series of numerical experiments confirm the theoretical findings and the efficiency of the algorithms in handling distributional shifts.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# 意思決定型学習 - 基礎, 最先端, ベンチマーク, 将来の可能性

Decision-Focused Learning: Foundations, State of the Art, Benchmark and Future Opportunities ( http://arxiv.org/abs/2307.13565v4 )

ライセンス: Link先を確認
Jayanta Mandi, James Kotary, Senne Berden, Maxime Mulamba, Victor Bucarey, Tias Guns, Ferdinando Fioretto, (参考訳) 決定中心学習(DFL)は、機械学習(ML)と制約付き最適化を統合し、エンドツーエンドシステムでMLモデルをトレーニングすることで意思決定品質を向上させる新興パラダイムである。 このアプローチは、不確実性の下で動作している現実世界のアプリケーションにおいて、未知のパラメータを決定モデル内で推定することが大きな課題である、組合せ的意思決定に革命をもたらす可能性を示す。 本稿では,MLと制約付き最適化を組み合わせた勾配法と勾配法の両方を詳細に解析し,DFLの総合的なレビューを行う。 これらの手法の強度と限界を評価し、7つの問題にまたがる11の手法の広範な実験的評価を含む。 この調査は、DFLにおける最近の進歩と今後の研究方向性に関する洞察も提供する。 コードとベンチマーク:https://github.com/PredOpt/predopt-benchmarks

Decision-focused learning (DFL) is an emerging paradigm that integrates machine learning (ML) and constrained optimization to enhance decision quality by training ML models in an end-to-end system. This approach shows significant potential to revolutionize combinatorial decision-making in real-world applications that operate under uncertainty, where estimating unknown parameters within decision models is a major challenge. This paper presents a comprehensive review of DFL, providing an in-depth analysis of both gradient-based and gradient-free techniques used to combine ML and constrained optimization. It evaluates the strengths and limitations of these techniques and includes an extensive empirical evaluation of eleven methods across seven problems. The survey also offers insights into recent advancements and future research directions in DFL. Code and benchmark: https://github.com/PredOpt/predopt-benchmarks
翻訳日:2024-09-07 05:11:54 公開日:2024-09-04
# 巨大な言語モデルはHum4n L4ngu4geとW0rldを理解できるか?

A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? ( http://arxiv.org/abs/2308.00109v2 )

ライセンス: Link先を確認
Evelina Leivada, Gary Marcus, Fritz Günther, Elliot Murphy, (参考訳) 現代の人工知能アプリケーションは、単語の予測に依存する言語関連のタスクに大きな可能性を示している。 現在のLarge Language Models(LLMs)は、人間の言語的パフォーマンスに関する主張と関連付けられており、その応用は、人工知能への一歩として、そして人間の言語の認知的、さらには神経的基礎を理解するための大きな進歩として、双方に称賛されている。 これらの主張を評価するために、まず、LLMの貢献を目標認知システムの理論的に有意な表現として分析する。 第2に、より高度な処理レベルからのトップダウンフィードバックを通じて、過去の期待と過去の世界経験を基礎づけることによって、モデルが全体像を見る能力を評価する。 モデルには認識の基盤がないため、これらの特徴を活用できず、表現された単語と単語ベクトルの固定的な関連にのみ依存する、という仮説を立てる。 これを評価するために、我々は、文字を数字に体系的に置き換える復号文を必要とする新しい「リートタスク」(l33t t4sk)を設計し、実行した。 結果は、人間がこのタスクに優れているのに対して、モデルは苦労し、我々の仮説を裏付けていることを示唆している。 これらのモデルの開発状況からまだ欠落している重要な能力を特定して結果を解釈する。

Modern Artificial Intelligence applications show great potential for language-related tasks that rely on next-word prediction. The current generation of Large Language Models (LLMs) have been linked to claims about human-like linguistic performance and their applications are hailed both as a step towards artificial general intelligence and as a major advance in understanding the cognitive, and even neural basis of human language. To assess these claims, first we analyze the contribution of LLMs as theoretically informative representations of a target cognitive system vs. atheoretical mechanistic tools. Second, we evaluate the models' ability to see the bigger picture, through top-down feedback from higher levels of processing, which requires grounding in previous expectations and past world experience. We hypothesize that since models lack grounded cognition, they cannot take advantage of these features and instead solely rely on fixed associations between represented words and word vectors. To assess this, we designed and ran a novel 'leet task' (l33t t4sk), which requires decoding sentences in which letters are systematically replaced by numbers. The results suggest that humans excel in this task whereas models struggle, confirming our hypothesis. We interpret the results by identifying the key abilities that are still missing from the current state of development of these models, which require solutions that go beyond increased system scaling.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 情報検索のための大規模言語モデル:調査

Large Language Models for Information Retrieval: A Survey ( http://arxiv.org/abs/2308.07107v4 )

ライセンス: Link先を確認
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, Ji-Rong Wen, (参考訳) 情報取得の主要な手段として,検索エンジンなどの情報検索(IR)システムが,私たちの日常生活に組み込まれている。 これらのシステムは、対話、質問応答、推薦システムの構成要素としても機能する。 IRの軌道は、項ベースの手法の起源から高度なニューラルモデルとの統合まで、動的に進化してきた。 ニューラルネットワークは複雑なコンテキスト信号やセマンティックなニュアンスを捉えるのに優れており、IRのランドスケープを再構築するが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面している。 この進化には、従来の手法(項ベースのスパース検索法と迅速な応答法など)と現代のニューラルアーキテクチャ(強力な言語理解能力を持つ言語モデルなど)を組み合わせる必要がある。 一方、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解、生成、一般化、推論能力によって自然言語処理に革命をもたらした。 その結果、最近の研究はLLMをIRシステムの改善に活用しようと試みている。 この研究軌道の急速な進化を考えると、既存の方法論を整理し、包括的概要を通して微妙な洞察を提供する必要がある。 本調査では,クエリリフレクタ,レトリバー,リランカ,リーダといった重要な側面を含む,LLMとIRシステムの合流点を探索する。 さらに,この拡大分野において,探索エージェントなどの有望な方向を探究する。

As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions, such as search agents, within this expanding field.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 情報共有による部分観測可能なマルチエージェント強化学習

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing ( http://arxiv.org/abs/2308.08705v3 )

ライセンス: Link先を確認
Xiangyu Liu, Kaiqing Zhang, (参考訳) 証明可能なマルチエージェント強化学習(RL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。 既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。 まず、POSGを効率的に解くために、情報共有の必要性を正当化するために、まずいくつかの計算複雑性結果と、半効率な単一エージェントRLを部分的な観測で実現した可観測性仮定を立証する。 ここでは、(元の POSG を解くという観点から)近似した 'emph{equilibrium} を計画することは、上記の仮定の下で準効率、すなわち準多項式時間(英語版)(quasi-polynomial-time)の準効率となるような、POSG の {approximate model} を構築するための共有共通情報をさらに共有することを提案する。 さらに,統計的かつ計算上準効率の高い部分観測可能なマルチエージェントRLアルゴリズムを開発した。 均衡学習を超えて、我々は、協調的なPOSG、すなわち分散化された部分的に観察可能なマルコフ決定プロセスにおいて、より困難な目標である「emph{team-optimal solution}」を見つけるアルゴリズムの枠組みを拡張した。 モデルに共通するいくつかの構造的仮定の下で、具体的な計算とサンプルの複雑さを確立する。 制御理論におけるよく研究されている概念である「emph{information structure}」を、サンプルと計算効率に優れた部分観測可能なマルチエージェントRLの開発に活用し、設計する可能性も、我々の研究が開けることを期待している。

We study provable multi-agent reinforcement learning (RL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical multi-agent RL, and a standard model for multi-agent control systems with communications. We first establish several computational complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for efficiently solving POSGs. {Inspired by the inefficiency of planning in the ground-truth model,} we then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate \emph{equilibrium} (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable multi-agent RL algorithm that is \emph{both} statistically and computationally quasi-efficient. {Finally, beyond equilibrium learning, we extend our algorithmic framework to finding the \emph{team-optimal solution} in cooperative POSGs, i.e., decentralized partially observable Markov decision processes, a much more challenging goal. We establish concrete computational and sample complexities under several common structural assumptions of the model.} We hope our study could open up the possibilities of leveraging and even designing different \emph{information structures}, a well-studied notion in control theory, for developing both sample- and computation-efficient partially observable multi-agent RL.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# Open Gaze:Deep Learningを使ったスマートフォンデバイス用のオープンソースのアイトラッカー

Open Gaze: Open Source eye tracker for smartphone devices using Deep Learning ( http://arxiv.org/abs/2308.13495v3 )

ライセンス: Link先を確認
Sushmanth reddy, Jyothi Swaroop Reddy, (参考訳) 視線追跡は視覚研究、言語分析、ユーザビリティ評価など様々な分野において重要なツールである。 しかし、以前の調査の大部分は、拡張性に欠ける特殊な、コストのかかる視線追跡ハードウェアを使った、拡張性のあるデスクトップディスプレイに集中している。 スマートフォン上での眼球運動のパターンは、広く採用されているにもかかわらず、ほとんど見当たらない。 本稿では,GooglePaperが提案する方法論をエミュレートした,スマートフォンベースのガウントラッカのオープンソース実装について述べる。 私たちの焦点は、補充ハードウェアを必要とせずに、GooglePaperの方法論によって達成された精度に匹敵する精度を達成することです。 機械学習技術の統合により、スマートフォンにネイティブな正確な視線追跡ソリューションを公開する。 提案手法は,2桁以上のコストを特徴とする,最先端の移動眼球追跡装置に類似した精度を実証する。 データセットのWebサイトに登録することで利用できる広大なMIT GazeCaptureデータセットを活用することで、眼球運動タスクにおける眼球運動行動に関する以前の研究と、自然画像観察中の唾液濃度分析に関する重要な発見を再現することに成功した。 さらに,読解課題の認識におけるスマートフォンによる視線追跡の適用性を強調した。 本研究は, 眼球運動研究を顕著な割合で増幅し, 明示的な同意を得た数千人の被験者の参加を伴って, 眼球運動研究を増幅する本質的な可能性を示すものである。 このスケーラビリティは、ビジョン研究の進歩を促進するだけでなく、アクセシビリティ向上や医療アプリケーションといった分野へのメリットも拡張します。

Eye tracking has been a pivotal tool in diverse fields such as vision research, language analysis, and usability assessment. The majority of prior investigations, however, have concentrated on expansive desktop displays employing specialized, costly eye tracking hardware that lacks scalability. Remarkably little insight exists into ocular movement patterns on smartphones, despite their widespread adoption and significant usage. In this manuscript, we present an open-source implementation of a smartphone-based gaze tracker that emulates the methodology proposed by a GooglePaper (whose source code remains proprietary). Our focus is on attaining accuracy comparable to that attained through the GooglePaper's methodology, without the necessity for supplementary hardware. Through the integration of machine learning techniques, we unveil an accurate eye tracking solution that is native to smartphones. Our approach demonstrates precision akin to the state-of-the-art mobile eye trackers, which are characterized by a cost that is two orders of magnitude higher. Leveraging the vast MIT GazeCapture dataset, which is available through registration on the dataset's website, we successfully replicate crucial findings from previous studies concerning ocular motion behavior in oculomotor tasks and saliency analyses during natural image observation. Furthermore, we emphasize the applicability of smartphone-based gaze tracking in discerning reading comprehension challenges. Our findings exhibit the inherent potential to amplify eye movement research by significant proportions, accommodating participation from thousands of subjects with explicit consent. This scalability not only fosters advancements in vision research, but also extends its benefits to domains such as accessibility enhancement and healthcare applications.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 多体局在ダイナミクスによる高能率古典的シャドウトモグラフィ

Efficient Classical Shadow Tomography through Many-body Localization Dynamics ( http://arxiv.org/abs/2309.01258v4 )

ライセンス: Link先を確認
Tian-Gang Zhou, Pengfei Zhang, (参考訳) 古典的なシャドウトモグラフィーは、最小限の測定で量子多体系から多くの特性を抽出する強力なツールとして機能する。 それにもかかわらず、少数体の演算子に最適な性能を与える手法は、超低温の原子ガスのような特定の量子シミュレーターにおいて挑戦的なタスクであるランダムな2量子ビットゲートの適用を必要とする。 そこで本研究では,多体局在化の力学を基礎とした代替手法を提案する。 フェノメロジ的モデルと数値的にTEBDアルゴリズムを併用したシャドウノルムの探索を通じて,本手法が浅い回路や測定誘起臨界に匹敵する顕著な効率を達成することを実証し,従来のシャドウプロトコルと比較して指数指数指数が大幅に向上した。 本研究は, サンプリングおよび再構成プロセス全体を包含する直接数値シミュレーションにより, 相関するものである。 その結果,提案手法は量子シミュレータの出力状態を解析するための説得力のある手法であることがわかった。

Classical shadow tomography serves as a potent tool for extracting numerous properties from quantum many-body systems with minimal measurements. Nevertheless, prevailing methods yielding optimal performance for few-body operators necessitate the application of random two-qubit gates, a task that can prove challenging on specific quantum simulators such as ultracold atomic gases. In this work, we introduce an alternative approach founded on the dynamics of many-body localization, a phenomenon extensively demonstrated in optical lattices. Through an exploration of the shadow norm -- both analytically, employing a phenomenological model, and numerically, utilizing the TEBD algorithm -- we demonstrate that our scheme achieves remarkable efficiency comparable to shallow circuits or measurement-induced criticality, resulting in a significant improvement in the exponential exponent compared to the previous classical shadow protocol. Our findings are corroborated through direct numerical simulations encompassing the entire sampling and reconstruction processes. Consequently, our results present a compelling methodology for analyzing the output states of quantum simulators.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 畳み込みニューラルネットワークのオブジェクトサイズ駆動設計:生データに基づく仮想軸検出

Object-Size-Driven Design of Convolutional Neural Networks: Virtual Axle Detection based on Raw Data ( http://arxiv.org/abs/2309.01574v3 )

ライセンス: Link先を確認
Henik Riedel, Robert Steven Lorenzen, Clemens Hübler, (参考訳) インフラ時代が進むにつれて、効率的なモニタリング方法の必要性がますます重要になっている。 橋梁Weigh-In-Motion (BWIM) システムはコスト効率の高い負荷に不可欠である。 しかし、従来のBWIMシステムは、アクセル検出のための追加のセンサーを必要としており、アクセス不能な場所やブリッジ操作に干渉する場所に設置する必要がある。 本研究は,専用軸受を橋梁上に任意に設置したセンサを用いて列車軸受をリアルタイムに検出する手法に置き換えることにより,この問題に対処する。 単線鉄道橋において, 空間誤差3.69cmの軸の99.9%を加速度測定のみで検出できることを実証し, VADER(Virtual Axle Detector with Enhanced Receptive Field)を検証した。 生データを入力として使用すると、最先端のスペクトログラムベースの手法をスピードとメモリ使用率の両方で99%向上し、初めてリアルタイムアプリケーションを実現することができる。 さらに、オブジェクトのサイズに基づいて畳み込みニューラルネットワーク(CNN)のハイパーパラメータを最適化する新しいアプローチである最大受容場(MRF)ルールを導入する。 MRF規則は、ハイパーパラメーター探索空間を効果的に制限し、広範なハイパーパラメーターチューニングの必要性を置き換える可能性がある。 MRF規則は理論的にはすべての非構造データに適用できるため、地震予知から物体認識まで幅広い深層学習問題に影響を及ぼす可能性がある。

As infrastructure ages, the need for efficient monitoring methods becomes increasingly critical. Bridge Weigh-In-Motion (BWIM) systems are crucial for cost-efficient load and thus residual service life determination of road and railway infrastructure. However, conventional BWIM systems require additional sensors for axle detection, which have to be installed in potentially inaccessible locations or in locations that interfere with bridge operation. This study addresses this challenge by replacing dedicated axle detectors with a novel approach to real-time detection of train axles using sensors arbitrarily placed on bridges. The proposed Virtual Axle Detector with Enhanced Receptive Field (VADER) has been validated on a single-track railway bridge, demonstrating that it achieves to detect 99.9% of axles with a spatial error of 3.69cm using only acceleration measurements. Using raw data as input outperforms the state-of-the-art spectrogram-based method in both speed and memory usage by 99%, making real-time application feasible for the first time. Additionally, we introduce the Maximum Receptive Field (MRF) rule, a novel approach to optimise hyperparameters of Convolutional Neural Networks (CNNs) based on the size of objects, which in this case relates to the fundamental frequency of a bridge. The MRF rule effectively narrows the hyperparameter search space, potentially replacing the need for extensive hyperparameter tuning. Since the MRF rule is theoretically applicable to all unstructured data, it could have implications for a wide range of deep learning problems from earthquake prediction to object recognition.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 神経崩壊の理解に向けて:バッチ正規化と体重減少の効果

Towards Understanding Neural Collapse: The Effects of Batch Normalization and Weight Decay ( http://arxiv.org/abs/2309.04644v3 )

ライセンス: Link先を確認
Leyan Pan, Xinyuan Cao, (参考訳) ニューラル・コラプス(英: Neural Collapse、NC)は、ディープ・ニューラルネットワークの終端で最近観測された幾何学的構造であり、同じクラスの最終層の特徴ベクトルが単一点に「崩壊」し、異なるクラスの特徴が等しく分離される。 我々は,バッチ正規化(BN)と重量減衰(WD)がNCの出現に重大な影響を及ぼすことを示した。 ほぼ最適損失状態においては,WD値,トレーニング損失,最終層BNの有無にのみ依存するNCの出現に基づく漸近的下界を確立する。 実験では, モデルがBN, 適切なWD値, 損失の低減, 最終層特徴ノルムの低下により, NCの存在感が強くなることを示した。 本研究は, BNとWDのニューラルネットワーク機能形成における役割を研究する上で, 新たな視点を提供するものである。

Neural Collapse (NC) is a geometric structure recently observed at the terminal phase of training deep neural networks, which states that last-layer feature vectors for the same class would "collapse" to a single point, while features of different classes become equally separated. We demonstrate that batch normalization (BN) and weight decay (WD) critically influence the emergence of NC. In the near-optimal loss regime, we establish an asymptotic lower bound on the emergence of NC that depends only on the WD value, training loss, and the presence of last-layer BN. Our experiments substantiate theoretical insights by showing that models demonstrate a stronger presence of NC with BN, appropriate WD values, lower loss, and lower last-layer feature norm. Our findings offer a novel perspective in studying the role of BN and WD in shaping neural network features.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# リソース効率の高いアテンションベースニューラルネットワークによる量子状態トモグラフィの強化

Enhancing quantum state tomography via resource-efficient attention-based neural networks ( http://arxiv.org/abs/2309.10616v2 )

ライセンス: Link先を確認
Adriano Macarone Palmieri, Guillem Müller-Rigat, Anubhav Kumar Srivastava, Maciej Lewenstein, Grzegorz Rajchel-Mieldzioć, Marcin Płodzień, (参考訳) 資源効率のよい量子状態トモグラフィーは、将来の量子技術の鍵となる要素の1つである。 本研究では,標準的な量子状態再構成手法とアテンションに基づくニューラルネットワークアーキテクチャを組み合わせた新しいトモグラフィープロトコルを提案する。 提案手法は,有限統計系における線形反転と最大類似度推定よりも平均忠実度再構成を向上し,少なくとも必要なトレーニングデータの量を桁違いに削減できることを示す。 本稿では,本プロトコルの物理的シナリオ,特にスピンスクイーズプロトコル中に発生する多体絡みの形で,気象資源を認証する可能性を示す。 これは、トラップされたイオンや光学格子中の超低温原子など、現在の量子シミュレータプラットフォームで実装することができる。

Resource-efficient quantum state tomography is one of the key ingredients of future quantum technologies. In this work, we propose a new tomography protocol combining standard quantum state reconstruction methods with an attention-based neural network architecture. We show how the proposed protocol is able to improve the averaged fidelity reconstruction over linear inversion and maximum-likelihood estimation in the finite-statistics regime, reducing at least by an order of magnitude the amount of necessary training data. We demonstrate the potential use of our protocol in physically relevant scenarios, in particular, to certify metrological resources in the form of many-body entanglement generated during the spin squeezing protocols. This could be implemented with the current quantum simulator platforms, such as trapped ions, and ultra-cold atoms in optical lattices.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# 重力場における偏光子方向に基づく光子偏光の非相互性

Non-Reciprocity in Photon Polarization based on direction of polarizer under Gravitational Fields ( http://arxiv.org/abs/2309.12066v2 )

ライセンス: Link先を確認
Hansol Noh, Paul M. Alsing, Warner A. Miller, Doyeol Ahn, (参考訳) 量子力学と重力の統一はいまだにテラの無知である。 光子偏光測定は、これらの2つの基本的な力の間の相互作用を探索するための特別な窓を提供する。 我々は、偏光子の方向に対応する量子化軸を調整することによって、光子偏光角の非相反性が生じることを明らかにした。 この非相互性のため、測定された偏光角は、地球近傍およびブラックホール環境における重力誘起のフレーム回転の10倍になる。 この発見を検証するため、光子の閉路における自明さの従来の見方に挑戦する、調整量子化軸を持つ衛星からなる天文干渉計を提案する。 特に、この非相互性は、原点に関係なく偏極面の任意の回転に拡張でき、これらは全て偏極回転を規定することができる。 我々の発見は、物理学の基本原理をテストする新しい機会を与えるかもしれない。

Unification of gravity with quantum mechanics is still a terra incognita. Photon polarization measurements offer a unique window for probing the interaction between these two fundamental forces. We have revealed that non-reciprocity in the photon polarization angle can arise by tailoring the quantization axis, which corresponds to the direction of polarizer. Due to this non-reciprocity, the measured polarization angle can become ten times larger than that of gravitationally induced frame rotation in both near-Earth and black hole environments. To verify this finding, we propose an astronomical interferometer composed of satellites with the tailored quantization axis, challenging the conventional view of their triviality in closed paths of a photon. Notably, this non-reciprocity can extend to any rotation in the polarization plane, irrespective of the origins, all of which can dictate polarization rotation. Our findings could offer new opportunities for testing fundamental principles in physics.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-04
# CrossDF: ディープ情報分解によるクロスドメインディープフェイク検出の改善

CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition ( http://arxiv.org/abs/2310.00359v2 )

ライセンス: Link先を確認
Shanmin Yang, Hui Guo, Shu Hu, Bin Zhu, Ying Fu, Siwei Lyu, Xi Wu, Xin Wang, (参考訳) ディープフェイク技術は、セキュリティと社会的信頼に重大な脅威をもたらす。 既存の検出方法は、トレーニングとテストの両方に同じディープフェイクテクニックを使用するデータセット内の偽造を識別する上で高いパフォーマンスを示しているが、見当たらないディープフェイクテクニックがテストされるクロスデータセットシナリオに直面した場合には、急激なパフォーマンス劣化に悩まされる。 この課題に対処するため,クロスデータセットディープフェイク検出(CrossDF)の性能を向上させるためのディープ情報分解(DID)フレームワークを提案する。 既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。 具体的には、内在的なディープフェイク関連情報のみを使用して、顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解する。 さらに、これらの2種類の情報をデコリレーション学習モジュールで独立に最適化し、様々な無関係な情報変化に対するモデルの堅牢性を高め、偽造法を発見できないように一般化する。 我々は,DIDフレームワークのクロスデータセット深度検出における有効性と優位性を検証し,既存の最先端検出手法との比較を行った。

Deepfake technology poses a significant threat to security and social trust. Although existing detection methods have shown high performance in identifying forgeries within datasets that use the same deepfake techniques for both training and testing, they suffer from sharp performance degradation when faced with cross-dataset scenarios where unseen deepfake techniques are tested. To address this challenge, we propose a Deep Information Decomposition (DID) framework to enhance the performance of Cross-dataset Deepfake Detection (CrossDF). Unlike most existing deepfake detection methods, our framework prioritizes high-level semantic features over specific visual artifacts. Specifically, it adaptively decomposes facial features into deepfake-related and irrelevant information, only using the intrinsic deepfake-related information for real/fake discrimination. Moreover, it optimizes these two kinds of information to be independent with a de-correlation learning module, thereby enhancing the model's robustness against various irrelevant information changes and generalization ability to unseen forgery methods. Our extensive experimental evaluation and comparison with existing state-of-the-art detection methods validate the effectiveness and superiority of the DID framework on cross-dataset deepfake detection.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# OceanNet: 地域海洋のための原理的ニューラルオペレーターベースのデジタルツイン

OceanNet: A principled neural operator-based digital twin for regional oceans ( http://arxiv.org/abs/2310.00813v2 )

ライセンス: Link先を確認
Ashesh Chattopadhyay, Michael Gray, Tianning Wu, Anna B. Lowe, Ruoying He, (参考訳) データ駆動型アプローチは大気モデリングや天気予報において大きな可能性を秘めているが、海洋モデリングは複雑な水位測定、陸地、垂直構造、非直線性などにより、異なる課題を提起している。 本研究は、海洋循環のための原理的ニューラルオペレーターベースのデジタルツインであるOceanNetを紹介する。 OceanNetは、フーリエニューラル演算子と予測-評価-コレクタ統合スキームを使用して、自己回帰的エラーの増大を軽減し、拡張時間スケールでの安定性を向上させる。 スペクトル正規化器は、小さなスケールでスペクトルバイアスに対処する。 オーシャンネットは北西大西洋西部境界流(ガルフ・ストリーム)に適用され、ループ・カレント・エディスとガルフ・ストリーム・メアンダーの季節予測の課題に焦点を当てている。 過去の海面高度(SSH)データを用いてトレーニングされたOceanNetは、未結合で最先端の動的海洋モデル予測によってSSH予測を上回り、計算を50,000倍削減することで、競争力のある予測技術を示す。 これらの成果は、高分解能数値海洋モデルに対するコスト効率の良い代替手段として、物理学にインスパイアされたディープニューラル演算子の可能性を実証している。

While data-driven approaches demonstrate great potential in atmospheric modeling and weather forecasting, ocean modeling poses distinct challenges due to complex bathymetry, land, vertical structure, and flow non-linearity. This study introduces OceanNet, a principled neural operator-based digital twin for ocean circulation. OceanNet uses a Fourier neural operator and predictor-evaluate-corrector integration scheme to mitigate autoregressive error growth and enhance stability over extended time scales. A spectral regularizer counteracts spectral bias at smaller scales. OceanNet is applied to the northwest Atlantic Ocean western boundary current (the Gulf Stream), focusing on the task of seasonal prediction for Loop Current eddies and the Gulf Stream meander. Trained using historical sea surface height (SSH) data, OceanNet demonstrates competitive forecast skill by outperforming SSH predictions by an uncoupled, state-of-the-art dynamical ocean model forecast, reducing computation by 500,000 times. These accomplishments demonstrate the potential of physics-inspired deep neural operators as cost-effective alternatives to high-resolution numerical ocean models.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# 大規模量子モジュールアーキテクチャにおけるコア間トラフィックの特性

Characterizing the Inter-Core Qubit Traffic in Large-Scale Quantum Modular Architectures ( http://arxiv.org/abs/2310.01921v2 )

ライセンス: Link先を確認
Sahar Ben Rached, Isaac Lopez Agudo, Santiago Rodrigo, Medina Bandic, Sebastian Feld, Hans van Someren, Eduard Alarcón, Carmen G. Almudéver, Sergi Abadal, (参考訳) モジュラ量子プロセッサアーキテクチャは、ノイズ中間スケール量子(NISQ)デバイス時代を超えた量子コンピューティングシステムのスケーラビリティのための有望なソリューションとして構想されている。 量子イントラネットを介して数十から数百の量子コアを相互接続することにより、主に量子ビット制御の要求を緩和し、量子コンピュータ上で大規模アルゴリズムの実行を可能にすることによって、密度の高い量子ビットパッケージ型モノリシックプロセッサの圧力制限を緩和する。 このようなアーキテクチャを最適化するためには、コア間通信ネットワークを介して発生する量子状態移動を解析することが重要である。 これはまた、マルチコア量子コンピュータのソフトウェアとハードウェアスタックを改善するための洞察を提供する。 そこで本研究では,大規模回路における時空間量子ビット間トラフィックの先駆的特徴について述べる。 プログラムは、最大1000キュービットのマルチコアアーキテクチャで実行される。 計算処理と通信オーバヘッドを評価するために,複数の性能指標に基づいてキュービットトラフィックを特徴付ける。 その結果,提案アルゴリズムのスケーラビリティ,マルチコアプロセッサへの量子回路のマッピング改善,大規模マルチコアアーキテクチャのベンチマークの基礎となる一連のガイドラインが得られた。

Modular quantum processor architectures are envisioned as a promising solution for the scalability of quantum computing systems beyond the Noisy Intermediate Scale Quantum (NISQ) devices era. Based upon interconnecting tens to hundreds of quantum cores via a quantum intranet, this approach unravels the pressing limitations of densely qubit-packed monolithic processors, mainly by mitigating the requirements of qubit control and enhancing qubit isolation, and therefore enables executing large-scale algorithms on quantum computers. In order to optimize such architectures, it is crucial to analyze the quantum state transfers occurring via inter-core communication networks, referred to as inter-core qubit traffic. This would also provide insights to improve the software and hardware stack for multi-core quantum computers. To this aim, we present a pioneering characterization of the spatio-temporal inter-core qubit traffic in large-scale circuits. The programs are executed on an all-to-all connected multi-core architecture that supports up to around 1000 qubits. We characterize the qubit traffic based on multiple performance metrics to assess the computational process and the communication overhead. Based on the showcased results, we conclude on the scalability of the presented algorithms, provide a set of guidelines to improve mapping quantum circuits to multi-core processors, and lay the foundations of benchmarking large-scale multi-core architectures.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# 同時次元化:マルチモーダル表現学習のためのデータ効率の良いアプローチ

Simultaneous Dimensionality Reduction: A Data Efficient Approach for Multimodal Representations Learning ( http://arxiv.org/abs/2310.04458v3 )

ライセンス: Link先を確認
Eslam Abdelaleem, Ahmed Roman, K. Michael Martini, Ilya Nemenman, (参考訳) 本稿では,次元還元(DR)へのアプローチとして,独立次元化(IDR)と同時次元化(SDR)の2種類について検討する。 主成分分析がパラダイム的な例であるIDR法では、各モダリティは独立に圧縮され、可能な限り各モダリティに多くのばらつきを保とうとする。 対照的に、SDRでは、モダリティを同時に圧縮して、削減された記述間の共変を最大化し、個々の変動がどれだけ保存されているかに注意を払わない。 パラダイマティックな例としては、部分最小正方形と正準相関解析がある。 これらのDR法は統計学の基盤となっているが、相対的精度とデータセットサイズ要件は十分に理解されていない。 本稿では,多モードデータを既知の分散構造と共分散構造で合成する生成線形モデルを提案する。 本研究では,データ中のサンプル数,信号対雑音比,変動信号数および共変信号数の関数として,共分散構造の再構成精度を評価する。 数値実験により、線形SDR法は線形IDR法を一貫して上回り、より小型のデータセットでより高品質で簡潔な縮小次元表現が得られることを示した。 顕著なことに、正規化されたCAAは、サンプルの数がデータ次元よりもはるかに小さい場合でも、低次元の弱い共変構造を識別することができる。 我々の研究は、SDRがデータの共変パターンをより効果的に検出できるという文献における過去の観察を裏付け、説明します。 これらの結果は,共変の検出が変動を保存することよりも重要である場合に,実世界のデータ解析において,SDRがIDRよりも望ましいことを示唆している。

We explore two primary classes of approaches to dimensionality reduction (DR): Independent Dimensionality Reduction (IDR) and Simultaneous Dimensionality Reduction (SDR). In IDR methods, of which Principal Components Analysis is a paradigmatic example, each modality is compressed independently, striving to retain as much variation within each modality as possible. In contrast, in SDR, one simultaneously compresses the modalities to maximize the covariation between the reduced descriptions while paying less attention to how much individual variation is preserved. Paradigmatic examples include Partial Least Squares and Canonical Correlations Analysis. Even though these DR methods are a staple of statistics, their relative accuracy and data set size requirements are poorly understood. We introduce a generative linear model to synthesize multimodal data with known variance and covariance structures to examine these questions. We assess the accuracy of the reconstruction of the covariance structures as a function of the number of samples, signal-to-noise ratio, and the number of varying and covarying signals in the data. Using numerical experiments, we demonstrate that linear SDR methods consistently outperform linear IDR methods and yield higher-quality, more succinct reduced-dimensional representations with smaller datasets. Remarkably, regularized CCA can identify low-dimensional weak covarying structures even when the number of samples is much smaller than the dimensionality of the data, which is a regime challenging for all dimensionality reduction methods. Our work corroborates and explains previous observations in the literature that SDR can be more effective in detecting covariation patterns in data. These findings suggest that SDR should be preferred to IDR in real-world data analysis when detecting covariation is more important than preserving variation.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# 局所演算と古典的通信を用いた多部量子チャネルやその他の量子機器の漸近的実装

Asymptotic implementation of multipartite quantum channels and other quantum instruments using local operations and classical communication ( http://arxiv.org/abs/2310.05362v2 )

ライセンス: Link先を確認
Scott M. Cohen, (参考訳) 我々は,局所演算と古典通信(LOCC)を用いて,多部系上の量子チャネルを任意に近似できる,という必要条件を証明した。 次に、これらの議論を拡張して、最も洗練されたケース、一般化された測定値から、量子チャネルである最も粗い粒度まで、全ての量子機器に適用できる条件を得る。 これらの結果は、LOCCによって実装できないことが知られている量子機器の詳細な分析によって説明されるが、そのフレームワーク内では任意に近似することができる。 この分析の進展の1つとして、同じカテゴリに該当する量子測定が見つかる: LOCCによって正確に実装することはできないが、任意にLOCCによって近似できる。 この測度は無限個の結果を持ち、同じ圏内に測度が存在するが、有限個の結果しか持たないかどうかという疑問を解き放つ。

We prove a necessary condition that a quantum channel on a multipartite system may be approximated arbitrarily closely using local operations and classical communication (LOCC). We then extend those arguments to obtain a condition that applies to all quantum instruments, which range from the most refined case, a generalized measurement, to the most coarse-grained, which is a quantum channel. We illustrate these results by a detailed analysis of a quantum instrument that is known not to be implementable by LOCC, but which can be arbitrarily closely approximated within that framework. As one outgrowth of this analysis, we find a quantum measurement that falls into the same category: it cannot be implemented exactly by LOCC, but can be approximated by LOCC arbitrarily closely. This measurement has an infinite number of outcomes, leaving open the question as to whether or not there exists a measurement within this same category but having only a finite number of outcomes.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# 拡張グラフ表現学習のためのスペクトル認識強化

Spectral-Aware Augmentation for Enhanced Graph Representation Learning ( http://arxiv.org/abs/2310.13845v2 )

ライセンス: Link先を確認
Kaiqi Yang, Haoyu Han, Wei Jin, Hui Liu, (参考訳) グラフコントラスト学習(GCL)は近年,グラフ上での学習表現において顕著な効果を示した。 理想的な拡張ビューを生成するためには、下流タスクの関連性が低い詳細を破棄しつつ、重要な情報を保存する必要がある。 しかし、現在の拡張法は、通常、空間領域におけるランダムなトポロジーの破損を伴い、スペクトル領域内の異なる周波数にまたがる情報の適切な解決に失敗する。 予備的な研究では、空間的ランダムな摂動が全ての周波数帯にほぼ均一に影響を及ぼすことを示した。 タスク関連情報が通常、グラフによって異なる特定のスペクトル領域に存在することを考えると、このワンサイズフィットのアプローチは課題を引き起こす可能性がある。 我々は、無差別な空間的乱れは、意図せずタスク関連情報を弱め、その効果を低下させるかもしれないと論じる。 この課題に対処するために、様々なグラフにまたがる異なる周波数に特異的な情報に着目し、摂動を選択的に適用することを提案する。 本稿では,スペクトル領域におけるグラフ構造の特定の周波数に調整された摂動を適用するGASSERについて,スペクトルヒントで導かれるモデルを提案する。 本研究では,GASSER が生成する拡張ビューが適応的かつ制御可能で,グラフ構造のホモフィリ比やスペクトルに直感的に適合していることを示す。

Graph Contrastive Learning (GCL) has demonstrated remarkable effectiveness in learning representations on graphs in recent years. To generate ideal augmentation views, the augmentation generation methods should preserve essential information while discarding less relevant details for downstream tasks. However, current augmentation methods usually involve random topology corruption in the spatial domain, which fails to adequately address information spread across different frequencies in the spectral domain. Our preliminary study highlights this issue, demonstrating that spatial random perturbations impact all frequency bands almost uniformly. Given that task-relevant information typically resides in specific spectral regions that vary across graphs, this one-size-fits-all approach can pose challenges. We argue that indiscriminate spatial random perturbation might unintentionally weaken task-relevant information, reducing its effectiveness. To tackle this challenge, we propose applying perturbations selectively, focusing on information specific to different frequencies across diverse graphs. In this paper, we present GASSER, a model that applies tailored perturbations to specific frequencies of graph structures in the spectral domain, guided by spectral hints. Through extensive experimentation and theoretical analysis, we demonstrate that the augmentation views generated by GASSER are adaptive, controllable, and intuitively aligned with the homophily ratios and spectrum of graph structures.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# 最大独立集合に対する量子ハミルトンアルゴリズム

Quantum Hamiltonian Algorithms for Maximum Independent Sets ( http://arxiv.org/abs/2310.14546v5 )

ライセンス: Link先を確認
Xianjue Zhao, Peiyun Ge, Hongye Yu, Li You, Frank Wilczek, Biao Wu, (参考訳) 量子ビットが原子基底とリドベルク状態にエンコードされ、グラフの頂点に位置することにより、近辺の原子の同時励起を阻害するリドベルク封鎖の条件量子力学が近年、HV (Science 376, 1209 (2022)) で表されるアディアベート進化アルゴリズムに従って、最大独立集合を見つけるために用いられるようになった。 PKアルゴリズムと呼ばれる別のアルゴリズムは、独立集合が創発的PXPモデルの非アーベルゲージ行列によって支配されるメディアグラフ上で拡散することを明らかにする。 この研究は、上述の2つのアルゴリズムが数学的に等価であることを示している。 さらに、PKアルゴリズムは数学的に等価であるが、より効率的かつ省資源性を示すことを示した。 同じ実験パラメータの範囲内では、HVアルゴリズムと比較して、PKアルゴリズムは平均で25%以上の性能を示し、各グラフに対して最低6\times10^6$(約900ドル)の連続演算を省くことが示唆されている。 さらに、測定誤差を考慮し、これがHVの最適化プロセスの性能の振動を引き起こす可能性があることを指摘する。

With qubits encoded into atomic ground and Rydberg states and situated on the vertexes of a graph, the conditional quantum dynamics of Rydberg blockade, which inhibits simultaneous excitation of nearby atoms, has been employed recently to find maximum independent sets following an adiabatic evolution algorithm hereafter denoted by HV [Science 376, 1209 (2022)]. An alternative algorithm, short named the PK algorithm, reveals that the independent sets diffuse over a media graph governed by a non-abelian gauge matrix of an emergent PXP model. This work shows the above two algorithms are mathematically equivalent, despite of their seemingly different physical implementations. More importantly, we demonstrated that although the two are mathematically equivalent, the PK algorithm exhibits more efficient and resource-saving performance. Within the same range of experimental parameters, our numerical studies suggest that the PK algorithm performs at least 25% better on average and saves at least $6\times10^6$ measurements ($\sim 900$ hours of continuous operation) for each graph when compared to the HV algorithm. We further consider the measurement error and point out that this may cause the oscillations in the performance of the HV's optimization process.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-04
# WhiteFox:大規模言語モデルを活用したWhite-Boxコンパイラファジィ

WhiteFox: White-Box Compiler Fuzzing Empowered by Large Language Models ( http://arxiv.org/abs/2310.15991v3 )

ライセンス: Link先を確認
Chenyuan Yang, Yinlin Deng, Runyu Lu, Jiayi Yao, Jiawei Liu, Reyhaneh Jabbarvand, Lingming Zhang, (参考訳) 誤コンパイルはプログラムの振る舞いを偽装し、重大な結果をもたらすため、コンパイラの正しさは不可欠である。 ファジングはコンパイラの欠陥を明らかにするために研究されている。 既存のアーティファクトは、内部のコンパイラ動作を十分に理解せずにテストを生成するブラックボックスとグレイボックスファジングに重点を置いている。 一方、シンボリック実行のような従来のホワイトボックス技術は、コンパイラの巨大なコードベースに計算的に適用できない。 最近の進歩は、コード生成/理解タスクにおいて、LLM(Large Language Models)が優れていることを示している。 それでも、LLMをコンパイラのソースコード情報で導くことは、コンパイラテストの欠如した研究である。 そこで本研究では,LLMを用いた最初のホワイトボックスコンパイラファザであるWhiteFoxを提案する。 マルチエージェントフレームワークを採用している: LLMベースの分析エージェントは、低レベル最適化ソースコードを調べ、最適化をトリガーできる高レベルテストプログラムの要求を生成する。 さらに、最適化トリガテストは、オンザフライでの生成を改善するフィードバックとして使用される。 最も人気のある3つのDLコンパイラ(PyTorchインダクタ、TensorFlow-XLA、TensorFlow Lite)に対する我々の評価によると、WhiteFoxは最先端のファジィよりも最大8倍高いパフォーマンスで、深い最適化を実行するための高品質なテストプログラムを生成することができる。 WhiteFoxはDLコンパイラの101のバグを発見した。 WhiteFoxはPyTorchチームによって承認され、開発ワークフローに組み込まれている。 DLコンパイラ以外にも、WhiteFoxは異なるドメインのコンパイラにも適用できる。

Compiler correctness is crucial, as miscompilation can falsify program behaviors, leading to serious consequences. Fuzzing has been studied to uncover compiler defects. However, compiler fuzzing remains challenging: Existing arts focus on black- and grey-box fuzzing, which generates tests without sufficient understanding of internal compiler behaviors. Meanwhile, traditional white-box techniques, like symbolic execution, are computationally inapplicable to the giant codebase of compilers. Recent advances demonstrate that Large Language Models (LLMs) excel in code generation/understanding tasks. Nonetheless, guiding LLMs with compiler source-code information remains a missing piece of research in compiler testing. To this end, we propose WhiteFox, the first white-box compiler fuzzer using LLMs with source-code information to test compiler optimization, with a spotlight on detecting deep logic bugs in the deep learning (DL) compilers. WhiteFox adopts a multi-agent framework: an LLM-based analysis agent examines the low-level optimization source code and produces requirements on the high-level test programs that can trigger the optimization; an LLM-based generation agent produces test programs based on the summarized requirements. Additionally, optimization-triggering tests are used as feedback to enhance the generation on the fly. Our evaluation on the three most popular DL compilers (i.e., PyTorch Inductor, TensorFlow-XLA, and TensorFlow Lite) shows WhiteFox can generate high-quality test programs to exercise deep optimizations, practicing up to 8X more than state-of-the-art fuzzers. WhiteFox has found 101 bugs for the DL compilers, with 92 confirmed as previously unknown and 70 fixed. WhiteFox has been acknowledged by the PyTorch team and is being incorporated into its development workflow. Beyond DL compilers, WhiteFox can also be adapted for compilers in different domains.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-04
# 無限次元ベイズ逆問題に対する適応作用素学習

Adaptive operator learning for infinite-dimensional Bayesian inverse problems ( http://arxiv.org/abs/2310.17844v3 )

ライセンス: Link先を確認
Zhiwei Gao, Liang Yan, Tao Zhou, (参考訳) 偏微分方程式 (PDE) によって支配されるベイズ逆問題 (BIP) の基本計算問題は、連続した前方モデル評価の要求に由来する。 このようなコストを削減するための一般的な戦略は、高価なモデルシミュレーションを演算子学習を用いた計算効率の良い近似に置き換えることである。 しかし、近似モデルを用いることで、逆問題の既に不正な結果が悪化し、直接モデリングエラーが発生する可能性がある。 したがって、そのような手法を効果的に実装するには、精度と効率のバランスが不可欠である。 そこで本研究では,局所的に精度の高いサロゲートを強制することによって,モデリング誤差を徐々に低減できる適応型演算子学習フレームワークを開発した。 これは、事前訓練された近似モデルに、後部評価過程において、欲求アルゴリズムによって選択された訓練点を適応的に微調整することで達成される。 提案手法の有効性を検証するため,我々はDeepOnetを用いてサロゲートとアクセントのないカルマン逆変換(UKI)を構築し,それぞれBIP解を近似する。 さらに、UKIフレームワークを用いた線形ケースにおいて、厳密な収束を保証する。 このアプローチは、ダーシーフロー、熱源反転問題、反応拡散問題など、多くのベンチマークでテストされている。 その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。

The fundamental computational issues in Bayesian inverse problems (BIP) governed by partial differential equations (PDEs) stem from the requirement of repeated forward model evaluations. A popular strategy to reduce such costs is to replace expensive model simulations with computationally efficient approximations using operator learning, motivated by recent progress in deep learning. However, using the approximated model directly may introduce a modeling error, exacerbating the already ill-posedness of inverse problems. Thus, balancing between accuracy and efficiency is essential for the effective implementation of such approaches. To this end, we develop an adaptive operator learning framework that can reduce modeling error gradually by forcing the surrogate to be accurate in local areas. This is accomplished by adaptively fine-tuning the pre-trained approximate model with training points chosen by a greedy algorithm during the posterior evaluation process. To validate our approach, we use DeepOnet to construct the surrogate and unscented Kalman inversion (UKI) to approximate the BIP solution, respectively. Furthermore, we present a rigorous convergence guarantee in the linear case using the UKI framework. The approach is tested on a number of benchmarks, including the Darcy flow, the heat source inversion problem, and the reaction-diffusion problem. The numerical results show that our method can significantly reduce computational costs while maintaining inversion accuracy.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-04
# トランスフォーマーが表現できる形式言語は何か?

What Formal Languages Can Transformers Express? A Survey ( http://arxiv.org/abs/2311.00208v3 )

ライセンス: Link先を確認
Lena Strobl, William Merrill, Gail Weiss, David Chiang, Dana Angluin, (参考訳) 自然言語処理においてトランスフォーマーが注目されているため、一部の研究者は、形式言語として問題を扱うことによって、彼らが解決できる問題とできない問題について理論的に研究してきた。 このような質問を探索することは、他の計算モデルと比較してトランスフォーマーのパワー、その基本的な能力と限界、そしてアーキテクチャの選択の影響を明らかにするのに役立ちます。 この郊外での作業は近年かなりの進歩を遂げている。 本稿では,この研究を包括的に調査し,異なる結果の基盤となる多様な仮定を文書化し,一見矛盾する発見を調和させる統一的な枠組みを提供する。

As transformers have gained prominence in natural language processing, some researchers have investigated theoretically what problems they can and cannot solve, by treating problems as formal languages. Exploring such questions can help clarify the power of transformers relative to other models of computation, their fundamental capabilities and limits, and the impact of architectural choices. Work in this subarea has made considerable progress in recent years. Here, we undertake a comprehensive survey of this work, documenting the diverse assumptions that underlie different results and providing a unified framework for harmonizing seemingly contradictory findings.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-04
# SALLM: 生成されたコードのセキュリティアセスメント

SALLM: Security Assessment of Generated Code ( http://arxiv.org/abs/2311.00889v3 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Joanna C. S. Santos, Sajith Devareddy, Anna Muller, (参考訳) ソフトウェアエンジニアの日々のプラクティスにおいて、LLM(Large Language Models)の人気が高まっているため、これらのツールによって生成されたコードが機能的に正しいだけでなく、脆弱性もないことを保証することが重要です。 LLMは開発者の生産性向上に役立つが、以前の実証実験では、LLMが安全性の低いコードを生成することが示されている。 安全でないコード生成には2つの要因がある。 まず、LLMを評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。 代わりに、しばしば競合するプログラミングの課題や教室タイプのコーディングタスクに基づいている。 現実世界のアプリケーションでは、生成されたコードはより大きなコードベースに統合され、潜在的なセキュリティリスクをもたらす。 第二に、既存の評価指標は、主に、セキュリティ上の考慮を無視しながら生成されたコードの機能的正当性に焦点を当てています。 そこで本稿では,LLMのセキュアなコード生成能力のベンチマークを行うフレームワークであるSALLMについて述べる。 このフレームワークには、セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための設定可能なアセスメントテクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスの3つの主要なコンポーネントがある。

With the growing popularity of Large Language Models (LLMs) in software engineers' daily practices, it is important to ensure that the code generated by these tools is not only functionally correct but also free of vulnerabilities. Although LLMs can help developers to be more productive, prior empirical studies have shown that LLMs can generate insecure code. There are two contributing factors to the insecure code generation. First, existing datasets used to evaluate LLMs do not adequately represent genuine software engineering tasks sensitive to security. Instead, they are often based on competitive programming challenges or classroom-type coding tasks. In real-world applications, the code produced is integrated into larger codebases, introducing potential security risks. Second, existing evaluation metrics primarily focus on the functional correctness of the generated code while ignoring security considerations. Therefore, in this paper, we described SALLM, a framework to benchmark LLMs' abilities to generate secure code systematically. This framework has three major components: a novel dataset of security-centric Python prompts, configurable assessment techniques to evaluate the generated code, and novel metrics to evaluate the models' performance from the perspective of secure code generation.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-04
# RoFTを用いたAIによるテキスト境界検出

AI-generated text boundary detection with RoFT ( http://arxiv.org/abs/2311.08349v3 )

ライセンス: Link先を確認
Laida Kushnareva, Tatiana Gaintseva, German Magai, Serguei Barannikov, Dmitry Abulkhanov, Kristian Kuznetsov, Eduard Tulchinskii, Irina Piontkovskaya, Sergey Nikolenko, (参考訳) 大規模な言語モデルの開発が急速に進んでいるため、人々は人間によって書かれたように始まるが、機械が生成したように続くテキストに遭遇することが多い。 このような文章の人文と機械生成部分の境界を検出することは、文学的にはあまり注目されていない難しい問題である。 我々はこのギャップを埋め、最先端の人工テキスト検出分類器を境界検出設定に適応させるいくつかの方法を検討する。 我々は、RealまたはFakeのテキストベンチマークを使用して、いくつかのトピックに関する短いテキストと、さまざまな言語モデルの世代を含むすべての検出器をその限界まで押し付けます。 この多様性を利用して、クロスドメインおよびクロスモデル設定における全ての検出器の堅牢性を深く検討し、将来の研究のベースラインと洞察を提供する。 特に、境界検出の難易度に基づくアプローチは、RoBERTaモデルの教師付き微調整よりも、ドメイン固有のデータに対して堅牢である傾向があり、また、テキストのどの特徴が境界検出アルゴリズムを混乱させ、ドメイン間設定においてその性能に悪影響を及ぼすかが分かる。

Due to the rapid development of large language models, people increasingly often encounter texts that may start as written by a human but continue as machine-generated. Detecting the boundary between human-written and machine-generated parts of such texts is a challenging problem that has not received much attention in literature. We attempt to bridge this gap and examine several ways to adapt state of the art artificial text detection classifiers to the boundary detection setting. We push all detectors to their limits, using the Real or Fake text benchmark that contains short texts on several topics and includes generations of various language models. We use this diversity to deeply examine the robustness of all detectors in cross-domain and cross-model settings to provide baselines and insights for future research. In particular, we find that perplexity-based approaches to boundary detection tend to be more robust to peculiarities of domain-specific data than supervised fine-tuning of the RoBERTa model; we also find which features of the text confuse boundary detection algorithms and negatively influence their performance in cross-domain settings.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-04
# フェルミオン型ニューラルネットワーク量子状態の統一的視点:ニューラルネットワークのバックフローから隠れフェルミオン決定状態へ

A Unifying View of Fermionic Neural Network Quantum States: From Neural Network Backflow to Hidden Fermion Determinant States ( http://arxiv.org/abs/2311.09450v2 )

ライセンス: Link先を確認
Zejun Liu, Bryan K. Clark, (参考訳) フェルミオンハミルトニアンに対する変動波動関数のうち、ニューラルネットワーク逆流(NNBF)と隠れフェルミオン行列式(HFDS)は、基底状態に正確な近似を与える2つの顕著なクラスである。 ここでは、これら全てをNNBFの枠組みでキャストするフェルミオン性神経量子状態の統一的なビューを開発する。 NNBF波動関数は、ニューラルネットワークによってパラメータ化される構成依存の単一粒子軌道(SPO)を持つ。 我々は、$r$の隠れフェルミオンを持つHFDSを、$r \times r$ determinant Jastrowと制限付き低ランク$r$加法補正を備えたNNBFとして書けることを示す。 さらに、NNBF波動関数では、付加的なSPO補正をさらに複雑にすることで、そのような行列ジャストロウの値が$r$になるようにして一般化されることを示す。 2つの行列の内次元$r$の積から生成される加法的SPO補正を数値的に解析的に比較する。 より大きい$r$の波動関数はより大きな空間にまたがり、より単純で直接的なSPOの更新はより表現力があり、よりエネルギッシュなものであることを示す。 これらのことは、NNBFの標準的なアプローチが他の関連する選択肢に好まれていることを示唆している。 最後に, 単粒子軌道の選択に使用する行選択により, 近接配置間の有意な符号と振幅変調が可能であり, NNBFとHFDSの波動関数の品質に部分的に責任があることを明らかにする。

Among the variational wave functions for Fermionic Hamiltonians, neural network backflow (NNBF) and hidden fermion determinant states (HFDS) are two prominent classes to provide accurate approximations to the ground state. Here we develop a unifying view of fermionic neural quantum states casting them all in the framework of NNBF. NNBF wave-functions have configuration-dependent single-particle orbitals (SPO) which are parameterized by a neural network. We show that HFDS with $r$ hidden fermions can be written as a NNBF with an $r \times r$ determinant Jastrow and a restricted low-rank $r$ additive correction to the SPO. Furthermore, we show that in NNBF wave-functions, such determinant Jastrow's can generically be removed at the cost of further complicating the additive SPO correction increasing its rank by $r$. We numerically and analytically compare additive SPO corrections generated by the product of two matrices with inner dimension $r$. We find that larger $r$ wave-functions span a larger space and give evidence that simpler and more direct updates to the SPO's tend to be more expressive and better energetically. These suggest the standard NNBF approach is preferred amongst other related choices. Finally, we uncover that the row-selection used to select single-particle orbitals allows significant sign and amplitude modulation between nearby configurations and is partially responsible for the quality of NNBF and HFDS wave-functions.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-04
# カテゴリから分類器へ:Webを探索して名前のみの継続的な学習

From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web ( http://arxiv.org/abs/2311.11293v2 )

ライセンス: Link先を確認
Ameya Prabhu, Hasan Abed Al Kader Hammoud, Ser-Nam Lim, Bernard Ghanem, Philip H. S. Torr, Adel Bibi, (参考訳) 継続学習(CL)はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。 時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。 このシナリオでは、アノテートされたトレーニングデータの豪華さのないカテゴリ名のみを使用して、学習者は新しいカテゴリシフトに適応する。 提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。 我々は、我々のWebデータの信頼性を調査し、それらが手動で注釈付きデータセットよりも優れている場合もあります。 さらに、Webを活用することで、最先端の名前のみの分類を超えるサポートセットを作成し、LAION-5Bから生成モデルや画像検索を用いてサポートセットを作成することができ、精度が最大25%向上することを示す。 様々な連続学習コンテキストに適用した場合、手動で注釈付きデータセットで訓練されたモデルと比較して、本手法は連続的に小さな性能差を示す。 EvoTrendsは、Webから作られたクラスインクリメンタルなデータセットで、数分で作成された現実世界のトレンドをキャプチャします。 全体として,本論文は,連続学習における手動データラベリングに関わる課題を軽減するために,未処理のウェブ教師付きデータを使用することの可能性を強調した。

Continual Learning (CL) often relies on the availability of extensive annotated datasets, an assumption that is unrealistically time-consuming and costly in practice. We explore a novel paradigm termed name-only continual learning where time and cost constraints prohibit manual annotation. In this scenario, learners adapt to new category shifts using only category names without the luxury of annotated training data. Our proposed solution leverages the expansive and ever-evolving internet to query and download uncurated webly-supervised data for image classification. We investigate the reliability of our web data and find them comparable, and in some cases superior, to manually annotated datasets. Additionally, we show that by harnessing the web, we can create support sets that surpass state-of-the-art name-only classification that create support sets using generative models or image retrieval from LAION-5B, achieving up to 25% boost in accuracy. When applied across varied continual learning contexts, our method consistently exhibits a small performance gap in comparison to models trained on manually annotated datasets. We present EvoTrends, a class-incremental dataset made from the web to capture real-world trends, created in just minutes. Overall, this paper underscores the potential of using uncurated webly-supervised data to mitigate the challenges associated with manual data labeling in continual learning.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-04
# 雑音下におけるロバスト量子磁気量計のためのハーネス化グラフ状態資源

Harnessing graph state resources for robust quantum magnetometry under noise ( http://arxiv.org/abs/2311.18225v2 )

ライセンス: Link先を確認
Phu Trong Nguyen, Trung Kien Le, Hung Q. Nguyen, Le Bin Ho, (参考訳) 磁場の精密測定は、基礎物理学、宇宙探査、生物物理学など様々な応用に欠かせない。 量子工学の最近の進歩は、先進的な量子磁気センサの作成を補助してきたが、その効率と耐雑音性を改善するための課題が今も続いている。 本研究は, 時間均質および時間不均質雑音モデルに基づく推定理論を解析することにより, 測定精度を高めるために, 量子磁気メトリーにおける対称グラフ状態資源の利用に焦点をあてる。 その結果, 単発および複数発のラーモア周波数の推定において有意な改善が認められた。 単一ラーモア周波数推定では、量子フィッシャー情報はラーモア周波数の周期範囲内の標準量子極限からハイゼンベルク極限までのスペクトルにまたがっており、複数のラーモア周波数の場合、両方のノイズの場合に標準量子極限を超えることができる。 本研究は, ノイズ環境下での磁場測定を改善するためのグラフ状態に基づく手法の可能性を明らかにする。

Precise measurement of magnetic fields is essential for various applications, such as fundamental physics, space exploration, and biophysics. Although recent progress in quantum engineering has assisted in creating advanced quantum magnetometers, there are still ongoing challenges in improving their efficiency and noise resistance. This study focuses on using symmetric graph state resources for quantum magnetometry to enhance measurement precision by analyzing the estimation theory under time-homogeneous and time-inhomogeneous noise models. The results show a significant improvement in estimating both single and multiple Larmor frequencies. In single Larmor frequency estimation, the quantum Fisher information spans a spectrum from the standard quantum limit to the Heisenberg limit within a periodic range of the Larmor frequency, and in the case of multiple Larmor frequencies, it can exceed the standard quantum limit for both noisy cases. This study highlights the potential of graph state-based methods for improving magnetic field measurements under noisy environments.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# 射影ヒルベルト空間における量子進化の加速に関する上限

Upper limit on the acceleration of a quantum evolution in projective Hilbert space ( http://arxiv.org/abs/2311.18470v3 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro, (参考訳) ハイゼンベルクの位置-運動量不確実性関係が、量子力学の幾何学的再構成の文脈において、物理粒子に対する最大加速の存在につながることは注目すべきである。 量子粒子の最大加速度は、射影ヒルベルト空間における輸送速度の大きさと関連していることも知られている。 本稿では、曲率とねじれの概念による量子進化の幾何学的側面の研究から着想を得て、任意の有限次元射影ヒルベルト空間における輸送速度の変化率の上限を導出した。 純粋量子状態にある物理系の進化は、任意の時間変化を持つエルミート・ハミルトン作用素によって支配されると仮定される。 我々の導出は、L・D・ランダウ(L. D. Landau)が量子力学起源の一般的な可換関係によるゆらぎの理論において得られる不等式に類似しており、ハイゼンベルクの不確実性関係の一般化に依存している。 射影空間における量子進化の加速二乗は、ハミルトニアン作用素の時間変化率のばらつきによって上界であることが示される。 さらに、任意の時間変化の磁場に浸漬された単一スピン量子ビットの低次元の場合の図示的目的に着目し、最大加速度を生じる磁場の最適幾何構成と、射影ヒルベルト空間における消滅曲率と単位測地効率について考察する。 最後に、我々の上限が量子系の高速な操作によって消散効果を緩和したり、より短い時間で目標状態を得ることができるという限界を課す結果についてコメントする。

It is remarkable that Heisenberg's position-momentum uncertainty relation leads to the existence of a maximal acceleration for a physical particle in the context of a geometric reformulation of quantum mechanics. It is also known that the maximal acceleration of a quantum particle is related to the magnitude of the speed of transportation in projective Hilbert space. In this paper, inspired by the study of geometric aspects of quantum evolution by means of the notions of curvature and torsion, we derive an upper bound for the rate of change of the speed of transportation in an arbitrary finite-dimensional projective Hilbert space. The evolution of the physical system being in a pure quantum state is assumed to be governed by an arbitrary time-varying Hermitian Hamiltonian operator. Our derivation, in analogy to the inequalities obtained by L. D. Landau in the theory of fluctuations by means of general commutation relations of quantum-mechanical origin, relies upon a generalization of Heisenberg's uncertainty relation. We show that the acceleration squared of a quantum evolution in projective space is upper bounded by the variance of the temporal rate of change of the Hamiltonian operator. Moreover, focusing for illustrative purposes on the lower-dimensional case of a single spin qubit immersed in an arbitrarily time-varying magnetic field, we discuss the optimal geometric configuration of the magnetic field that yields maximal acceleration along with vanishing curvature and unit geodesic efficiency in projective Hilbert space. Finally, we comment on the consequences that our upper bound imposes on the limit at which one can perform fast manipulations of quantum systems to mitigate dissipative effects and/or obtain a target state in a shorter time.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# ラボからフィールドへ:コミュニティの安全を高めるAI駆動型スマートビデオソリューションの現実的評価

From Lab to Field: Real-World Evaluation of an AI-Driven Smart Video Solution to Enhance Community Safety ( http://arxiv.org/abs/2312.02078v2 )

ライセンス: Link先を確認
Shanle Yao, Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Lauren Bourque, Hamed Tabkhi, (参考訳) 本稿では、現実世界の安全性を高めるために設計されたAI対応スマートビデオソリューション(SVS)を採用し、評価する。 このシステムは既存のインフラストラクチャカメラネットワークと統合され、AIの最近の進歩を活用して簡単に採用できる。 プライバシと倫理基準を優先して、ポーズベースのデータは、異常検出などの下流AIタスクに使用される。 クラウドベースのインフラストラクチャとモバイルアプリがデプロイされ、コミュニティ内でリアルタイムのアラートが可能になる。 SVSは、歩行者の行動を理解し、公共の安全を高めるために、Occupancy Indicator、Anomaly Detection、Bird's Eye View、Heatmapsといった革新的なデータ表現と可視化技術を採用している。 SVSの評価は、複雑なコンピュータビジョンの出力をステークホルダー、コミュニティパートナー、法執行機関、都市プランナー、社会科学者の行動可能な洞察に変換する能力を示している。 本稿では,16台のカメラを用いたコミュニティ・カレッジ環境におけるSVSの総合的な実世界展開と評価について述べる。 このシステムは、統計分析、データベース管理、クラウド通信、ユーザ通知などをサポートする、AI駆動の視覚処理を統合している。 さらに、記事は、AIアルゴリズムがカメラレベルでの異常な振る舞いをリアルタイムで検出した瞬間から、ステークホルダーが通知を受け取るまでのエンドツーエンドのレイテンシを評価する。 その結果、システムの堅牢性を示し、21時間にわたって16.5フレーム/秒(FPS)のスループットと、異常検出と警告発行の間に平均26.76秒のレイテンシを持つ16台のCCTVカメラを効果的に管理した。

This article adopts and evaluates an AI-enabled Smart Video Solution (SVS) designed to enhance safety in the real world. The system integrates with existing infrastructure camera networks, leveraging recent advancements in AI for easy adoption. Prioritizing privacy and ethical standards, pose based data is used for downstream AI tasks such as anomaly detection. Cloud-based infrastructure and mobile app are deployed, enabling real-time alerts within communities. The SVS employs innovative data representation and visualization techniques, such as the Occupancy Indicator, Statistical Anomaly Detection, Bird's Eye View, and Heatmaps, to understand pedestrian behaviors and enhance public safety. Evaluation of the SVS demonstrates its capacity to convert complex computer vision outputs into actionable insights for stakeholders, community partners, law enforcement, urban planners, and social scientists. This article presents a comprehensive real-world deployment and evaluation of the SVS, implemented in a community college environment across 16 cameras. The system integrates AI-driven visual processing, supported by statistical analysis, database management, cloud communication, and user notifications. Additionally, the article evaluates the end-to-end latency from the moment an AI algorithm detects anomalous behavior in real-time at the camera level to the time stakeholders receive a notification. The results demonstrate the system's robustness, effectively managing 16 CCTV cameras with a consistent throughput of 16.5 frames per second (FPS) over a 21-hour period and an average end-to-end latency of 26.76 seconds between anomaly detection and alert issuance.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# Pseudo Replay-based Class Continual Learning for Online New Category Anomaly Detection in Additive Manufacturing

Pseudo Replay-based Class Continual Learning for Online New Category Anomaly Detection in Additive Manufacturing ( http://arxiv.org/abs/2312.02491v2 )

ライセンス: Link先を確認
Yuxuan Li, Tianxin Xie, Chenang Liu, Zhangyue Shi, (参考訳) 先進的なセンサと機械学習技術の導入により、現代の製造業者は、製造プロセスで収集されたセンサデータに基づいて、データ駆動型分類に基づく異常検出を行えるようになった。 しかし、1つの重要な課題は、製造プロセスが継続するにつれて新たに提示された欠陥カテゴリが出現し、その結果、以前に訓練された機械学習モデルのパフォーマンス劣化を監視することである。 したがって、継続的に学習するための機械学習モデルを強化する必要性が高まっている。 すべての連続学習方法の中で、メモリベースの連続学習は最高の性能を持つが、データストレージ容量の制約に直面している。 そこで本研究では,クラスインクリメンタル学習とオーバーサンプリングベースデータ生成を統合することで,新たな擬似リプレイ型連続学習フレームワークを開発する。 開発したフレームワークは,すべてのデータを格納することなく,従来のクラスを表す高品質なデータを生成して,新たなカテゴリ異常が発生した場合に,機械学習モデルを漸進的にトレーニングする。 さらに、データ品質も効果的に向上するため、監視性能も向上する可能性がある。 提案手法の有効性は,異常検出のための教師付き分類問題を活用する3つのケーススタディで検証された。 実験結果から,提案手法は従来の課題において良好な性能を維持しつつ,新規な異常を検出する上で非常に有望であり,モデルアーキテクチャの柔軟性が向上することが示された。

The incorporation of advanced sensors and machine learning techniques has enabled modern manufacturing enterprises to perform data-driven classification-based anomaly detection based on the sensor data collected in manufacturing processes. However, one critical challenge is that newly presented defect category may manifest as the manufacturing process continues, resulting in monitoring performance deterioration of previously trained machine learning models. Hence, there is an increasing need for empowering machine learning models to learn continually. Among all continual learning methods, memory-based continual learning has the best performance but faces the constraints of data storage capacity. To address this issue, this paper develops a novel pseudo replay-based continual learning framework by integrating class incremental learning and oversampling-based data generation. Without storing all the data, the developed framework could generate high-quality data representing previous classes to train machine learning model incrementally when new category anomaly occurs. In addition, it could even enhance the monitoring performance since it also effectively improves the data quality. The effectiveness of the proposed framework is validated in three cases studies, which leverages supervised classification problem for anomaly detection. The experimental results show that the developed method is very promising in detecting novel anomaly while maintaining a good performance on the previous task and brings up more flexibility in model architecture.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# SparQ注意:バンド幅効率のLLM推論

SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v6 )

ライセンス: Link先を確認
Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr, (参考訳) 大規模言語モデル(LLM)推論の計算困難さは、広く展開する上で大きな障害となっている。 多くのアプリケーションが長い入力シーケンスをサポートし、それらを大きなバッチで処理する必要があるため、一般的にトークン生成はデータ転送によってボトルネックになる。 このため,キャッシュされた履歴を選択的にフェッチすることで,メモリ帯域幅をより効率的に利用することで,LLMの推論スループットを向上させる手法であるSparQ Attentionを導入する。 提案手法は,プレトレーニング設定の変更や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。 我々は,Llama 2, 3, Mistral, Gemma, Pythia の各モデルについて,広範囲な下流タスクで評価することにより,SparQ の注意データ転送の8倍のコスト削減を実現することを示す。

The computational difficulties of large language model (LLM) inference remain a significant obstacle to their widespread deployment. The need for many applications to support long input sequences and process them in large batches typically causes token-generation to be bottlenecked by data transfer. For this reason, we introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by utilising memory bandwidth more efficiently within the attention layers, through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show that SparQ Attention brings up to 8x savings in attention data transfers without substantial drops in accuracy, by evaluating Llama 2 and 3, Mistral, Gemma and Pythia models on a wide range of downstream tasks.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# コンパクト系における超蛍光の確率モデリング

Stochastic modeling of superfluorescence in compact systems ( http://arxiv.org/abs/2312.06537v2 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, Andrei Benediktovitch, Nina Rohringer, (参考訳) 本稿では,多レベルエミッタのコンパクトアンサンブルにおける超蛍光を記述するための確率微分方程式に基づくアプローチを提案する。 このアプローチには、エミッタの数に依存しない数値的な複雑さがある。 確率微分方程式は、量子マスター方程式から直接導かれる。 本研究では,本手法を正確な計算値と比較し,適用可能性の限界について議論する,一連の数値例を示す。 多くの関連する場合において、提案した確率微分方程式は正確な結果を与え、量子多体相関効果を正しく捉える。

We propose an approach based on stochastic differential equations to describe superfluorescence in compact ensembles of multi-level emitters in the presence of various incoherent processes. This approach has a numerical complexity that does not depend on the number of emitters. The stochastic differential equations are derived directly from the quantum master equation. In this study, we present a series of numerical examples, comparing our solution to exact calculations and discussing the limits of applicability. For many relevant cases, the proposed stochastic differential equations provide accurate results and correctly capture quantum many-body correlation effects.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-04
# Filter & Align: 画像テキストデータのキュレーションに人間の知識を活用する

Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data ( http://arxiv.org/abs/2312.06726v4 )

ライセンス: Link先を確認
Lei Zhang, Fangxun Shu, Tianyang Liu, Sucheng Ren, Hao Jiang, Cihang Xie, (参考訳) 画像テキストペアの利用可能化が進み、視覚言語基盤モデルの急速な進歩に大きく寄与した。 しかし、これらのデータセットの大規模化は、必然的にデータ品質の大幅な変動をもたらし、モデルの性能に悪影響を及ぼす可能性がある。 これは、トレーニング効率を高めるだけでなく、全体的なデータ品質を改善するために、データフィルタリングの重要な役割を強調します。 既存のメソッドは通常、事前訓練されたモデルから派生したCLIP ScoreやBLIP Scoreといったメトリクスに依存している。 しかしながら、これらのモデルは、フィルタされたデータセットのエラーやミスアライメントを永続することができる、未修正のノイズの多いデータセットでトレーニングされることが多い。 本稿では,画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。 画像テキストアライメントにおける人間の嗜好を体系的に把握するために,各画像が様々なソースからの複数のキャプションに関連付けられている多様な画像テキストデータセットを収集し,ラベルからアライメントアライメントアライメントを批判的に導くための主観的基準と客観的基準の包括的セットを確立する。 さらに、画像テキストのアライメントに関する微妙な人間の理解を内部化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。 結果として得られる報酬モデルは、画像とテキストのペアをフィルタリングする人間のようなレフェリーとして機能する。 大規模な実験では、画像テキストデータセットを最大90%圧縮しながら、パフォーマンスを維持、時には改善できることを示した。 印象的な例は、総トレーニングサンプルを130Mから15.5Mに積極的に削減することで、私たちのBLIP-B/16モデルは、フルサイズのデータセットと比較して、検索タスクが2.9%、キャプションタスクが11.5%の平均的な改善を常に示していることである。

The increasing availability of image-text pairs has largely fueled the rapid advancement in vision-language foundation models. However, the vast scale of these datasets inevitably introduces significant variability in data quality, which can adversely affect the model performance. This highlights the critical role of data filtering, not only to enhance training efficiency but also to improve overall data quality. Existing methods typically rely on metrics such as CLIP Score and BLIP Score, which are derived from pre-trained models. However, these models are often trained on uncurated, noisy datasets, which can perpetuate errors and misalignments in the filtered dataset. We present a novel algorithm that incorporates human knowledge on image-text alignment to guide filtering vast corpus of web-crawled image-text datasets into a compact and high-quality form. To systemically capture human preferences on image-text alignments, we collect a diverse image-text dataset where each image is associated with multiple captions from various sources, and establish a comprehensive set of both subjective and objective criteria for critically guiding the alignment assessment from labelers. Additionally, we train a reward model on these human-preference annotations to internalize the nuanced human understanding of image-text alignment. The resulting reward model thus can act as a human-like referee to filter image-text pairs. Extensive experiments demonstrate that we can maintain, sometimes even improve, model performance while compressing the image-text datasets up to ~90%. An impressive example is that, by aggressively reducing the total training sample from 130M to only 15.5M, our BLIP-B/16 models consistently show an average improvement of 2.9% on retrieval tasks and 11.5% on captioning tasks compared to full-size-dataset counterparts.
翻訳日:2024-09-07 04:21:21 公開日:2024-09-04
# GenoCraft: 高スループットオミクスデータ分析と可視化のための総合的でユーザフレンドリーなWebベースプラットフォーム

GenoCraft: A Comprehensive, User-Friendly Web-Based Platform for High-Throughput Omics Data Analysis and Visualization ( http://arxiv.org/abs/2312.14249v2 )

ライセンス: Link先を確認
Yingzhou Lu, Minjie Shen, Ling Yue, Chenhao Li, Fan Meng, Xiao Wang, David Herrington, Yue Wang, Yue Zhao, Tianfan Fu, Capucine Van Rechem, (参考訳) 高スループットのオミクスデータの急増は、生物学的研究の風景を変え、強力でユーザフレンドリなデータ分析と解釈ツールの必要性を浮き彫りにした。 本稿では、オミクスデータ処理のパイプライン全体を扱うように設計されたWebベースの包括的ソフトウェアソリューションであるGenoCraftについて述べる。 GenoCraftは高度なバイオインフォマティクスツールを備えた統一プラットフォームを提供し、オミクスデータ分析のあらゆる側面をカバーする。 正規化、品質制御、差分解析、ネットワーク分析、経路解析、多様な可視化技術など、様々な機能を含んでいる。 このソフトウェアは、最先端のオミクスデータ分析を、より広い範囲のユーザにとってよりアクセスしやすいものにします。 GenoCraftでは、研究者やデータサイエンティストが、ユーザフレンドリーなインターフェースの下で、最先端のバイオインフォマティクスツールにアクセスでき、大規模なオミクスデータを管理し分析するための貴重なリソースとなる。 インタラクティブなWebインターフェースを備えたAPIはhttps://genocraft.stanford.comで公開されている。 edu/。 また、すべてのコードをhttps://github.com/futianfan/GenoCraft.comでリリースしています。

The surge in high-throughput omics data has reshaped the landscape of biological research, underlining the need for powerful, user-friendly data analysis and interpretation tools. This paper presents GenoCraft, a web-based comprehensive software solution designed to handle the entire pipeline of omics data processing. GenoCraft offers a unified platform featuring advanced bioinformatics tools, covering all aspects of omics data analysis. It encompasses a range of functionalities, such as normalization, quality control, differential analysis, network analysis, pathway analysis, and diverse visualization techniques. This software makes state-of-the-art omics data analysis more accessible to a wider range of users. With GenoCraft, researchers and data scientists have access to an array of cutting-edge bioinformatics tools under a user-friendly interface, making it a valuable resource for managing and analyzing large-scale omics data. The API with an interactive web interface is publicly available at https://genocraft.stanford. edu/. We also release all the codes in https://github.com/futianfan/GenoCraft.
翻訳日:2024-09-07 04:21:21 公開日:2024-09-04
# $μ$GUIDE:ディープラーニングを用いた一般化不確実性駆動推論による定量的イメージングのためのフレームワーク

$μ$GUIDE: a framework for quantitative imaging via generalized uncertainty-driven inference using deep learning ( http://arxiv.org/abs/2312.17293v4 )

ライセンス: Link先を確認
Maëliss Jallais, Marco Palombo, (参考訳) 生体物理モデルやMRI信号の表現から組織組織パラメータの後方分布を推定する一般的なベイズフレームワークである$\mu$GUIDEを提案する。 シミュレーションに基づく推論と後方分布の効率的なサンプリングを併用した自動信号特徴選択のための新しいディープラーニングアーキテクチャにより、$\mu$GUIDEは従来のベイズ的手法の計算コストと時間コストを回避し、モデル固有の要約統計を定義するために取得制約に依存しない。 得られた後続分布は、モデル定義に存在する退化をハイライトし、推定されたパラメータの不確かさとあいまいさを定量化する。

This work proposes $\mu$GUIDE: a general Bayesian framework to estimate posterior distributions of tissue microstructure parameters from any given biophysical model or MRI signal representation, with exemplar demonstration in diffusion-weighted MRI. Harnessing a new deep learning architecture for automatic signal feature selection combined with simulation-based inference and efficient sampling of the posterior distributions, $\mu$GUIDE bypasses the high computational and time cost of conventional Bayesian approaches and does not rely on acquisition constraints to define model-specific summary statistics. The obtained posterior distributions allow to highlight degeneracies present in the model definition and quantify the uncertainty and ambiguity of the estimated parameters.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-04
# グラフニューラルネットワークによる金属ガラスのエネルギーバリアの予測と解釈

Predicting and Interpreting Energy Barriers of Metallic Glasses with Graph Neural Networks ( http://arxiv.org/abs/2401.08627v3 )

ライセンス: Link先を確認
Haoyu Li, Shichang Zhang, Longwen Tang, Mathieu Bauchy, Yizhou Sun, (参考訳) 金属ガラス(英: Metallic Glasss, MGs)は、プラスチックとして成形されながら鋼より強度が高い広く用いられる材料である。 物質科学において、MGの構造と優位性の関係を理解することは依然として困難であるが、そのエネルギー障壁(EB)を中間的なステップとして研究することは、有望であることを示している。 本研究では,グラフニューラルネットワーク(GNN)を用いてMGをモデル化し,EBを研究する。 本稿では,EB予測のための新しいデータセットと,予測においてE(3)不変である新しいSymmetrized GNN(SymGNN)モデルを提案する。 SymGNNは、グラフ構造の直交変換を集約することで不変性を処理する。 EB予測に適用した場合、SymGNNは分子動力学(MD)の局所サンプリング法や他の機械学習モデルよりも正確である。 正確なMDシミュレーションと比較すると、SymGNNは新しいMGの推測時間を約41日から1秒未満に短縮する。 構造とEBの関係を明らかにするために,説明アルゴリズムを適用した。 私たちが説明を通じて特定する構造は、中距離次数(MRO)仮説と一致し、独自の位相特性を持つ。 本研究は,物質科学研究を活性化するMG EBの効果的な予測と解釈を可能にする。

Metallic Glasses (MGs) are widely used materials that are stronger than steel while being shapeable as plastic. While understanding the structure-property relationship of MGs remains a challenge in materials science, studying their energy barriers (EBs) as an intermediary step shows promise. In this work, we utilize Graph Neural Networks (GNNs) to model MGs and study EBs. We contribute a new dataset for EB prediction and a novel Symmetrized GNN (SymGNN) model that is E(3)-invariant in expectation. SymGNN handles invariance by aggregating over orthogonal transformations of the graph structure. When applied to EB prediction, SymGNN are more accurate than molecular dynamics (MD) local-sampling methods and other machine-learning models. Compared to precise MD simulations, SymGNN reduces the inference time on new MGs from roughly 41 days to less than one second. We apply explanation algorithms to reveal the relationship between structures and EBs. The structures that we identify through explanations match the medium-range order (MRO) hypothesis and possess unique topological properties. Our work enables effective prediction and interpretation of MG EBs, bolstering material science research.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-04
# キーセマンティック知識を用いた視覚言語基盤モデルの強化 : レポート改善に着目して

Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement ( http://arxiv.org/abs/2401.11421v2 )

ライセンス: Link先を確認
Weijian Huang, Cheng Li, Hao Yang, Jiarun Liu, Yong Liang, Hairong Zheng, Shanshan Wang, (参考訳) 近年、視覚言語表現学習は医療基盤モデルの構築において顕著な進歩を遂げており、臨床研究や医療の景観を変革する大きな可能性を秘めている。 根拠となる仮説は、放射線学レポートに埋め込まれた豊富な知識は、学習プロセスを効果的に支援し、ガイドし、追加のラベルの必要性を減らすことができるというものである。 しかし、これらのレポートは複雑で、時には、表現学習が重要セマンティック情報を取得するのが難しすぎるような冗長な記述で構成されている。 本稿では,キーセマンティックな知識強調レポート改善手法を提案することによって,新たな視覚言語表現学習フレームワークを開発する。 特に、構築された臨床辞書と2つのモデル最適化知識強調指標に基づいて、重要な情報をハイライトするために、生の放射線学レポートを精査する。 反復的枠組みは、患者の症状を生の報告に基づいて総合的に理解することから始まり、よりきめ細かな分析タスクに不可欠な重要な情報を徐々に洗練し、抽出することから、徐々に学習するように設計されている。 本手法の有効性は, 疾患分類, 関心領域分割, 句接地など, 下流医療画像解析の課題に対して検証された。 我々のフレームワークは、微調整とゼロショットの両方において、7つの最先端の手法を超越し、異なる臨床応用の可能性を示している。

Recently, vision-language representation learning has made remarkable advancements in building up medical foundation models, holding immense potential for transforming the landscape of clinical research and medical care. The underlying hypothesis is that the rich knowledge embedded in radiology reports can effectively assist and guide the learning process, reducing the need for additional labels. However, these reports tend to be complex and sometimes even consist of redundant descriptions that make the representation learning too challenging to capture the key semantic information. This paper develops a novel iterative vision-language representation learning framework by proposing a key semantic knowledge-emphasized report refinement method. Particularly, raw radiology reports are refined to highlight the key information according to a constructed clinical dictionary and two model-optimized knowledge-enhancement metrics. The iterative framework is designed to progressively learn, starting from gaining a general understanding of the patient's condition based on raw reports and gradually refines and extracts critical information essential to the fine-grained analysis tasks. The effectiveness of the proposed framework is validated on various downstream medical image analysis tasks, including disease classification, region-of-interest segmentation, and phrase grounding. Our framework surpasses seven state-of-the-art methods in both fine-tuning and zero-shot settings, demonstrating its encouraging potential for different clinical applications.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-04
# 事象ホライズン近傍の量子特性

Quantum Characteristics Near Event Horizons ( http://arxiv.org/abs/2401.12028v2 )

ライセンス: Link先を確認
Asad Ali, Saif Al-Kuwari, Mehedad Ghominejad, M. T. Rahim, Dong Wang, Saeed Haddadi, (参考訳) シュワルツシルトブラックホール周辺の量子特性について検討し、様々な量子資源の探索と時空での相互作用について考察する。 分析の結果、量子コヒーレンス、大域的および真の多部的絡み合い、一階的コヒーレンス、および異なるシナリオにおける相互情報の興味深い挙動が明らかになった。 最初、Alice、Bob、Charlieの3つの粒子を事象の地平線から遠く離れたミンコフスキー空間で共有し、これらの粒子はGHZ型相関によって相関する。 アリスの粒子がミンコフスキー空間に残っている間、ボブとチャーリーは事象の地平線に向かって加速し、ブラックホールの蒸発を経験し、ホーキング効果によって相関する反粒子を生成する。 我々はKruskal基底定式化を用いて、事象の地平線内および外部の粒子間で共有されるペンタ粒子純状態(英語版)を導出する。 事象の地平線内と外の両方の粒子の異なるシナリオを考察し、ホーキング温度とモード周波数の異なる粒子について、量子資源がどのように進化し分散するかを観察する。 一階のコヒーレンスとコンカレンスの間のトレードオフ関係は継続し、コヒーレンスと絡み合いの間の複雑な相互作用を示す。 特に、ブラックホール内部の外部観測者と粒子間の相互情報はゼロではなく、湾曲した時空における量子効果の理解を深め、ブラックホールの量子的性質に光を遮蔽する。 これらの発見は、極端な環境下での重力の基本的な量子力学的側面に関する将来の研究の道を開くと信じている。

We investigate quantum characteristics around Schwarzschild black hole, exploring various quantum resources and their interplay in curved space-time. Our analysis reveals intriguing behaviors of quantum coherence, global and genuine multipartite entanglement, first-order coherence, and mutual information in different scenarios. Initially, we consider three particles shared among Alice, Bob, and Charlie in a Minkowski space far from the event horizon, where these particles are correlated via GHZ-type correlation. While Alice's particle remains in Minkowski space, Bob and Charlie accelerate towards the event horizon, experiencing black hole evaporation and generating antiparticles correlated via the Hawking effect. We employ the Kruskal basis formulation to derive a penta-partite pure state shared among particles inside and outside the event horizon. Investigating different scenarios among particles both inside and outside the event horizon, we observe how quantum resources evolve and distribute among consideration of different particles with Hawking temperature and mode frequency. The trade-off relationship between first-order coherence and concurrence fill persists, indicating the intricate interplay between coherence and entanglement. Notably, the mutual information between external observers and particles inside the black hole becomes non-zero, deepening our understanding of quantum effects in curved space-time and shedding light on the quantum nature of the black hole. We believe that these findings will pave the way for future investigations into the fundamental quantum mechanical aspects of gravity under extreme environments.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-04
# 深層学習とオープンアース観測データを用いたスケーラブル氷河マッピング

Scalable Glacier Mapping using Deep Learning and Open Earth Observation Data Matches the Accuracy of Manual Delineation ( http://arxiv.org/abs/2401.15113v3 )

ライセンス: Link先を確認
Konstantin A. Maslov, Claudio Persello, Thomas Schellenberger, Alfred Stein, (参考訳) 正確な地球規模の氷河マッピングは、気候変動の影響を理解するために重要である。 その重要性にもかかわらず、世界規模での自動氷河マッピングはほとんど未調査のままである。 本稿では、このギャップに対処し、畳み込み変換型ディープラーニングモデルであるGlaViTU(GlaViTU)を提案する。 空間的, 時間的, クロスセンサーの一般化を評価することで, 従来観測されていなかった画像に対して, 我々の最善策は >0.85 の団結を達成し, 高山アジアなどの破片の多い地域では >0.75 まで低下し, クリーンアイスが支配する地域では >0.90 まで上昇することを示す。 面積と距離の偏差の点での人間の専門家の不確実性に対する比較検証は、GlaViTUのパフォーマンス、アプローチ、あるいは専門家レベルのデラインの整合性を強調している。 合成開口レーダデータ、すなわち後方散乱と干渉コヒーレンスを追加することで、利用可能なすべての領域の精度が向上する。 氷河の度合いの調整された信頼性が報告され、予測はより信頼性が高く解釈可能である。 また、世界中の氷河の9%をカバーするベンチマークデータセットもリリースしました。 本研究は, 自動多時期・グローバル氷河マッピングへの取り組みを支援する。

Accurate global glacier mapping is critical for understanding climate change impacts. Despite its importance, automated glacier mapping at a global scale remains largely unexplored. Here we address this gap and propose Glacier-VisionTransformer-U-Net (GlaViTU), a convolutional-transformer deep learning model, and five strategies for multitemporal global-scale glacier mapping using open satellite imagery. Assessing the spatial, temporal and cross-sensor generalisation shows that our best strategy achieves intersection over union >0.85 on previously unobserved images in most cases, which drops to >0.75 for debris-rich areas such as High-Mountain Asia and increases to >0.90 for regions dominated by clean ice. A comparative validation against human expert uncertainties in terms of area and distance deviations underscores GlaViTU performance, approaching or matching expert-level delineation. Adding synthetic aperture radar data, namely, backscatter and interferometric coherence, increases the accuracy in all regions where available. The calibrated confidence for glacier extents is reported making the predictions more reliable and interpretable. We also release a benchmark dataset that covers 9% of glaciers worldwide. Our results support efforts towards automated multitemporal and global glacier mapping.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-04
# スワンソン発振器のフェルミオン拡大における例外点と量子相転移

Exceptional points and quantum phase transition in a fermionic extension of the Swanson oscillator ( http://arxiv.org/abs/2401.17189v3 )

ライセンス: Link先を確認
Akash Sinha, Aritra Ghosh, Bijan Bagchi, (参考訳) 二次ハミルトニアンの一般表現からなる非エルミート量子系のよく知られた例であるスワンソン発振器の構造に触発され、2つのフェルミオン発振器と、粒子数を保存しない双線型カップリング項を含むようなスキームのフェルミオン拡張を提案する。 固有値と固有ベクトルを判定し、2つの固有状態が対応する固有ベクトルと結合する例外点の出現を両直交内積に対して自己直交性を示す。 このモデルには量子相転移が認められており、2つの相を議論するとともに、基底状態の絡み合いエントロピーが2つの相間の遷移を示す不連続なジャンプを示すことを示す。

Motivated by the structure of the Swanson oscillator which is a well-known example of a non-Hermitian quantum system consisting of a general representation of a quadratic Hamiltonian, we propose a fermionic extension of such a scheme which incorporates two fermionic oscillators together with bilinear-coupling terms that do not conserve particle number. We determine the eigenvalues and eigenvectors, and expose the appearance of exceptional points where two of the eigenstates coalesce with the corresponding eigenvectors exhibiting self-orthogonality with respect to the bi-orthogonal inner product. The model admits a quantum phase transition - we discuss the two phases and also demonstrate that the ground-state entanglement entropy exhibits a discontinuous jump indicating the transition between the two phases.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 高速クマー曲面上の効率的な$(3,3)$-異性

Efficient $(3,3)$-isogenies on fast Kummer surfaces ( http://arxiv.org/abs/2402.01223v2 )

ライセンス: Link先を確認
Maria Corte-Real Santos, Craig Costello, Benjamin Smith, (参考訳) 高速なクンマー曲面の間の$(N,N)$-異種性の別の導出を与える。 このフレームワークを用いて、$N = 3$の場合の明示的な公式を生成し、得られたアルゴリズムが以前のすべての$(3, 3)$-isogenyアルゴリズムよりも効率的であることを示す。

We give an alternative derivation of $(N,N)$-isogenies between fast Kummer surfaces which complements existing works based on the theory oftheta functions. We use this framework to produce explicit formulae for the case of $N = 3$, and show that the resulting algorithms are more efficient than all prior $(3, 3)$-isogeny algorithms.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 言語誘導世界モデル:AI制御に対するモデルベースアプローチ

Language-Guided World Models: A Model-Based Approach to AI Control ( http://arxiv.org/abs/2402.01695v3 )

ライセンス: Link先を確認
Alex Zhang, Khanh Nguyen, Jens Tuyls, Albert Lin, Karthik Narasimhan, (参考訳) 本稿では,LWM(Language-Guided World Models)の概念を紹介する。 これらのモデルを備えたエージェントは、人間により広範囲で効率的な制御を提供し、自然な言語コミュニケーションを通じて複数のタスクにおけるエージェントの振る舞いを同時に変更することができる。 本研究では,言語記述を包括的に新規に記述できるロバストなLWMの開発において,最初の一歩を踏み出す。 我々は,MESSENGER (Hanjie et al , 2021) のゲームに基づいて,様々な構成一般化を必要とする評価設定を特徴とする,挑戦的な世界モデリングベンチマークを設計する。 本実験は,非テキストベースラインに対するシミュレーション品質の限界改善を提供するため,最先端トランスフォーマーモデルの一般化性の欠如を明らかにした。 我々は、トランスフォーマーをEMMAアテンション機構で融合させることにより、より堅牢なモデルを考案した(Hanjie et al , 2021)。 我々のモデルはトランスフォーマーを大幅に上回り、オラクルのセマンティックパースとグラウンド機能を備えたモデルの性能にアプローチする。 このモデルがAIの安全性と透明性を改善するための実用性を実証するために、エージェントが実行前に計画を提示し、言語フィードバックに基づいて計画を修正するシナリオをシミュレートする。

This paper introduces the concept of Language-Guided World Models (LWMs) -- probabilistic models that can simulate environments by reading texts. Agents equipped with these models provide humans with more extensive and efficient control, allowing them to simultaneously alter agent behaviors in multiple tasks via natural verbal communication. In this work, we take initial steps in developing robust LWMs that can generalize to compositionally novel language descriptions. We design a challenging world modeling benchmark based on the game of MESSENGER (Hanjie et al., 2021), featuring evaluation settings that require varying degrees of compositional generalization. Our experiments reveal the lack of generalizability of the state-of-the-art Transformer model, as it offers marginal improvements in simulation quality over a no-text baseline. We devise a more robust model by fusing the Transformer with the EMMA attention mechanism (Hanjie et al., 2021). Our model substantially outperforms the Transformer and approaches the performance of a model with an oracle semantic parsing and grounding capability. To demonstrate the practicality of this model in improving AI safety and transparency, we simulate a scenario in which the model enables an agent to present plans to a human before execution, and to revise plans based on their language feedback.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 乱れANOVA分解に基づく高速かつ解釈可能な支援ベクトル分類

Fast and interpretable Support Vector Classification based on the truncated ANOVA decomposition ( http://arxiv.org/abs/2402.02438v2 )

ライセンス: Link先を確認
Kseniya Akhalaya, Franziska Nestler, Daniel Potts, (参考訳) サポートベクトルマシン(SVM)は、高次元空間において多くのデータポイントを扱う必要がある分散データの分類を行うための重要なツールである。 三角関数やウェーブレットに基づく特徴写像を用いて,SVMを原始形式で解くことを提案する。 小次元設定では、Fast Fourier Transform (FFT) と関連する手法は、考慮された基底関数を扱うための強力なツールである。 成長する次元に対して、古典的なFFTベースの手法は次元性の呪いのために非効率になる。 したがって、我々は自分自身を多変量基底関数に制限し、それぞれが少数の次元にのみ依存する。 これは、よく知られた効果の空間性と、分散データからの分散分解(ANOVA)の切り離し解析による関数の再構成に関する最近の結果によって動機付けられ、結果として得られるモデルは特徴の重要性や結合性の観点からも解釈可能である。 小さな重ね合わせ次元の使用は、計算努力がもはや指数関数的にではなく、次元に関して多項式的にのみ増大する結果をもたらす。 基底係数に関する疎度を強制するために、頻繁に適用される $\ell_2$-norm と、さらに $\ell_1$-norm 正規化を用いる。 発見された分類関数は基底関数の線型結合であり、その分散は関数の古典的 ANOVA 分解の観点から解析することができる。 数値的な例から、モデル仮定に完全に適合する関数の符号を復元できることが示される。 さらに,異なる人工および実世界のデータセットの分類を行う。 精度と解釈可能性の明確さの両面から,$\ell_1$-norm正規化によるより良い結果が得られる。

Support Vector Machines (SVMs) are an important tool for performing classification on scattered data, where one usually has to deal with many data points in high-dimensional spaces. We propose solving SVMs in primal form using feature maps based on trigonometric functions or wavelets. In small dimensional settings the Fast Fourier Transform (FFT) and related methods are a powerful tool in order to deal with the considered basis functions. For growing dimensions the classical FFT-based methods become inefficient due to the curse of dimensionality. Therefore, we restrict ourselves to multivariate basis functions, each of which only depends on a small number of dimensions. This is motivated by the well-known sparsity of effects and recent results regarding the reconstruction of functions from scattered data in terms of truncated analysis of variance (ANOVA) decompositions, which makes the resulting model even interpretable in terms of importance of the features as well as their couplings. The usage of small superposition dimensions has the consequence that the computational effort no longer grows exponentially but only polynomially with respect to the dimension. In order to enforce sparsity regarding the basis coefficients, we use the frequently applied $\ell_2$-norm and, in addition, $\ell_1$-norm regularization. The found classifying function, which is the linear combination of basis functions, and its variance can then be analyzed in terms of the classical ANOVA decomposition of functions. Based on numerical examples we show that we are able to recover the signum of a function that perfectly fits our model assumptions. Furthermore, we perform classification on different artificial and real-world data sets. We obtain better results with $\ell_1$-norm regularization, both in terms of accuracy and clarity of interpretability.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 最大絡み合い混合状態を含む絡み合い浄化の性能

Performance of entanglement purification including maximally entangled mixed states ( http://arxiv.org/abs/2402.04226v2 )

ライセンス: Link先を確認
Juan Mauricio Torres, József Zsolt Bernád, Rocío Gómez-Rosas, (参考訳) 遠方の量子システム間の絡み合いは、量子通信を実装するための重要な資源である。 この性質は外部剤の影響を受け、効率的な絡み合い浄化プロトコルを用いて修復することができる。 本研究では,通常の制御NOT(CNOT)ゲートを置き換える2つの絡み合った2ビット演算に基づく絡み合った浄化プロトコルを提案する。 これらの演算は一般化された量子測度から生じ、正の演算子評価測度(POVM)における測度演算子として理解することができる。 さらに、コアプロトコルの2つのバリエーションが導入され、特定のシナリオでより実用的なことが示されている。 このプロトコルの性能は、ベル状態に到達するための総合的な成功確率と、純度の高い状態の数の観点から研究される。 ランク2の状態に基づいて,最大絡み合う状態(MEMS)の場合に,数値計算を用いて拡張・洗練する成功確率の解析式を得ることができる。 また,ベル対角線状態に基づく浄化プロトコルと比較して,手順が概ね便利であることを示すため,より一般的なランク3状態についても検討する。 最後に、初期ランダム状態を用いてプロトコルをテストする。 いずれの場合も、CNOTベースの浄化プロトコルと比較して、我々のスキームを用いて、よりパフォーマンスが高く、より多く精製可能な状態が見つかる。

Entanglement between distant quantum systems is a critical resource for implementing quantum communication. This property is affected by external agents and can be restored by employing efficient entanglement purification protocols. In this work, we propose an entanglement purification protocol based on two entangling two-qubit operations that replace the usual controlled-NOT (CNOT) gate. These operations arise from a generalized quantum measurement and can be understood as measurement operators in a positive operator-valued measure (POVM). Furthermore, two variants of the core protocol are introduced and shown to be more practical in certain scenarios. The performance of the protocols is studied in terms of the overall success probability of reaching a Bell state and the number of purifiable states. Based on rank-two states, we can obtain analytical expressions for the success probability that we extend and refine using numerical calculations to the case of maximally entangled states (MEMS). We also consider more general rank-three states to show that our procedure is in general more convenient compared to purification protocols based on Bell diagonal states. Finally, we test the protocols using initial random states. In all cases, we find a larger performance and larger amount of purifiable states using our schemes compared to the CNOT-based purification protocol.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 数独問題に応用したQrispの量子バックトラッキング

Quantum Backtracking in Qrisp Applied to Sudoku Problems ( http://arxiv.org/abs/2402.10060v3 )

ライセンス: Link先を確認
Raphael Seidel, René Zander, Matic Petrič, Niklas Steinmann, David Q. Liu, Nikolay Tcholtchev, Manfred Hauswirth, (参考訳) アシュリー・モンタナロによって提案された量子バックトラックアルゴリズムは、古典最適化アルゴリズムの大規模なクラスに対して量子スピードアップを提供するため、かなりの関心を集めている。 Barren-Plateaus に苦しめられず、任意の角度ゲートの限られた数しか必要としないため、フォールトトレラント時代にうまく移行する。 その可能性にもかかわらず、アルゴリズムは、おそらくその抽象的な定式化のために、実装の努力が限られている。 本研究では、任意のバックトラックインスタンスに対して量子ステップ演算子を実装するための詳細な命令を提供する。 深さnのバイナリバックトラックツリーの単一の制御ディフューザに対して、我々の実装では、たった6n+14$ CXゲートしか必要としない。 本稿では, 量子バックトラックのためのインタフェースを用いて, 数独問題に対するアクセプション・アンド・リジェクションのプロセスについて詳述する。 提示されたコードは高レベルな量子プログラミング言語であるQrispを使って書かれており、現在のほとんどの物理バックエンドやシミュレータ上で実行可能である。 その後、いくつかのシミュレータによる実験を行い、最大9つの空場を持つ4x4のSudokuインスタンスを解くことを実証した。 これは、私たちの知る限りでは、この一般化のコンパイル可能な実装の最初の例であり、量子ソフトウェアエンジニアリングにおける重要な、そしてエキサイティングな一歩である。

The quantum backtracking algorithm proposed by Ashley Montanaro raised considerable interest, as it provides a quantum speed-up for a large class of classical optimization algorithms. It does not suffer from Barren-Plateaus and transfers well into the fault-tolerant era, as it requires only a limited number of arbitrary angle gates. Despite its potential, the algorithm has seen limited implementation efforts, presumably due to its abstract formulation. In this work, we provide a detailed instruction on implementing the quantum step operator for arbitrary backtracking instances. For a single controlled diffuser of a binary backtracking tree with depth n, our implementation requires only $6n+14$ CX gates. We detail the process of constructing accept and reject oracles for Sudoku problems using our interface to quantum backtracking. The presented code is written using Qrisp, a high-level quantum programming language, making it executable on most current physical backends and simulators. Subsequently, we perform several simulator based experiments and demonstrate solving 4x4 Sudoku instances with up to 9 empty fields. This is, to the best of our knowledge, the first instance of a compilable implementation of this generality, marking a significant and exciting step forward in quantum software engineering.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# トウモロコシをナビゲートする:分子シミュレーションのための周期および条件計算グラフ

Navigating the Maize: Cyclic and conditional computational graphs for molecular simulation ( http://arxiv.org/abs/2402.10064v2 )

ライセンス: Link先を確認
Thomas Löhr, Michele Assante, Michael Dodds, Lili Cao, Mikhail Kabeshov, Jon-Paul Janet, Marco Klähn, Ola Engkvist, (参考訳) 多くの計算化学と分子シミュレーションのワークフローはグラフとして表現できる。 この抽象化は,既存のコンポーネントのモジュール化と再利用,並列化と再現性の向上に有用だ。 既存のツールは、計算を有向非巡回グラフ(DAG)として表現し、並列ブランチの並列化による効率的な実行を可能にする。 しかしながら、これらのシステムは概して循環的および条件的ワークフローを表現できない。 そこで我々は,フローベースプログラミングの原理に基づいて,循環グラフと条件グラフのワークフローマネージャMaizeを開発した。 グラフの各ノードを別々のプロセスで同時に実行し、専用のノード間チャネルを介していつでも通信できるようにすることで、任意のグラフ構造を実行できる。 本稿では, 小分子生成モデルと関連するスコアリングシステムと, 量子化学および半経験的アプローチを用いた反応性予測パイプラインを併用した, 計算薬物設計における動的能動学習タスクにおけるツールの有効性を実証する。

Many computational chemistry and molecular simulation workflows can be expressed as graphs. This abstraction is useful to modularize and potentially reuse existing components, as well as provide parallelization and ease reproducibility. Existing tools represent the computation as a directed acyclic graph (DAG), thus allowing efficient execution by parallelization of concurrent branches. These systems can, however, generally not express cyclic and conditional workflows. We therefore developed Maize, a workflow manager for cyclic and conditional graphs based on the principles of flow-based programming. By running each node of the graph concurrently in separate processes and allowing communication at any time through dedicated inter-node channels, arbitrary graph structures can be executed. We demonstrate the effectiveness of the tool on a dynamic active learning task in computational drug design, involving the use of a small molecule generative model and an associated scoring system, and on a reactivity prediction pipeline using quantum-chemistry and semiempirical approaches.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# ニューラルネットワークによるM_B$推定の深夜遷移の可能性

A possible late-time transition of $M_B$ inferred via neural networks ( http://arxiv.org/abs/2402.10502v2 )

ライセンス: Link先を確認
Purba Mukherjee, Konstantinos F. Dialektopoulos, Jackson Levi Said, Jurgen Mifsud, (参考訳) 宇宙論パラメータにおける緊張の強化は、標準宇宙論の基本的側面の再考につながった。 ハッブル定数の張力は、Ia型超新星の絶対等級$M_B$上の局所宇宙と初期宇宙の制約の間の張力と見なすこともできる。 本研究では、モデルに依存しない方法で、このパラメータの変動の可能性を再考する。 ニューラルネットワークを用いて、絶対等級の値を不可知的に制約し、Pantheon+コンパイルの赤シフトによるM_B$の変動の影響と統計的意義を評価し、ニューラルネットワークアーキテクチャの徹底的な解析を行う。 我々は、$z\approx 1$ 領域における遷移赤方偏移の可能性を示す。

The strengthening of tensions in the cosmological parameters has led to a reconsideration of fundamental aspects of standard cosmology. The tension in the Hubble constant can also be viewed as a tension between local and early Universe constraints on the absolute magnitude $M_B$ of Type Ia supernova. In this work, we reconsider the possibility of a variation of this parameter in a model-independent way. We employ neural networks to agnostically constrain the value of the absolute magnitude as well as assess the impact and statistical significance of a variation in $M_B$ with redshift from the Pantheon+ compilation, together with a thorough analysis of the neural network architecture. We find an indication for a possible transition redshift at the $z\approx 1$ region.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# 量子比

The Quantum Ratio ( http://arxiv.org/abs/2402.10702v3 )

ライセンス: Link先を確認
Hans-Thomas Elze, Kenichi Konishi, (参考訳) 量子比の概念は、量子力学方程式への最初の近似として、ニュートン方程式が有限体温度で孤立したマクロな天体の質量(CM)の中心にどのように現れるかを理解するための最近の試みに現れた。 Q\equiv R_q/L_0$ と定義され、量子揺らぎ範囲 $R_q$ は純粋状態CM波動関数の空間拡張であるのに対し、L_0$ は内部の有界波動関数の空間サポートである。 R_q/L_0 \lesssim 1$ または $R_q/L_0 \gg 1$ の2つのケースは、それぞれ、古典的または量子力学的に身体のCMの振る舞いに対応する。 本項では、この概念について詳しく述べ、いくつかの例を挙げる。 量子比の導入による重要な概念は、素粒子(電子と光子)が量子力学的であり、環境によって引き起こされたデコヒーレンスによって混合状態に変わったとしてもである。 デコヒーレンスと古典国家は特定してはならない。 この単純な観察は、原子や分子の過程を考えることでさらに説明され、生物学的システムにおける量子力学の働きに重大な影響を及ぼす可能性がある。

The concept of {\it quantum ratio} emerged in the recent efforts to understand how Newton's equations appear for the center of mass (CM) of an isolated macroscopic body at finite body-temperatures, as the first approximation to quantum-mechanical equations. It is defined as $Q\equiv R_q/L_0$, where the quantum fluctuation range $R_q$ is the spatial extension of the pure-state CM wave function, whereas $L_0$ stands for the body's linear size (the space support of the internal, bound-state wave function). The two cases $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, roughly correspond to the body's CM behaving classically or quantum mechanically, respectively. In the present note we elaborate more on this concept, illustrating it in several examples. An important notion following from introduction of the quantum ratio is that the elementary particles (thus the electron and the photon) are quantum mechanical, even when the environment-induced decoherence turns them into a mixed state. Decoherence and classical state should not be identified. This simple observation, further illustrated by the consideration of a few atomic or molecular processes, may have significant implications on the way quantum mechanics works in biological systems.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# Kolmogorov n-Widths for Multitask Physics-Informed Machine Learning (PIML) Methods: Towards Robust Metrics

Kolmogorov n-Widths for Multitask Physics-Informed Machine Learning (PIML) Methods: Towards Robust Metrics ( http://arxiv.org/abs/2402.11126v2 )

ライセンス: Link先を確認
Michael Penwarden, Houman Owhadi, Robert M. Kirby, (参考訳) 偏微分方程式(PDE)を解くための物理インフォームド・機械学習(PIML)がCS&E(Computational Science and Engineering)の世界で注目を集めている。 このトピックは、マルチタスク学習(multitask learning)と呼ばれる、シングルまたはPDE問題の集合を解決するための、幅広いメソッドとモデルを含んでいる。 PIMLは、PDE問題を解決する際に、大規模なデータの代わりに機械学習モデルのトレーニングプロセスに物理法則を組み込むことによって特徴付けられる。 このメソッドの集合の全体的な成功にもかかわらず、分析、ベンチマーク、そして一般的にあるアプローチを他の方法と比較することは、信じられないほど困難である。 近似関数の有効性の尺度としてKolmogorov n-widthsを用いて、様々なマルチタスクPIMLアーキテクチャの比較において、この指標を任意に適用する。 より低い精度境界を計算し、様々なPDE問題に基づいてモデルの学習基底関数を解析する。 これはマルチタスクPIMLアーキテクチャを比較するための最初の客観的指標であり、選択的サンプリングとオーバーフィッティングからモデル検証の不確実性を取り除くのに役立つ。 また、アクティベーション関数の選択など、モデルアーキテクチャの改善の道筋も明らかにし、タスク固有のエラーを報告する際には観察されない"Worst-case"シナリオへのモデル一般化に大きく影響を与える可能性がある。 また、このメトリックを正規化による最適化プロセスに組み込んで、マルチタスクPDE問題に対するモデルの一般化性を向上させる。

Physics-informed machine learning (PIML) as a means of solving partial differential equations (PDE) has garnered much attention in the Computational Science and Engineering (CS&E) world. This topic encompasses a broad array of methods and models aimed at solving a single or a collection of PDE problems, called multitask learning. PIML is characterized by the incorporation of physical laws into the training process of machine learning models in lieu of large data when solving PDE problems. Despite the overall success of this collection of methods, it remains incredibly difficult to analyze, benchmark, and generally compare one approach to another. Using Kolmogorov n-widths as a measure of effectiveness of approximating functions, we judiciously apply this metric in the comparison of various multitask PIML architectures. We compute lower accuracy bounds and analyze the model's learned basis functions on various PDE problems. This is the first objective metric for comparing multitask PIML architectures and helps remove uncertainty in model validation from selective sampling and overfitting. We also identify avenues of improvement for model architectures, such as the choice of activation function, which can drastically affect model generalization to "worst-case" scenarios, which is not observed when reporting task-specific errors. We also incorporate this metric into the optimization process through regularization, which improves the models' generalizability over the multitask PDE problem.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-04
# コヒーレントで効率的な1次元原子の実現

Realisation of a Coherent and Efficient One-Dimensional Atom ( http://arxiv.org/abs/2402.12568v3 )

ライセンス: Link先を確認
Natasha Tomm, Nadia O. Antoniadis, Marcelo Janovitch, Matteo Brunelli, Rüdiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Patrick Potts, Alisa Javadi, Richard J. Warburton, (参考訳) 単一光学モードにおける光子と相互作用する量子エミッタは1次元原子を構成する。 コヒーレントで効率的に結合された1次元原子は大きな非線形性を提供し、フォトニック量子ゲートを可能にする。 高い結合効率($-factor)と低いデフォーカスを達成することは難しい。 ここでは、1次元原子の実装として、オープンマイクロキャビティ内の半導体量子ドットを用いる。 弱いレーザー入力により、送信における99.2\%$の消滅と、光子統計における$g^{(2)}(0) = 587$の混束を達成し、単一光子成分の反射とコヒーレント入力の多重光子成分の透過を示す。 マイクロキャビティのチューニング可能な性質により、$\beta$は調整でき、強い束縛から反膨らみまでの光子統計と送信された光子の位相を制御できる。 単一モードのJaynes-Cummingsモデルを超えることによって、実験と理論の間に優れた一致が得られる。 この結果は、エキゾチックなフォトニック状態と2光子相ゲートの創出への道を開くものである。

A quantum emitter interacting with photons in a single optical-mode constitutes a one-dimensional atom. A coherent and efficiently coupled one-dimensional atom provides a large nonlinearity, enabling photonic quantum gates. Achieving a high coupling efficiency ($\beta$-factor) and low dephasing is challenging. Here, we use a semiconductor quantum dot in an open microcavity as an implementation of a one-dimensional atom. With a weak laser input, we achieve an extinction of $99.2\%$ in transmission and a concomitant bunching in the photon statistics of $g^{(2)}(0) = 587$, showcasing the reflection of the single-photon component and the transmission of the multi-photon components of the coherent input. The tunable nature of the microcavity allows $\beta$ to be adjusted and gives control over the photon statistics -- from strong bunching to anti-bunching -- and the phase of the transmitted photons. We obtain excellent agreement between experiment and theory by going beyond the single-mode Jaynes-Cummings model. Our results pave the way towards the creation of exotic photonic states and two-photon phase gates.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# 文脈感性文法の左と右の効率性による中間言語モデルの制約付き復号法

Constrained Decoding for Fill-in-the-Middle Code Language Models via Efficient Left and Right Quotienting of Context-Sensitive Grammars ( http://arxiv.org/abs/2402.17988v2 )

ライセンス: Link先を確認
Daniel Melcer, Nathan Fulton, Sanjay Krishna Gouda, Haifeng Qian, (参考訳) 大規模言語モデルは、プログラム合成と高度な自動補完のための強力なツールであるが、その出力コードが構文的に正しいという保証はない。 本稿では,構文的に不正確なコードに対する早期の拒絶を可能にするインクリメンタルパーサと,FIMタスクの完全プログラムの効率的な検出に寄与する。 我々は、Earey解析アルゴリズムを拡張し、文脈自由文法の左右の商を扱えるようにし、多くの共通プログラミング言語の文法に存在するいくつかの文脈依存的特徴の商化を扱う方法を開発した。 これらのコントリビューションの結果は、左と右の商解析の効率的で、一般的で、かつ、しっかりとした方法である。 理論的なコントリビューション – と設計決定の有効性 – を検証するため,Python 3のFIM補完が特に難しい場合に対して,構文の正確性に制約のあるメソッドを評価した。 その結果、制約付き生成は推奨コードにおける構文エラーの発生を著しく低減できることが示された。

Large Language Models are powerful tools for program synthesis and advanced auto-completion, but come with no guarantee that their output code is syntactically correct. This paper contributes an incremental parser that allows early rejection of syntactically incorrect code, as well as efficient detection of complete programs for fill-in-the-middle (FIM) tasks. We extend the Earley parsing algorithm to allow for left and right quotients of context-free grammars, and develop methods to handle quotienting of several context-sensitive features present in the grammars of many common programming languages. The result of these contributions is an efficient, general, and well-grounded method for left and right quotient parsing. To validate our theoretical contributions -- and the effectiveness of certain design decisions -- we evaluate our method on the particularly difficult case of FIM completion for Python 3, with syntax-correctness constraints. Our results demonstrate that constrained generation can significantly reduce the incidence of syntax errors in recommended code.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# テンソルネットワークによる局所ランダム量子回路の正確なモーメントの計算

Computing exact moments of local random quantum circuits via tensor networks ( http://arxiv.org/abs/2403.01706v2 )

ライセンス: Link先を確認
Paolo Braccia, Pablo Bermejo, Lukasz Cincio, M. Cerezo, (参考訳) 量子情報の基本的なプリミティブは、$\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$の計算である。 これらは、状態$\rho$をランダムなユニタリ$U$で送信し、ある分布からサンプリングし、観測可能な$O$を測定することで得られる期待値の分布を記述する。 これらのモーメントの正確な計算は一般に難しいが、もし$U$が局所ランダムゲートからなるなら、マルコフ連鎖のような過程のモンテカルロシミュレーションを行うことで$\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$を推定できる。 しかし、このアプローチは違法な数のサンプルを必要とするか、あるいはサイン問題に悩まされる可能性がある。 そこで本研究では,局所ゲートモーメント演算子を局所可換基底に作用する小さな次元テンソルにマッピングするテンソルネットワークを用いてモーメントを推定する。 表現論的なツールを利用することで、局所テンソル次元を研究し、深い回路から生じる行列積状態の結合次元に境界を与える。 我々はモンテカルロシミュレーションと比較し,その性能を著しく向上させることができることを示した。 次に、量子ニューラルネットワークが数千の量子ビットに作用し、数千のゲートを持つとき、テンソルネットワークが正確に2番目の瞬間を計算する方法を紹介します。 最後に,直交ランダムゲートを持つ回路の反集中現象を数値的に研究する。

A basic primitive in quantum information is the computation of the moments $\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$. These describe the distribution of expectation values obtained by sending a state $\rho$ through a random unitary $U$, sampled from some distribution, and measuring the observable $O$. While the exact calculation of these moments is generally hard, if $U$ is composed of local random gates, one can estimate $\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$ by performing Monte Carlo simulations of a Markov chain-like process. However, this approach can require a prohibitively large number of samples, or suffer from the sign problem. In this work, we instead propose to estimate the moments via tensor networks, where the local gates moment operators are mapped to small dimensional tensors acting on their local commutant bases. By leveraging representation theoretical tools, we study the local tensor dimension and we provide bounds for the bond dimension of the matrix product states arising from deep circuits. We compare our techniques against Monte Carlo simulations, showing that we can significantly out-perform them. Then, we showcase how tensor networks can exactly compute the second moment when $U$ is a quantum neural network acting on thousands of qubits and having thousands of gates. To finish, we numerically study the anticoncentration phenomena of circuits with orthogonal random gates, a task which cannot be studied via Monte Carlo due to sign problems.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# Moka: Mark-based Visual Promptingによるオープンワールドロボットマニピュレーション

MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting ( http://arxiv.org/abs/2403.03174v3 )

ライセンス: Link先を確認
Fangchen Liu, Kuan Fang, Pieter Abbeel, Sergey Levine, (参考訳) オープンワールドの一般化は、多様な複雑なタスクを解決するために、ロボットシステムが物理世界とユーザコマンドを深く理解する必要がある。 近年の視覚言語モデル(VLM)の進歩は、オープンワールドの問題を解決する前例のない機会を提供してきたが、ロボットを制御する能力の活用は依然として大きな課題である。 本稿では,自由形式の言語命令で指定されたロボット操作タスクを解決するために,VLMを用いたMoka(Marking Open-World Keypoint Affordances)を提案する。 我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。 事前学習したVLMを推し進めることで、広範データソースから得られたVLMの常識知識と概念理解を利用して、余裕を予測し、動きを生成する。 ゼロショットや少数ショットの方法でのVLMの推論を容易にするため,画像にマークを付加する視覚的プロンプト手法を提案し,可視性推論をVLMで解ける一連の視覚的質問応答問題に変換する。 さらに,Mokaが収集したロボット体験を用いて,文脈内学習と政策蒸留による性能向上手法についても検討する。 ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。

Open-world generalization requires robotic systems to have a profound understanding of the physical world and the user command to solve diverse and complex tasks. While the recent advancement in vision-language models (VLMs) has offered unprecedented opportunities to solve open-world problems, how to leverage their capabilities to control robots remains a grand challenge. In this paper, we introduce Marking Open-world Keypoint Affordances (MOKA), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language instructions. Central to our approach is a compact point-based representation of affordance, which bridges the VLM's predictions on observed images and the robot's actions in the physical world. By prompting the pre-trained VLM, our approach utilizes the VLM's commonsense knowledge and concept understanding acquired from broad data sources to predict affordances and generate motions. To facilitate the VLM's reasoning in zero-shot and few-shot manners, we propose a visual prompting technique that annotates marks on images, converting affordance reasoning into a series of visual question-answering problems that are solvable by the VLM. We further explore methods to enhance performance with robot experiences collected by MOKA through in-context learning and policy distillation. We evaluate and analyze MOKA's performance on various table-top manipulation tasks including tool use, deformable body manipulation, and object rearrangement.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# VANP:自己監督型ビジョンアクション事前学習によるナビゲーションの見方を学ぶ

VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training ( http://arxiv.org/abs/2403.08109v3 )

ライセンス: Link先を確認
Mohammad Nazeri, Junzhe Wang, Amirreza Payandeh, Xuesu Xiao, (参考訳) 人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。 しかし、ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存している。 別のアプローチでは、特別なナビゲーションモデルをスクラッチからトレーニングし、かなりの計算を必要とする。 一方、自己教師型学習はコンピュータビジョンと自然言語処理に革命をもたらしたが、効果的な自己スーパービジョン信号の定義が困難であるため、ロボットナビゲーションへの応用はいまだに未熟である。 そこで本研究では,視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。 分類や検出などのタスクに有用な有能なオブジェクトを検出する代わりに、VANPはナビゲーションタスクに関連する特定の視覚領域のみに焦点を当てることを学ぶ。 これを実現するため、VANPは視覚的観察の歴史、将来の行動、自己監督のためのゴールイメージを使用し、2つの小さなトランスフォーマーエンコーダを使用してそれらを埋め込む。 そして、VANPは、相互情報最大化目的関数を用いて埋め込み間の情報を最大化する。 VANP抽出したほとんどの特徴が人間のナビゲーションの直感と一致していることを示す。 VANPは、大規模で完全な教師付きデータセットであるImageNetでトレーニングされたトレーニング時間の半分とモデル、すなわち0.08%のデータで、エンドツーエンドで学習したモデルと同等のパフォーマンスを達成している。

Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models pre-trained on vision tasks, which prioritize salient objects -- not necessarily relevant to navigation and potentially misleading. Alternative approaches train specialized navigation models from scratch, requiring significant computation. On the other hand, self-supervised learning has revolutionized computer vision and natural language processing, but its application to robotic navigation remains underexplored due to the difficulty of defining effective self-supervision signals. Motivated by these observations, in this work, we propose a Self-Supervised Vision-Action Model for Visual Navigation Pre-Training (VANP). Instead of detecting salient objects that are beneficial for tasks such as classification or detection, VANP learns to focus only on specific visual regions that are relevant to the navigation task. To achieve this, VANP uses a history of visual observations, future actions, and a goal image for self-supervision, and embeds them using two small Transformer Encoders. Then, VANP maximizes the information between the embeddings by using a mutual information maximization objective function. We demonstrate that most VANP-extracted features match with human navigation intuition. VANP achieves comparable performance as models learned end-to-end with half the training time and models trained on a large-scale, fully supervised dataset, i.e., ImageNet, with only 0.08% data.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# 大規模言語モデルを継続的に事前学習するためのシンプルでスケーラブルな戦略

Simple and Scalable Strategies to Continually Pre-train Large Language Models ( http://arxiv.org/abs/2403.08763v4 )

ライセンス: Link先を確認
Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish, (参考訳) 大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。 より効率的な解決策は、これらのモデルを継続的に事前トレーニングし、再トレーニングよりもかなりの計算を節約することである。 しかし、新しいデータによって引き起こされる分布シフトは、通常、以前のデータの性能低下または新しいデータへの適応不良をもたらす。 本研究では,複数の言語モデル(LM)評価ベンチマークにおいて,学習率(LR)再ウォーミング,LR復調,過去のデータの再プレイの簡易かつスケーラブルな組み合わせが,すべての利用可能なデータに対してスクラッチから完全に再トレーニングする性能と,最終的な損失と平均スコアとを一致させるのに十分であることを示す。 具体的には,2つの LLM 事前学習データセット (英:$\rightarrow$ English) と,大規模データセットサイズ (数十億トークン) のパラメータモデルスケール (405$M) における強い分布シフト (英:$\rightarrow$German) との間に,弱いが現実的な分布シフトを示す。 大規模実験において,弱いが現実的なシフトを選択することで,連続学習戦略が10BパラメータLLMの再学習ベースラインと一致していることが分かる。 この結果から,LLMは単純かつスケーラブルな連続学習戦略により,計算のごく一部で再学習ベースラインに適合することを示す。 最後に,従来の研究に触発されて,LR再ウォーミングによる忘れを回避し,固定トークン予算に縛られないコサイン学習率スケジュールの代替案を提案する。

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by the final loss and the average score on several language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (English$\rightarrow$English) and a stronger distribution shift (English$\rightarrow$German) at the $405$M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-04
# スパイキングウェーブレットトランス

Spiking Wavelet Transformer ( http://arxiv.org/abs/2403.11138v5 )

ライセンス: Link先を確認
Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理方法をエミュレートすることによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 SNNでトランスフォーマーを組み込むと、精度が保証される。 しかし、彼らは、グローバルな自己認識機構に依存するため、移動エッジやピクセルレベルの明るさ変化などの高周波パターンを学ぶのに苦労している。 これらの高周波表現の学習は、SNNベースのイベント駆動ビジョンには難しいが不可欠である。 この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。 重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。 1)空間周波数領域学習のためのスパイクウェーブレット学習装置 2)空間特徴抽出のための畳み込みに基づく学習者 3) チャネル間情報集約のためのスパイクポイントワイド畳み込み -負スパイクダイナミクスを組み込んだもの 1) 周波数表現を高める。 FATMにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分を捕捉するバニラスパイキングトランスフォーマーよりも優れている。 静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。 SWformerはパラメータカウントを22.03%削減し、Vanilla Spiking Transformerと比較して、ImageNetデータセットのパフォーマンスが2.52%向上した。 コードは、https://github.com/bic-L/Spiking-Wavelet-Transformerで入手できる。

Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by emulating the event-driven processing manner of the brain. Incorporating Transformers with SNNs has shown promise for accuracy. However, they struggle to learn high-frequency patterns, such as moving edges and pixel-level brightness changes, because they rely on the global self-attention mechanism. Learning these high-frequency representations is challenging but essential for SNN-based event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation - with negative spike dynamics incorporated in 1) to enhance frequency representation. The FATM enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free and event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves a 22.03% reduction in parameter count, and a 2.52% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers. The code is available at: https://github.com/bic-L/Spiking-Wavelet-Transformer.
翻訳日:2024-09-07 03:32:19 公開日:2024-09-04
# AIによる頸部がん検診

AI-Assisted Cervical Cancer Screening ( http://arxiv.org/abs/2403.11936v2 )

ライセンス: Link先を確認
Kanchan Poudel, Lisasha Poudel, Prabin Raj Shakya, Atit Poudel, Archana Shrestha, Bishesh Khanal, (参考訳) 低所得国や中所得国(LMIC)では、好まれるが利用できない専門家である婦人科医の代わりに、看護師によるスクリーニングキャンプや一次・地域医療センターがしばしば実施されている。 テストの主観的な性質に対処するため、カメラやスマートフォンを統合した様々なハンドヘルドデバイスが、最近、VIA中の頚部画像をキャプチャし、遠隔医療やAIモデルによる意思決定を支援するために研究されている。 AIモデルを提案するほとんどの研究は、特定のデバイス、デジタルカメラ、スマートフォンから収集された画像の比較的少数を振り返りに使用している。資源制約されたキャンプ設定におけるVIA中の品質画像取得の課題とプロトコルは、しばしば見過ごされがちである。 本稿では,異なる統合デバイスを購入する必要のない,堅牢なスマートフォンベースのAI支援システムを構築するための,エンド・ツー・エンドの設計プロセスについて述べる。資源制約のある環境での高品質な画像取得のためのプロトコル,キャンプ,前処理パイプライン,深層学習に基づく分類モデルのトレーニングと評価において,看護師が実施するVIA中の1,430人の女性から収集したデータセット。 我々の研究は、容易に利用可能なスマートフォンと適切なプロトコルが、VIAテストに必要な詳細でcervixイメージをキャプチャできることを示し、深層学習に基づく分類モデルは、VIAスクリーニングにおける看護師を支援するための有望な結果を提供し、リソース制約された設定における大規模データ収集と検証の方向性を提供する。

Visual Inspection with Acetic Acid (VIA) remains the most feasible cervical cancer screening test in resource-constrained settings of low- and middle-income countries (LMICs), which are often performed screening camps or primary/community health centers by nurses instead of the preferred but unavailable expert Gynecologist. To address the highly subjective nature of the test, various handheld devices integrating cameras or smartphones have been recently explored to capture cervical images during VIA and aid decision-making via telemedicine or AI models. Most studies proposing AI models retrospectively use a relatively small number of already collected images from specific devices, digital cameras, or smartphones; the challenges and protocol for quality image acquisition during VIA in resource-constrained camp settings, challenges in getting gold standard, data imbalance, etc. are often overlooked. We present a novel approach and describe the end-to-end design process to build a robust smartphone-based AI-assisted system that does not require buying a separate integrated device: the proposed protocol for quality image acquisition in resource-constrained settings, dataset collected from 1,430 women during VIA performed by nurses in screening camps, preprocessing pipeline, and training and evaluation of a deep-learning-based classification model aimed to identify (pre)cancerous lesions. Our work shows that the readily available smartphones and a suitable protocol can capture the cervix images with the required details for the VIA test well; the deep-learning-based classification model provides promising results to assist nurses in VIA screening; and provides a direction for large-scale data collection and validation in resource-constrained settings.
翻訳日:2024-09-07 03:32:19 公開日:2024-09-04
# 混合ドメインデータセットに応用した基礎モデルによる肺癌セグメンテーションの不確かさの定量化

Quantifying uncertainty in lung cancer segmentation with foundation models applied to mixed-domain datasets ( http://arxiv.org/abs/2403.13113v2 )

ライセンス: Link先を確認
Aneesh Rangnekar, Nishant Nadkarni, Jue Jiang, Harini Veeraraghavan, (参考訳) 医用画像基盤モデルは、極小調整で臓器や腫瘍を分割する能力を示している。 これらのモデルは通常、タスク固有の分散(ID)データセットで評価される。 しかし、IDデータセットの信頼性の高い性能は、アウト・オブ・ディストリビューション(OOD)データセットの堅牢な一般化を保証するものではない。 特に画像が異なる画像プロトコルによってOODカテゴリに分類される場合, 臨床用として展開された場合, 進行中のパフォーマンスドリフトを評価するために, 地上の真実を記述しておくことは不可能である。 そこで我々は,複数の基礎モデル (Swin UNETR, SimMIM, iBOT, SMIT) の性能を自己教師付き学習 (SSL) で評価するために,計算的に高速なメトリクスの包括的セットを導入した。 SSLプリトレーニングは、大規模な、多様な、ラベルなしの画像セットに適用できるため、選択された。 CT(Computed tomography)スキャンから肺腫瘍の分画の同一データセットを用いて,すべてのモデルが微調整された。 SimMIM、iBOT、SMITは同じアーキテクチャ、事前トレーニング、微調整データセットを使用して、SSLで使用されるプリテキストタスクの選択によるパフォーマンスの変動を評価した。 LRAD: 140, 5Rater: n = 21) と, 肺塞栓症患者のCT検査(n = 120) を対象とし, 肺がん訓練データ(n = 317, III-IV, III-IV, III-IV)と比較し, 画像取得と腫瘍ステージの異なる2つのパブリック肺がんデータセット(LRAD: 140, 5Rater: n = 21)について検討した。 全てのモデルは、肺がん検査データセットで同様に正確な腫瘍のセグメンテーションを作成した。 SMITは高いF1スコア(LRAD: 0.60, 5Rater: 0.64)と低いエントロピー(LRAD: 0.06, 5Rater: 0.12)を生成し、腫瘍検出率と確実なセグメンテーションを示した。 OODデータセットでは、SMITは、第2の最良のSimMIMの9.97ccと比較して、5.67ccの体積占有率で示される最小数の腫瘍を誤って検出した。

Medical image foundation models have shown the ability to segment organs and tumors with minimal fine-tuning. These models are typically evaluated on task-specific in-distribution (ID) datasets. However, reliable performance on ID dataset does not guarantee robust generalization on out-of-distribution (OOD) datasets. Importantly, once deployed for clinical use, it is impractical to have `ground truth' delineations to assess ongoing performance drifts, especially when images fall into OOD category due to different imaging protocols. Hence, we introduced a comprehensive set of computationally fast metrics to evaluate the performance of multiple foundation models (Swin UNETR, SimMIM, iBOT, SMIT) trained with self-supervised learning (SSL). SSL pretraining was selected as this approach is applicable for large, diverse, and unlabeled image sets. All models were fine-tuned on identical datasets for lung tumor segmentation from computed tomography (CT) scans. SimMIM, iBOT, and SMIT used identical architecture, pretraining, and fine-tuning datasets to assess performance variations with the choice of pretext tasks used in SSL. Evaluation was performed on two public lung cancer datasets (LRAD: n = 140, 5Rater: n = 21) with different image acquisitions and tumor stage compared to training data (n = 317 public resource with stage III-IV lung cancers) and a public non-cancer dataset containing volumetric CT scans of patients with pulmonary embolism (n = 120). All models produced similarly accurate tumor segmentation on the lung cancer testing datasets. SMIT produced a highest F1-score (LRAD: 0.60, 5Rater: 0.64) and lowest entropy (LRAD: 0.06, 5Rater: 0.12), indicating higher tumor detection rate and confident segmentations. In the OOD dataset, SMIT misdetected least number of tumors, indicated by median volume occupancy of 5.67 cc compared to second best method SimMIM of 9.97 cc.
翻訳日:2024-09-07 03:32:19 公開日:2024-09-04
# 地球モーバー距離による深度誘導型NRF訓練

Depth-guided NeRF Training via Earth Mover's Distance ( http://arxiv.org/abs/2403.13206v2 )

ライセンス: Link先を確認
Anita Rau, Josiah Aklilu, F. Christopher Holsinger, Serena Yeung-Levy, (参考訳) ニューラルレージアンス場(NeRF)は、予測された視点のレンダリング損失を最小限に抑えるために訓練される。 しかし、測光損失は、同じ画像を得る異なる可能な測地間を曖昧にするための十分な情報を提供していないことが多い。 これまでの研究は、NeRFトレーニング中に深度監視を取り入れており、事前訓練された深度ネットワークからの密集した予測を擬似地下真実として活用している。 これらの深度事前は、一度ノイズをフィルターすると完璧であると仮定されるが、実際には、その精度を捉えることはより困難である。 この研究は、NeRF監視のための深度事前の不確実性に対する新しいアプローチを提案する。 カスタムトレーニングされた深さや不確実性前兆を使用する代わりに、既訓練の拡散モデルを用いて、デノナイジングプロセス中の深さを予測し、不確実性を捉える。 我々は、深度先行が誤差の傾向にあることを知っているので、L2-lossを通して正確に深度を再現するために、描画された深度を強制するのではなく、地球モーバー距離で光の終端距離分布を監督することを提案する。 我々の深度誘導型NeRFは、光度測定における性能を維持しながら、標準深度測定におけるすべてのベースラインを大きなマージンで上回る。

Neural Radiance Fields (NeRFs) are trained to minimize the rendering loss of predicted viewpoints. However, the photometric loss often does not provide enough information to disambiguate between different possible geometries yielding the same image. Previous work has thus incorporated depth supervision during NeRF training, leveraging dense predictions from pre-trained depth networks as pseudo-ground truth. While these depth priors are assumed to be perfect once filtered for noise, in practice, their accuracy is more challenging to capture. This work proposes a novel approach to uncertainty in depth priors for NeRF supervision. Instead of using custom-trained depth or uncertainty priors, we use off-the-shelf pretrained diffusion models to predict depth and capture uncertainty during the denoising process. Because we know that depth priors are prone to errors, we propose to supervise the ray termination distance distribution with Earth Mover's Distance instead of enforcing the rendered depth to replicate the depth prior exactly through L2-loss. Our depth-guided NeRF outperforms all baselines on standard depth metrics by a large margin while maintaining performance on photometric measures.
翻訳日:2024-09-07 03:32:19 公開日:2024-09-04
# ConGeo: 地形変動を横切るロバストなクロスビュージオローカライゼーション

ConGeo: Robust Cross-view Geo-localization across Ground View Variations ( http://arxiv.org/abs/2403.13965v2 )

ライセンス: Link先を確認
Li Mi, Chang Xu, Javiera Castillo-Navarro, Syrielle Montariol, Wen Yang, Antoine Bosselut, Devis Tuia, (参考訳) クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。 現実のシナリオでは、そのタスクは、様々な向きと視野の縮小(FoVs)を持つユーザによってキャプチャされた多様な地上画像の調整を必要とする。 しかし、既存の学習パイプラインは指向性やFoV固有のもので、異なる地上ビューのバリエーションに対する個別のモデルトレーニングを必要としている。 このようなモデルは、トレーニングデータにおける北向きの空間対応と事前定義されたFoVに大きく依存し、異なる設定にまたがって頑丈さを損なう。 この課題に対処するために,コンジオ (ConGeo) という,地中局所化のための一対一のコントラスト法を提案する。同じ位置の地上ビュー変動に近接させることで,モデルの方向への不変性とFoV変動に対するレジリエンスを改善するため,特徴表現の堅牢性と一貫性を向上させる。 クロスビューなジオローカライゼーションのための一般的な学習目的として、ConGeoは、最先端のパイプラインに統合された場合、多様な地上ビューのバリエーションのための4つのジオローカライゼーションベンチマークにおいて、3つのベースモデルの性能を著しく向上させ、各地上ビューのバリエーションに対して別々のモデルを訓練する競合する手法よりも優れています。

Cross-view geo-localization aims at localizing a ground-level query image by matching it to its corresponding geo-referenced aerial view. In real-world scenarios, the task requires accommodating diverse ground images captured by users with varying orientations and reduced field of views (FoVs). However, existing learning pipelines are orientation-specific or FoV-specific, demanding separate model training for different ground view variations. Such models heavily depend on the North-aligned spatial correspondence and predefined FoVs in the training data, compromising their robustness across different settings. To tackle this challenge, we propose ConGeo, a single- and cross-view Contrastive method for Geo-localization: it enhances robustness and consistency in feature representations to improve a model's invariance to orientation and its resilience to FoV variations, by enforcing proximity between ground view variations of the same location. As a generic learning objective for cross-view geo-localization, when integrated into state-of-the-art pipelines, ConGeo significantly boosts the performance of three base models on four geo-localization benchmarks for diverse ground view variations and outperforms competing methods that train separate models for each ground view variation.
翻訳日:2024-09-07 03:32:19 公開日:2024-09-04
# LLMにおける「培養」の測定とモデル化に向けて

Towards Measuring and Modeling "Culture" in LLMs: A Survey ( http://arxiv.org/abs/2403.15412v5 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury, (参考訳) 本稿では,大言語モデル(LLM)における文化的表現と包摂性の研究を目的とした,90以上の最近の論文について調査する。 いずれの研究も「文化」を明示的に定義せず、複雑な多面的概念であり、代わりに「文化」の特定の側面を表す特別に設計されたデータセット上でモデルを探索している。 これらの側面を文化のプロキシと呼び、人口統計学と意味論的プロキシの2つの側面にまたがってそれらを整理します。 また、使用する探索方法も分類する。 分析の結果,「文化」の「価値」や目的」といった特定の側面のみが研究されており,特にセマンティックドメインの多様さ (Thompson et al , 2020) や,非探索的な話題 (Hershcovich et al , 2022) が残されている。 その他の2つの重要なギャップは、探索技術の堅牢性の欠如と、LLMベースの応用における文化的誤表現と低表現の影響に関する位置研究である。

We present a survey of more than 90 recent papers that aim to study cultural representation and inclusion in large language models (LLMs). We observe that none of the studies explicitly define "culture, which is a complex, multifaceted concept; instead, they probe the models on some specially designed datasets which represent certain aspects of "culture". We call these aspects the proxies of culture, and organize them across two dimensions of demographic and semantic proxies. We also categorize the probing methods employed. Our analysis indicates that only certain aspects of ``culture,'' such as values and objectives, have been studied, leaving several other interesting and important facets, especially the multitude of semantic domains (Thompson et al., 2020) and aboutness (Hershcovich et al., 2022), unexplored. Two other crucial gaps are the lack of robustness of probing techniques and situated studies on the impact of cultural mis- and under-representation in LLM-based applications.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-04
# グローバルリモートセンシングデータを用いた作物分類のための最適多視点学習モデル探索

In the Search for Optimal Multi-view Learning Models for Crop Classification with Global Remote Sensing Data ( http://arxiv.org/abs/2403.16582v2 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Andreas Dengel, (参考訳) 農地の研究と分析は、その動的かつ不均一な成長挙動のために難しい課題である。 通常、様々なデータソースをその推定のために収集することができる。 ディープラーニングモデルは、作物分類タスクにおいて優れていることが証明されているが、複数の入力を扱う場合、MVL(Multi-View Learning)という大きな課題に直面している。 MVLシナリオで使用される手法は、エンコーダアーキテクチャ、融合戦略、最適化技術に基づいて構成することができる。 この文献は、主にローカル領域の特定のエンコーダアーキテクチャの使用に焦点を当てており、MVL方法論における他のコンポーネントのより深い探索は行っていない。 対照的に、核融合戦略とエンコーダアーキテクチャの同時選択について検討し、世界規模の作物と作物の分類を評価した。 MVL法では,5つの融合戦略(入力,特徴,決定,アンサンブル,ハイブリッド)と5つの時間エンコーダ(LSTM,GRU,TempCNN,TAE,L-TAE)が可能である。 我々は、光学、レーダー、気象時系列、地形情報を入力データとして提供するCropHarvestデータセットを検証に使用する。 ラベル付きサンプルの数が限られているシナリオでは、すべてのケースでユニークな設定が不十分であることがわかった。 代わりに、エンコーダと融合戦略を含む特別な組み合わせを慎重に求めるべきである。 この探索過程を合理化するために、特定の融合戦略に適した最適なエンコーダアーキテクチャを特定し、その分類タスクに最適な融合戦略を決定することを提案する。 MVL法を用いて作物の分類を探索する研究者のための方法論的枠組みを提供する。

Studying and analyzing cropland is a difficult task due to its dynamic and heterogeneous growth behavior. Usually, diverse data sources can be collected for its estimation. Although deep learning models have proven to excel in the crop classification task, they face substantial challenges when dealing with multiple inputs, named Multi-View Learning (MVL). The methods used in the MVL scenario can be structured based on the encoder architecture, the fusion strategy, and the optimization technique. The literature has primarily focused on using specific encoder architectures for local regions, lacking a deeper exploration of other components in the MVL methodology. In contrast, we investigate the simultaneous selection of the fusion strategy and encoder architecture, assessing global-scale cropland and crop-type classifications. We use a range of five fusion strategies (Input, Feature, Decision, Ensemble, Hybrid) and five temporal encoders (LSTM, GRU, TempCNN, TAE, L-TAE) as possible configurations in the MVL method. We use the CropHarvest dataset for validation, which provides optical, radar, weather time series, and topographic information as input data. We found that in scenarios with a limited number of labeled samples, a unique configuration is insufficient for all the cases. Instead, a specialized combination should be meticulously sought, including an encoder and fusion strategy. To streamline this search process, we suggest identifying the optimal encoder architecture tailored for a particular fusion strategy, and then determining the most suitable fusion strategy for the classification task. We provide a methodological framework for researchers exploring crop classification through an MVL methodology.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-04
# 大学生実験室用光ファイバの超高感度Hong-Ou-Mandel干渉実験

A Versatile Hong-Ou-Mandel Interference Experiment in Optical Fiber for the Undergraduate Laboratory ( http://arxiv.org/abs/2403.20272v2 )

ライセンス: Link先を確認
Cyrus Bjurlin, Theresa Chmiel, (参考訳) ホン・ウー・マンデル干渉(Hong-Ou-Mandel、HOM)は量子光学研究所の実験で、近年、学部生がよりアクセスしやすくなっている。 この実験は、2つの同一の光子が同時に非偏光ビームスプリッターに入る。 波動関数は破壊的に干渉し、光子対は出力で(どちらも同じ出力を出る)束を束ねるが、古典的には異なる出力を出力する可能性が高い。 不明瞭性を達成するのに必要な精度のため、この実験のセットアップとアライメントは、単にHOM干渉ディップを実証することだけを目的とし、学部の研究室に適当であるにはあまりにも難しく、時間を要すると考えられることが多い。 そこで本研究では,従来のビームスプリッタではなく,フューズファイバ結合器で発生する干渉を再現可能な一貫した実験を行う光ファイバベース装置を提案する。 我々は、最小のアライメントを必要とし、干渉のコヒーレンス長を増大させる、市販のファイバー結合双光子源を使用する。 さらに,両光子源は生成した光子対の周波数デジェネティクスを直接制御し,コヒーレンス長や干渉可視性などのHOM干渉の物理的特性を調べることができる。 標準オプトメカニカル部品と市販のファイバ集積バイフォトン源とレーザーを組み合わせることで,本装置はスクラッチとプリアライメントの中間地点となる。

Hong-Ou-Mandel (HOM) interference is a quantum optics laboratory experiment that has recently become more accessible to undergraduate students. The experiment consists of two identical photons simultaneously entering a non-polarizing beam splitter. The wavefunctions destructively interfere and the photon pairs bunch (both exit the same output) at the outputs whereas classically they are equally likely to exit different outputs. Due to the precision needed to achieve indistinguishability, setup and alignment of this experiment is often considered to be too difficult and time consuming to be appropriate for an undergraduate lab, with an end goal of merely demonstrating the HOM interference dip. Here, we present an alternative optical fiber-based apparatus that gives a consistently reproducible experiment with interference occurring in a fused-fiber coupler instead of a traditional beam splitter. We use a commercially available fiber coupled biphoton source that requires minimal alignment and increases coherence length of the interference. In addition, our biphoton source provides direct temperature based control of the frequency degeneracy of the photon pairs produced, allowing for students to investigate physical properties of HOM interference such as coherence length and interference visibility. Through use of standard opto-mechanical parts combined with the commercially available fiber integrated biphoton source and laser, our apparatus is a middle ground between built-from-scratch and pre-aligned setups.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-04
# 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models ( http://arxiv.org/abs/2404.02928v3 )

ライセンス: Link先を確認
Jiachen Ma, Anda Cao, Zhiqing Xiao, Yijiang Li, Jie Zhang, Chao Ye, Junbo Zhao, (参考訳) テキスト・トゥ・イメージ(T2I)モデルは、性的に明示的で、不誠実で、誤解を招くか、安全でない(NSFW)イメージなどの有害なコンテンツを生成するために悪用することができる。 以前の攻撃は拡散モデルの可用性や長い最適化プロセスに大きく依存していた。 本研究では,ターゲットモデルの存在を必要としない,より実用的で普遍的な攻撃について検討し,高次元テキスト埋め込み空間には,有害な画像を生成するために利用可能なNSFW概念が本質的に含まれていることを示す。 本稿では,JPA(Jailbreaking Prompt Attack)について紹介する。 JPAはまず、ChatGPTによって生成されるアントロニムのグループを使用して、テキスト埋め込み空間におけるターゲットの悪意ある概念を検索する。 その後、プレフィックスプロンプトを離散語彙空間に最適化し、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。 さらに、個別の語彙空間で勾配上昇を行うための勾配マスキング手法によるソフトアロケーションを導入する。 我々は,オープンソースのT2Iモデル,例えばstable-diffusion-v1-4およびクローズドなオンラインサービス,例えばDALLE2,Midjourneyとブラックボックスセーフティチェッカーを用いた大規模な実験を行った。 その結果、(1)JPAはテキストと画像の安全性チェックをバイパスし、(2)ターゲットプロンプトと高いセマンティックアライメントを維持していることがわかった。 (3) JPAは従来のメソッドよりもはるかに高速で、完全に自動化された方法で実行できる。 これらのメリットは、将来のテキスト・ツー・イメージ・ジェネレーション研究において、ロバストネス評価のための貴重なツールとなる。

Text-to-image (T2I) models can be maliciously used to generate harmful content such as sexually explicit, unfaithful, and misleading or Not-Safe-for-Work (NSFW) images. Previous attacks largely depend on the availability of the diffusion model or involve a lengthy optimization process. In this work, we investigate a more practical and universal attack that does not require the presence of a target model and demonstrate that the high-dimensional text embedding space inherently contains NSFW concepts that can be exploited to generate harmful images. We present the Jailbreaking Prompt Attack (JPA). JPA first searches for the target malicious concepts in the text embedding space using a group of antonyms generated by ChatGPT. Subsequently, a prefix prompt is optimized in the discrete vocabulary space to align malicious concepts semantically in the text embedding space. We further introduce a soft assignment with gradient masking technique that allows us to perform gradient ascent in the discrete vocabulary space. We perform extensive experiments with open-sourced T2I models, e.g. stable-diffusion-v1-4 and closed-sourced online services, e.g. DALLE2, Midjourney with black-box safety checkers. Results show that (1) JPA bypasses both text and image safety checkers (2) while preserving high semantic alignment with the target prompt. (3) JPA demonstrates a much faster speed than previous methods and can be executed in a fully automated manner. These merits render it a valuable tool for robustness evaluation in future text-to-image generation research.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# SELF-[IN]CRRECT:自己生成応答を識別するLLM構造

SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses ( http://arxiv.org/abs/2404.04298v2 )

ライセンス: Link先を確認
Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, Daniel Khashabi, (参考訳) LLMは、より良い結果を得るために、常に以前の出力を改善することができるか? このことが真実であるためには、LLMは初期応答を生成するよりも、以前生成された代替品の識別が優れている必要がある。 我々は実際にこの仮説の有効性を探求する。 まず、任意のタスクにおける任意のモデルの生成的および識別的能力を比較することができる統一的なフレームワークを定式化します。 その結果,複数のオープンソースおよび産業用LCMを実験的に分析した結果,モデルが初期応答を生成するよりも,以前生成した代替品の識別が確実でないことが判明した。 この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。

Can LLMs consistently improve their previous outputs for better results? For this to be true, LLMs would need to be better at discriminating among previously-generated alternatives, than generating initial responses. We explore the validity of this hypothesis in practice. We first formulate a unified framework that allows us to compare the generative and discriminative capability of any model on any task. In our resulting experimental analysis of several open-source and industrial LLMs, we observe that models are not reliably better at discriminating among previously-generated alternatives than generating initial responses. This finding challenges the notion that LLMs may be able to enhance their performance only through their own judgment.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# 自動車運動計画は現実的なロングテールシナリオに一般化できるか?

Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios? ( http://arxiv.org/abs/2404.07569v2 )

ライセンス: Link先を確認
Marcel Hallgarten, Julian Zapata, Martin Stoll, Katrin Renz, Andreas Zell, (参考訳) 現実の自動運転システムは、稀で多様な交通シナリオに直面して安全な判断をしなければならない。 現在の最先端のプランナは、主にnuScenes(オープンループ)やnuPlan(クローズループ)といった現実世界のデータセットで評価されている。 特に、nuPlanは実世界のデータとクローズドループに基づいているため、表現力のある評価手法であるように見えるが、基本的には基本的な運転シナリオをカバーしている。 これにより、プランナーがほとんど見えない状況に一般化する能力を判断することが困難になる。 そこで本研究では,複数のエッジケースと運転シナリオを含む新しいクローズドループベンチマークであるInterPlanを提案する。 既存の最先端のプランナをベンチマークで評価し、ルールベースでも学習ベースでも、インタープランナのシナリオを安全にナビゲートできないことを示す。 最近進化している方向は、一般化を扱うために、大きな言語モデル(LLM)のような基礎モデルを使用することである。 我々は, LLMのみのプランナを評価し, LLMに基づく行動プランナとルールに基づく動作プランナを組み合わせた新しいハイブリッドプランナを導入する。

Real-world autonomous driving systems must make safe decisions in the face of rare and diverse traffic scenarios. Current state-of-the-art planners are mostly evaluated on real-world datasets like nuScenes (open-loop) or nuPlan (closed-loop). In particular, nuPlan seems to be an expressive evaluation method since it is based on real-world data and closed-loop, yet it mostly covers basic driving scenarios. This makes it difficult to judge a planner's capabilities to generalize to rarely-seen situations. Therefore, we propose a novel closed-loop benchmark interPlan containing several edge cases and challenging driving scenarios. We assess existing state-of-the-art planners on our benchmark and show that neither rule-based nor learning-based planners can safely navigate the interPlan scenarios. A recently evolving direction is the usage of foundation models like large language models (LLM) to handle generalization. We evaluate an LLM-only planner and introduce a novel hybrid planner that combines an LLM-based behavior planner with a rule-based motion planner that achieves state-of-the-art performance on our benchmark.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# 星の欠陥:コード生成ベンチマークの品質評価

The Fault in our Stars: Quality Assessment of Code Generation Benchmarks ( http://arxiv.org/abs/2404.10155v3 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Simantika Dristi, Joy Saha, Joanna C. S. Santos, (参考訳) 大きな言語モデル(LLM)は、ソフトウェアエンジニアの間で人気を集めています。 効率的なコード生成 LLM を開発する上で重要な側面は、ロバストなベンチマークを用いてこれらのモデルを評価することである。 品質問題のある評価ベンチマークは、誤ったパフォーマンス感覚を与えます。 本研究では、異なるコード生成モデルの性能を比較するために、ベンチマーク内でのプロンプトの品質について、第一種研究を行う。 本研究では,9つのコード生成ベンチマークから3,566個のプロンプトを解析し,それらの品質問題を明らかにする。 また、ベンチマークのプロンプトで特定された品質問題を修正することがモデルの性能に影響を及ぼすかどうかについても検討した。 また,ベンチマークの信頼性に疑問を呈する評価データセットのメモリ化問題についても検討した。 コード生成評価ベンチマークはPythonとコーディングのエクササイズに重点を置いており、モデルに挑戦するためのコンテキスト依存性が非常に限られていることが分かりました。 これらのデータセットと開発者のプロンプトは、スペルや文法的なエラー、開発者の意図を表す不明瞭な文、適切なドキュメントスタイルを使用しないといった品質上の問題に悩まされている。 ベンチマークでこれらすべての問題を修正することで、Pythonコード生成のパフォーマンスが向上する可能性があるが、Javaコード生成では大きな改善は見られなかった。 また, GPT-3.5-Turbo モデルと CodeGen-2.5 モデルでは, データの汚染が問題となる可能性が示唆された。

Large Language Models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with quality issues can provide a false sense of performance. In this work, we conduct the first-of-its-kind study of the quality of prompts within benchmarks used to compare the performance of different code generation models. To conduct this study, we analyzed 3,566 prompts from 9 code generation benchmarks to identify quality issues in them. We also investigated whether fixing the identified quality issues in the benchmarks' prompts affects a model's performance. We also studied memorization issues of the evaluation dataset, which can put into question a benchmark's trustworthiness. We found that code generation evaluation benchmarks mainly focused on Python and coding exercises and had very limited contextual dependencies to challenge the model. These datasets and the developers' prompts suffer from quality issues like spelling and grammatical errors, unclear sentences to express developers' intent, and not using proper documentation style. Fixing all these issues in the benchmarks can lead to a better performance for Python code generation, but not a significant improvement was observed for Java code generation. We also found evidence that GPT-3.5-Turbo and CodeGen-2.5 models may have data contamination issues.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# 顔表情認識のためのマルチタスクマルチモーダル自己教師付き学習

Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition ( http://arxiv.org/abs/2404.10904v2 )

ライセンス: Link先を確認
Marah Halawa, Florian Blume, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich, (参考訳) ヒューマンコミュニケーションはマルチモーダルであり、例えば、対面相互作用には聴覚信号(音声)と視覚信号(顔の動きと手の動き)が含まれる。 したがって、機械学習に基づく顔認識システムの設計において、複数のモダリティを活用することが不可欠である。 さらに、人間の表情を捉えたビデオデータがどんどん増え続けていることを踏まえると、こうしたシステムは高価なアノテーションを必要とせず、生のラベル付きビデオを活用すべきである。 そこで本研究では,マルチタスク・マルチモーダル・セルフ教師付き学習手法を用いて,映像データから表情認識を行う。 まず、マルチモーダルなコントラスト損失であり、同じビデオの多様なデータモダリティを表現空間で引き出す。 第二に、表現空間における入力データのセマンティック構造を保存するマルチモーダルクラスタリング損失。 最後に、マルチモーダルデータ再構成損失。 本稿では,このマルチモーダルなマルチタスク型自己教師型学習手法について,3つの表情認識ベンチマークで包括的な研究を行う。 そこで本研究では,表情認識タスクにおける自己指導タスクの異なる組み合わせによる学習性能について検討する。 我々のモデルであるConCluGenは、CMU-MOSEIデータセット上で、複数のマルチモーダルな自己教師付きベースラインより優れています。 以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクは表情認識などの課題に対して大きなパフォーマンス向上をもたらすとともに,手動アノテーションの量も削減できることがわかった。 トレーニング済みのモデルとソースコードを公開しています。

Human communication is multi-modal; e.g., face-to-face interaction involves auditory signals (speech) and visual signals (face movements and hand gestures). Hence, it is essential to exploit multiple modalities when designing machine learning-based facial expression recognition systems. In addition, given the ever-growing quantities of video data that capture human facial expressions, such systems should utilize raw unlabeled videos without requiring expensive annotations. Therefore, in this work, we employ a multitask multi-modal self-supervised learning method for facial expression recognition from in-the-wild video data. Our model combines three self-supervised objective functions: First, a multi-modal contrastive loss, that pulls diverse data modalities of the same video together in the representation space. Second, a multi-modal clustering loss that preserves the semantic structure of input data in the representation space. Finally, a multi-modal data reconstruction loss. We conduct a comprehensive study on this multimodal multi-task self-supervised learning method on three facial expression recognition benchmarks. To that end, we examine the performance of learning through different combinations of self-supervised tasks on the facial expression recognition downstream task. Our model ConCluGen outperforms several multi-modal self-supervised and fully supervised baselines on the CMU-MOSEI dataset. Our results generally show that multi-modal self-supervision tasks offer large performance gains for challenging tasks such as facial expression recognition, while also reducing the amount of manual annotations required. We release our pre-trained models as well as source code publicly
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# Rydberg量子ゲートのデチューニングエラーに対するアクティブロバスト性

Active robustness against the detuning-error for Rydberg quantum gates ( http://arxiv.org/abs/2404.11860v2 )

ライセンス: Link先を確認
Qing-Ling Hou, Han Wang, Jing Qian, (参考訳) 実験的不完全性に対する誤り抑制は、有用な量子コンピューティングにおける中心的な課題である。 近年の研究では、中性原子配列における高忠実性2ビットゲートを実現する最適制御に基づく単一変調パルスの利点が示されている。 しかし、典型的な最適化は、崩壊がなければ理想的なゲート誤差を最小限に抑え、これによりゲートは全てのエラー源に受動的に影響され、エラーが大きくなると感度が指数関数的に増大する。 本研究では,2光子デチューニング誤差に対して能動的に頑健な2量子CZゲートの実現を提案する。 本手法は, ゲートパルスの形状の数値最適化において, 理想的なゲート誤差だけでなく, 広い誤差範囲におけるゲート不整合の変動を最小化できるようなコスト関数の変更に依存する。 本稿では,ドップラー劣化やアクスタークシフトといった多彩なノイズ源の影響に対して,アクティブな頑健性を有するRydbergブロックゲート群を紹介する。 堅牢なパルスを持つゲートは、2光子デチューニングに作用するあらゆる種類のエラーに対する感度を著しく向上させ、現在の実験技術では、より低温またはより安定したレーザーの緩和要求により恩恵を受ける。

Error suppression to the experimental imperfections is a central challenge for useful quantum computing. Recent studies have shown the advantages of using single-modulated pulses based on optimal control which can realize high-fidelity two-qubit gates in neutral-atom arrays. However, typical optimization only minimizes the ideal gate error in the absence of any decay, which allows the gate to be passively influenced by all error sources leading to an exponential increase of sensitivity when the error becomes larger. In the present work, we propose the realization of two-qubit CZ gates with active robustness against two-photon detuning errors. Our method depends on a modified cost function in numerical optimization for shaping gate pulses, which can minimize, not only the ideal gate error but also the fluctuations of gate infidelity over a wide error range. We introduce a family of Rydberg blockade gates with active robustness towards the impacts of versatile noise sources such as Doppler dephasing and ac Stark shifts. The resulting gates with robust pulses can significantly increase the insensitivity to any type of errors acting on the two-photon detuning, benefiting from a relaxed requirement of colder atomic temperatures or more stable lasers for current experimental technology.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# アーボラッセンス結び目からの絡み合った状態

Entangled states from arborescent knots ( http://arxiv.org/abs/2404.12222v2 )

ライセンス: Link先を確認
Sergey Mironov, Andrey Morozov, (参考訳) 本稿では,アーボラッセンス結び目を用いて絡み合ったマルチキュービット状態を構築する方法について論じる。 このような結び目からベル状態、GHZ状態、クラスター状態を構築することができることを示す。 後者は、測定ベースの量子コンピュータの基盤を形成するため、特に興味深い。

In this paper we discuss how to use arborescent knots to construct entangled multi-qubit states. We show that Bell-states, GHZ-states and cluster states can be constructed from such knots. The latter are particularly interesting since they form a base for the measurement-based quantum computers.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# GCEPNet: 大規模なMIMO検出のためのグラフ畳み込みによる期待の伝播

GCEPNet: Graph Convolution-Enhanced Expectation Propagation for Massive MIMO Detection ( http://arxiv.org/abs/2404.14886v2 )

ライセンス: Link先を確認
Qincheng Lu, Sitao Luan, Xiao-Wen Chang, (参考訳) 大規模MIMO(multiple-input multiple-output)検出は無線通信において重要な課題であり,近年,様々な機械学習手法が開発されている。 期待伝搬(EP)とその変種はMIMO検出に広く用いられ、最高の性能を実現している。 しかし、EPベースの解法は未知変数間の相関を捉えることができず、情報が失われ、計算コストがかかる。 本稿では,実値系をグラフ上のスペクトル信号畳み込みとしてモデル化し,未知変数間の相関を捉えることができることを示す。 このような分析に基づいて、我々はGCEPNet(Graph Convolution-enhanced expectation propagation)を提案する。 GCEPNetは、より優れた一般化能力を持つ強力なグラフ畳み込みのために、データ依存の注意スコアをチェビシェフ多項式に組み込む。 これにより、EPのキャビティ分布をよりよく推定し、より高速な推論速度で、最先端(SOTA)MIMO検出性能を実証的に達成することができる。 我々の知る限り、私たちはシステムモデルとグラフの畳み込みの間の関係を最初に明らかにし、グラフの畳み込みのためのデータ依存係数を最初に設計しました。

Massive MIMO (multiple-input multiple-output) detection is an important topic in wireless communication and various machine learning based methods have been developed recently for this task. Expectation Propagation (EP) and its variants are widely used for MIMO detection and have achieved the best performance. However, EP-based solvers fail to capture the correlation between unknown variables, leading to a loss of information, and in addition, they are computationally expensive. In this paper, we show that the real-valued system can be modeled as spectral signal convolution on graph, through which the correlation between unknown variables can be captured. Based on such analysis, we propose graph convolution-enhanced expectation propagation (GCEPNet). GCEPNet incorporates data-dependent attention scores into Chebyshev polynomial for powerful graph convolution with better generalization capacity. It enables a better estimation of the cavity distribution for EP and empirically achieves the state-of-the-art (SOTA) MIMO detection performance with much faster inference speed. To our knowledge, we are the first to shed light on the connection between the system model and graph convolution, and the first to design the data-dependent coefficients for graph convolution.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# Large Angular Momentum

Large Angular Momentum ( http://arxiv.org/abs/2404.14931v2 )

ライセンス: Link先を確認
Kenichi Konishi, Roberto Menta, (参考訳) スピン 1/2$ (1 qubit) の量子状態は、ブロッホ球面の空間 $CP^1 \sim S^2$ によってパラメータ化される。 ジェネリック j に対するスピン j (a 2j+1-状態系) は、より大きな空間の点 $CP^{2j}$ で表される。 ここでは、極限の角運動量/スピン、$j \to \infty$を研究する。 状態 $(J \cdot n) | j, n\rangle = j |j, n \rangle $, ここで、$J$は角運動量作用素であり、$n$はR^3$の一般単位ベクトルを表す。 本稿では,Stern-Gerlach実験,角-運動量組成則,回転行列を解析して,この現象を論じる。 この問題は、不均一磁場下でのマクロ天体の考察から生じた。 我々の観察は、この文脈で量子力学から古典力学(一意の粒子軌道を持つ)がどのように自然に現れるかを説明するのに役立つ。

Quantum states of a spin $1/2$ (a qubit) are parametrized by the space $CP^1 \sim S^2$, the Bloch sphere. A spin j (a 2j+1 -state system) for generic j is represented instead by a point of a larger space, $CP^{2j}$. Here we study the angular momentum/spin in the limit, $j \to \infty$. The state, $(J \cdot n) | j, n\rangle = j |j, n \rangle $, where $J$ is the angular momentum operator and $n$ stands for a generic unit vector in $R^3$, is found to behave as a classical angular momentum, $ j n $. We discuss this phenomenon, by analysing the Stern-Gerlach experiments, the angular-momentum composition rule, and the rotation matrix. This problem arose from the consideration of a macroscopic body under an inhomogeneous magnetic field. Our observations help to explain how classical mechanics (with unique particle trajectories) emerges naturally from quantum mechanics in this context, and at the same time, make the widespread idea that large spins somehow become classical, a more precise one.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-04
# MV-VTON:拡散モデルを用いたマルチビューバーチャルトライオン

MV-VTON: Multi-View Virtual Try-On with Diffusion Models ( http://arxiv.org/abs/2404.17364v3 )

ライセンス: Link先を確認
Haoyu Wang, Zhilu Zhang, Donglin Di, Shiliang Zhang, Wangmeng Zuo, (参考訳) 画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。 しかし、既存の手法は、正面服を用いた正面試着のみにのみ焦点をあてている。 衣服や人の視線が著しく矛盾している場合、特に人の視線が正面ではない場合、その結果は満足できない。 この課題に対処するために,指定した服を用いて複数のビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を導入する。 単視服はMV-VTONに不十分な情報を提供するので、その代わりに2つの画像、すなわち、衣服の正面と後方の視界を用いて、可能な限り完全な視界を包含する。 さらに,MV-VTONの実行能力に優れた拡散モデルを適用した。 特に,グローバルな衣服の特徴抽出にハードセレクションとソフトセレクションをそれぞれ適用したビューアダプティブ選択法を提案する。 これにより、衣服の特徴が人の視界にほぼ一致することが保証される。 続いて,衣服の特徴と人的特徴を一致させて融合させる共同注意ブロックを提案する。 さらに、MV-VTONデータセットMVGを収集し、各人物がさまざまなビューとポーズを持つ複数の写真を取得する。 実験により,提案手法はMVGデータセットを用いたMV-VTONタスクの最先端結果だけでなく,VITON-HDおよびDressCodeデータセットを用いたフロントビュー仮想試行タスクにも優れていることがわかった。 コードとデータセットはhttps://github.com/hywang2002/MV-VTON で公開されている。

The goal of image-based virtual try-on is to generate an image of the target person naturally wearing the given clothing. However, existing methods solely focus on the frontal try-on using the frontal clothing. When the views of the clothing and person are significantly inconsistent, particularly when the person's view is non-frontal, the results are unsatisfactory. To address this challenge, we introduce Multi-View Virtual Try-ON (MV-VTON), which aims to reconstruct the dressing results from multiple views using the given clothes. Given that single-view clothes provide insufficient information for MV-VTON, we instead employ two images, i.e., the frontal and back views of the clothing, to encompass the complete view as much as possible. Moreover, we adopt diffusion models that have demonstrated superior abilities to perform our MV-VTON. In particular, we propose a view-adaptive selection method where hard-selection and soft-selection are applied to the global and local clothing feature extraction, respectively. This ensures that the clothing features are roughly fit to the person's view. Subsequently, we suggest joint attention blocks to align and fuse clothing features with person features. Additionally, we collect a MV-VTON dataset MVG, in which each person has multiple photos with diverse views and poses. Experiments show that the proposed method not only achieves state-of-the-art results on MV-VTON task using our MVG dataset, but also has superiority on frontal-view virtual try-on task using VITON-HD and DressCode datasets. Codes and datasets are publicly released at https://github.com/hywang2002/MV-VTON .
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて

Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior ( http://arxiv.org/abs/2404.18820v4 )

ライセンス: Link先を確認
Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang, (参考訳) 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))での画像圧縮は、かなりの情報損失のため重要な課題である。 本研究では,事前学習した拡散モデルの強力な生成能力を利用して,極低ビットレートで現実的な画像再構成を実現する2段階の極端画像圧縮フレームワークを提案する。 第一段階では、拡散空間における画像の潜在表現をガイダンスとして扱い、VAEベースの圧縮手法を用いて画像を圧縮し、最初に圧縮された情報をコンテンツ変数に復号する。 第2段階は、事前訓練された安定拡散を利用して、コンテンツ変数のガイダンスの下で画像を再構成する。 具体的には、コンテンツ情報を注入する小さな制御モジュールを導入し、安定した拡散モデルを固定し、生成能力を維持する。 さらに、コンテンツ変数を拡散空間に合わせるように強制する空間アライメント損失を設計し、最適化に必要な制約を提供する。 広汎な実験により,本手法は極低ビットレートでの視覚性能において,最先端の手法よりも有意に優れていた。 ソースコードとトレーニングされたモデルはhttps://github.com/huai-chang/DiffEICで公開されている。

Image compression at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. In this work, we propose a novel two-stage extreme image compression framework that exploits the powerful generative capability of pre-trained diffusion models to achieve realistic image reconstruction at extremely low bitrates. In the first stage, we treat the latent representation of images in the diffusion space as guidance, employing a VAE-based compression approach to compress images and initially decode the compressed information into content variables. The second stage leverages pre-trained stable diffusion to reconstruct images under the guidance of content variables. Specifically, we introduce a small control module to inject content information while keeping the stable diffusion model fixed to maintain its generative capability. Furthermore, we design a space alignment loss to force the content variables to align with the diffusion space and provide the necessary constraints for optimization. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches in terms of visual performance at extremely low bitrates. The source code and trained models are available at https://github.com/huai-chang/DiffEIC.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# 駆動型多光子量子共振器相互作用

Driven Multiphoton Qubit-Resonator Interactions ( http://arxiv.org/abs/2405.01518v3 )

ライセンス: Link先を確認
Mohammad Ayyash, Xicheng Xu, Sahel Ashhab, Matteo Mariantoni, (参考訳) 我々は、量子ビット駆動により強化された多光子量子ビット-共振器相互作用の一般理論を開発する。 相互作用は、駆動がn$-光子交叉共振器に近い場合、共振器内でqubit条件演算を生成する。 我々は強い運転体制に特別な注意を払っており、そこでは相互作用はキュービットの服装状態で条件付けられている。 qubit-conditional squeezing (QCS) の結果として$n=2$となる場合を考える。 我々は,QCSプロトコルを用いて,適切に選択された量子ビット測定に従って直交的に圧縮された状態の重ね合わせを生成することができることを示す。 直交圧縮状態の重ね合わせによる共振器内の量子ビットの符号化を含む,これらの状態に対する量子情報処理の応用について概説する。 制御されたキーズゲートの実現にQCS操作をどのように利用できるかを示し、ボゾン位相推定にその使用法を示す。 QCSプロトコルは、合同量子ビット共振器ヒルベルト空間上でより高速なユニタリ演算子合成を実現するためにも利用できる。 次に, 広範にチューニング可能な有効システムパラメータを持つ実効的な$n$- Photon Rabi Hamiltonianを設計するために, 2音駆動を用いて検討する。 最後に、非対称SQUIDを介して共振器に結合されたトランモン量子ビットに基づく多光子回路QEDの実装を提案する。 上記の2光子プロトコルをホストできる2光子演算系に対して,現実的なパラメータ推定を行う。 数値シミュレーションを用いて、急激な項やデコヒーレンスが存在する場合でも、解析的予測が堅牢であることを示す。

We develop a general theory for multiphoton qubit-resonator interactions enhanced by a qubit drive. The interactions generate qubit-conditional operations in the resonator when the driving is near $n$-photon cross-resonance, namely, the qubit drive is $n$-times the resonator frequency. We pay special attention to the strong driving regime, where the interactions are conditioned on the qubit dressed states. We consider the specific case where $n=2$, which results in qubit-conditional squeezing (QCS). We show that the QCS protocol can be used to generate a superposition of orthogonally squeezed states following a properly chosen qubit measurement. We outline quantum information processing applications for these states, including encoding a qubit in a resonator via the superposition of orthogonally squeezed states. We show how the QCS operation can be used to realize a controlled-squeeze gate and its use in bosonic phase estimation. The QCS protocol can also be utilized to achieve faster unitary operator synthesis on the joint qubit-resonator Hilbert space. Next, we investigate the use of a two-tone drive to engineer an effective $n$-photon Rabi Hamiltonian with widely tunable effective system parameters, which could enable the realization of new regimes that have so far been inaccessible. Finally, we propose a multiphoton circuit QED implementation based on a transmon qubit coupled to a resonator via an asymmetric SQUID. We provide realistic parameter estimates for the two-photon operation regime that can host the aforementioned two-photon protocols. We use numerical simulations to show that even in the presence of spurious terms and decoherence, our analytical predictions are robust.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# フェデレーション学習のためのプライバシを意識したBerrut近似コーデックコンピューティング

Privacy-aware Berrut Approximated Coded Computing for Federated Learning ( http://arxiv.org/abs/2405.01704v2 )

ライセンス: Link先を確認
Xavier Martínez Luaña, Rebeca P. Díaz Redondo, Manuel Fernández Veiga, (参考訳) フェデレートラーニング(FL)は、プライベートデータセットを公開せずに、異なるデータ所有者間でAIモデルの協調トレーニングを可能にする興味深い戦略である。 それでもFLには、差分プライバシ(DP)、ホモモルフィック暗号化(HE)、セキュアマルチパーティ計算(SMPC)など、いくつかのテクニックを適用することで克服された、いくつかのプライバシー上の脆弱性がある。 しかしながら、これらの手法には、非線形関数を扱うことや、大きな行列乗算を演算すること、半正直なノードを管理するための高い通信と計算コストなど、適用範囲を狭めるいくつかの重要な欠点がある。 そこで本稿では,FLスキームのプライバシを保証し,上記の問題を同時に解決する手法を提案する。 提案手法は,シークレット共有構成に適応し,FLへの入力プライバシをスケーラブルに提供するための,Coded Distributed ComputingパラダイムのテクニックであるBerrut Approximated Coded Computingに基づく。 これは非線形関数の計算に適用でき、分散行列乗法(分散行列乗法)の特殊な場合を扱う。 これらの特徴から、FLスキームで使用される機械学習モデルや集約アルゴリズムとは独立しているため、幅広いFLシナリオに適用することができる。 我々は,ソリューションの達成したプライバシと複雑性の分析を行い,その数値的な結果から,プライバシと精度の良好なトレードオフが観察できる。

Federated Learning (FL) is an interesting strategy that enables the collaborative training of an AI model among different data owners without revealing their private datasets. Even so, FL has some privacy vulnerabilities that have been tried to be overcome by applying some techniques like Differential Privacy (DP), Homomorphic Encryption (HE), or Secure Multi-Party Computation (SMPC). However, these techniques have some important drawbacks that might narrow their range of application: problems to work with non-linear functions and to operate large matrix multiplications and high communication and computational costs to manage semi-honest nodes. In this context, we propose a solution to guarantee privacy in FL schemes that simultaneously solves the previously mentioned problems. Our proposal is based on the Berrut Approximated Coded Computing, a technique from the Coded Distributed Computing paradigm, adapted to a Secret Sharing configuration, to provide input privacy to FL in a scalable way. It can be applied for computing non-linear functions and treats the special case of distributed matrix multiplication, a key primitive at the core of many automated learning tasks. Because of these characteristics, it could be applied in a wide range of FL scenarios, since it is independent of the machine learning models or aggregation algorithms used in the FL scheme. We provide analysis of the achieved privacy and complexity of our solution and, due to the extensive numerical results performed, a good trade-off between privacy and precision can be observed.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# SMT支援プロオブオリエントプログラミングのためのニューラル合成に向けて

Towards Neural Synthesis for SMT-Assisted Proof-Oriented Programming ( http://arxiv.org/abs/2405.01787v3 )

ライセンス: Link先を確認
Saikat Chakraborty, Gabriel Ebner, Siddharth Bhat, Sarah Fakhoury, Sakina Fatima, Shuvendu Lahiri, Nikhil Swamy, (参考訳) 証明指向プログラムは、計算内容とプログラムの正しさの証明を混合する。 しかし、Satifiability Modulo Theories (SMT) を用いて F* などの言語での証明を自動化するにもかかわらず、プログラミングと証明に関わる人間の努力は依然として重要なものである。 証明指向プログラムの構築を自動化するためにAIを使用する研究の促進を目的として,WindowsやLinux,Python,Firefoxなど,実運用システムで使用されているソフトウェアを含む,600万行のオープンソースF*プログラムと証明のデータセットをキュレートした。 我々のデータセットには、F*型として表現された形式仕様が与えられたときに、それぞれが型指向プログラムと証明合成問題を表す32K以上のトップレベルF*定義が含まれている。 候補解の正しさを確認するためにF*を問うプログラムフラグメントチェッカーを提供する。 また,プログラムと証明の総行数940K,トップレベルF*定義の総行数54kを含むデータセットの拡張版についても報告する。 再現性のあるプログラムフラグメントチェッカーと組み合わさったSMT支援プログラム証明の最大コーパスである。 このデータセットに基づいて,AIを用いてプログラムとその証明をF*で合成し,有望な結果を得る。 我々の主な発見は、微調整された小さな言語モデル(Phi-2やStarCoderなど)の性能が、より低い計算コストで大きな言語モデル(GPT-4など)と良好に比較できることである。 また,多種多様な検索手法を同定し,性能を著しく向上させた。 詳細なエラー解析とケーススタディにより、モデルと技術の潜在的な長所と短所を特定し、今後の改善に向けた方向性を提案する。

Proof-oriented programs mix computational content with proofs of program correctness. However, the human effort involved in programming and proving is still substantial, despite the use of Satisfiability Modulo Theories (SMT) solvers to automate proofs in languages such as F*. Seeking to spur research on using AI to automate the construction of proof-oriented programs, we curate a dataset of 600K lines of open-source F* programs and proofs, including software used in production systems ranging from Windows and Linux to Python and Firefox. Our dataset includes around 32K top-level F* definitions, each representing a type-directed program and proof synthesis problem producing a definition given a formal specification expressed as an F* type. We provide a program fragment checker that queries F* to check the correctness of candidate solutions. We also report on an extended version of our dataset containing a total of 940K lines of programs and proofs, with a total of 54k top-level F* definitions. We believe this is the largest corpus of SMT-assisted program proofs coupled with a reproducible program-fragment checker. Grounded in this dataset, we investigate the use of AI to synthesize programs and their proofs in F*, with promising results. Our main finding in that the performance of fine-tuned smaller language models (such as Phi-2 or StarCoder) compare favorably with large language models (such as GPT-4), at a much lower computational cost. We also identify various type-based retrieval augmentation techniques and find that they boost performance significantly. With detailed error analysis and case studies, we identify potential strengths and weaknesses of models and techniques and suggest directions for future improvements.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# 大規模言語モデルのための因果説明可能なガードレール

A Causal Explainable Guardrails for Large Language Models ( http://arxiv.org/abs/2405.04160v2 )

ライセンス: Link先を確認
Zhixuan Chu, Yan Wang, Longfei Li, Zhibo Wang, Zhan Qin, Kui Ren, (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。 LLMを望ましい属性にステアリングするための既存の方法は、しばしばバイアスのない表現を仮定し、ステアリングプロンプトのみに依存する。 しかし、事前学習から学んだ表現は、ステアリングプロセスに影響を与える意味バイアスを導入し、最適以下の結果をもたらす。 因果解析と逆学習を取り入れた新しいフレームワーク LLMGuardrail を提案する。 LLMGuardrailは、バイアスの相反する効果を体系的に識別し、ブロックし、バイアスのないステアリング表現の抽出を可能にする。 さらに、生成した出力と所望の方向との整合性に関する洞察を提供する説明可能なコンポーネントも含まれている。 実験では、LLMを所望の属性に向けて操る上で、LLMGuardrailの有効性を実証し、バイアスを緩和する。 我々の研究は、望ましい属性に適合する安全で信頼性の高いLCMの開発に寄与します。

Large Language Models (LLMs) have shown impressive performance in natural language tasks, but their outputs can exhibit undesirable attributes or biases. Existing methods for steering LLMs toward desired attributes often assume unbiased representations and rely solely on steering prompts. However, the representations learned from pre-training can introduce semantic biases that influence the steering process, leading to suboptimal results. We propose LLMGuardrail, a novel framework that incorporates causal analysis and adversarial learning to obtain unbiased steering representations in LLMs. LLMGuardrail systematically identifies and blocks the confounding effects of biases, enabling the extraction of unbiased steering representations. Additionally, it includes an explainable component that provides insights into the alignment between the generated output and the desired direction. Experiments demonstrate LLMGuardrail's effectiveness in steering LLMs toward desired attributes while mitigating biases. Our work contributes to the development of safe and reliable LLMs that align with desired attributes.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# コンテンツ適応型ニューラルビデオ圧縮のためのグループ認識パラメータ効率向上

Group-aware Parameter-efficient Updating for Content-Adaptive Neural Video Compression ( http://arxiv.org/abs/2405.04274v2 )

ライセンス: Link先を確認
Zhenghao Chen, Luping Zhou, Zhihao Hu, Dong Xu, (参考訳) コンテンツ適応圧縮は、各種コンテンツに対する事前学習されたニューラルコーデックの適応性を高めるために重要である。 これらの手法は、ニューラル画像圧縮(NIC)において非常に実用的だが、そのニューラルビデオ圧縮(NVC)への応用は、1)ビデオ圧縮は時間的冗長性に大きく依存しているため、時間とともに蓄積される重大なエラーを1つか数フレームだけ更新することができる。 以上の課題に対処するため,我々は,GPU (Group-aware Parameter-Efficient Updating) と呼ばれるコンテンツ適応型NVC技術を開発した。 当初、エラーの蓄積を最小限に抑えるために、エンコーダパラメータを更新するためのグループ対応アプローチを採用しました。 これには、パッチベースのグループ・オブ・ピクチャーズ(GoP)トレーニング戦略を採用して、ビデオをパッチベースのGoPに分割する。 次に,複数の軽量アダプタをシリアル構成と並列構成の両方で符号化プロセスの各符号化コンポーネントに統合し,パラメータ効率の高いデルタチューニング戦略を提案する。 このようなアーキテクチャに依存しないモジュールは、大きなパラメータでコンポーネントを刺激し、更新コストとエンコーディング時間の両方を削減する。 我々は最新のNVCフレームワークにGPUを組み込んで総合的な実験を行い、4つのビデオベンチマークで優れた圧縮効率と1つの医用画像ベンチマークの適応性を示した。

Content-adaptive compression is crucial for enhancing the adaptability of the pre-trained neural codec for various contents. Although these methods have been very practical in neural image compression (NIC), their application in neural video compression (NVC) is still limited due to two main aspects: 1), video compression relies heavily on temporal redundancy, therefore updating just one or a few frames can lead to significant errors accumulating over time; 2), NVC frameworks are generally more complex, with many large components that are not easy to update quickly during encoding. To address the previously mentioned challenges, we have developed a content-adaptive NVC technique called Group-aware Parameter-Efficient Updating (GPU). Initially, to minimize error accumulation, we adopt a group-aware approach for updating encoder parameters. This involves adopting a patch-based Group of Pictures (GoP) training strategy to segment a video into patch-based GoPs, which will be updated to facilitate a globally optimized domain-transferable solution. Subsequently, we introduce a parameter-efficient delta-tuning strategy, which is achieved by integrating several light-weight adapters into each coding component of the encoding process by both serial and parallel configuration. Such architecture-agnostic modules stimulate the components with large parameters, thereby reducing both the update cost and the encoding time. We incorporate our GPU into the latest NVC framework and conduct comprehensive experiments, whose results showcase outstanding video compression efficiency across four video benchmarks and adaptability of one medical image benchmark.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# 音声処理のためのBEST-RQのオープン実装と検討

Open Implementation and Study of BEST-RQ for Speech Processing ( http://arxiv.org/abs/2405.04296v2 )

ライセンス: Link先を確認
Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève, (参考訳) 自己監督学習(SSL)は、様々な音声タスクにおいて有用であることが証明されている。 しかし、これらの手法は一般にデータ、メモリ、計算資源の点で非常に要求される。 BERT-based Speech pre-Training with Random-Projection Quantizer (BEST-RQ) は、自動音声認識(ASR)において、wav2vec 2.0のような他のSSLメソッドよりもシンプルでありながら、優れた性能を示すSSLメソッドである。 BEST-RQの優れたパフォーマンスにもかかわらず、事前トレーニングで使用されるGPU/TPU時間の量など、オリジナルの論文には詳細が欠けている。 さらに、BEST-RQは、ASRや音声翻訳以外の下流タスクでは評価されていない。 本稿では,ランダム射影量化器の再実装について述べるとともに,4つの下流タスクにおけるwav2vec 2.0との比較による予備的検討を行う。 実装の詳細と相違について論じる。 ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。

Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. BERT-based Speech pre-Training with Random-projection Quantizer (BEST-RQ), is an SSL method that has shown great performance on Automatic Speech Recognition (ASR) while being simpler than other SSL methods, such as wav2vec 2.0. Despite BEST-RQ's great performance, details are lacking in the original paper, such as the amount of GPU/TPU hours used in pre-training, and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR and speech translation. In this work, we describe a re-implementation of a Random-projection quantizer and perform a preliminary study with a comparison to wav2vec 2.0 on four downstream tasks. We discuss the details and differences of our implementation. We show that a random projection quantizer can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# 言語モデルにおける文字レベルの逆攻撃の再検討

Revisiting Character-level Adversarial Attacks for Language Models ( http://arxiv.org/abs/2405.04346v2 )

ライセンス: Link先を確認
Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, (参考訳) 自然言語処理における敵対的攻撃は、文字やトークンのレベルに摂動を適用します。 勾配に基づく手法の使用で注目されるトークンレベルの攻撃は、文のセマンティクスの変更の影響を受けやすいため、無効な敵の例に繋がる。 文字レベルの攻撃はセマンティクスを容易に維持するが、一般的な勾配に基づく手法を採用できないため注意が低く、防御が容易であると考えられている。 これらの信念に則り、高い攻撃成功率(ASR)を達成できる効率的なクエリベースの敵攻撃であるCharmerを導入し、非常に類似した敵の例を生成する。 提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。 具体的には、SST-2のBERTでは、CharmerはASRを4.84%で改善し、USEは8%で以前の技術と類似している。 我々の実装はhttps://github.com/LIONS-EPFL/Charmer.comで利用可能です。

Adversarial attacks in Natural Language Processing apply perturbations in the character or token levels. Token-level attacks, gaining prominence for their use of gradient-based methods, are susceptible to altering sentence semantics, leading to invalid adversarial examples. While character-level attacks easily maintain semantics, they have received less attention as they cannot easily adopt popular gradient-based methods, and are thought to be easy to defend. Challenging these beliefs, we introduce Charmer, an efficient query-based adversarial attack capable of achieving high attack success rate (ASR) while generating highly similar adversarial examples. Our method successfully targets both small (BERT) and large (Llama 2) models. Specifically, on BERT with SST-2, Charmer improves the ASR in 4.84% points and the USE similarity in 8% points with respect to the previous art. Our implementation is available in https://github.com/LIONS-EPFL/Charmer.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-04
# RMT-BVQA:リカレントメモリ変換器による高画質化のためのブラインド映像品質評価

RMT-BVQA: Recurrent Memory Transformer-based Blind Video Quality Assessment for Enhanced Video Content ( http://arxiv.org/abs/2405.08621v3 )

ライセンス: Link先を確認
Tianhao Peng, Chen Feng, Duolikun Danier, Fan Zhang, Benoit Vallade, Alex Mackin, David Bull, (参考訳) 近年のディープラーニングの進歩により、ビデオ品質の向上、視覚的アーティファクトの削減、知覚的品質の向上など、数多くのアルゴリズムが開発されている。 しかし, コンテントの品質評価についてはほとんど研究されていない - 圧縮アプリケーション用に設計された品質指標に基づいて, エンハンスメント手法の評価を行う場合が多い。 本稿では,映像コンテンツの改良を目的とした新しいブラインドディープ・ビデオ品質評価手法を提案する。 新たなRecurrent Memory Transformer (RMT) ベースのネットワークアーキテクチャを用いて,13Kトレーニングパッチと拡張コンテンツを備えた新しいデータベースをベースとした,コンテンツ品質に配慮したコントラスト学習戦略を通じて最適化されたビデオ品質表現を実現する。 抽出された品質表現は線形回帰によって合成され、ビデオレベルの品質指標を生成する。 提案手法であるRTT-BVQAは,VDPVE(VQA Dataset for Perceptual Video Enhancement)データベース上で5倍のクロスバリデーションによって評価されている。 その結果、既存の10の非参照品質指標と比較すると、相関性能が優れていることがわかった。

With recent advances in deep learning, numerous algorithms have been developed to enhance video quality, reduce visual artifacts, and improve perceptual quality. However, little research has been reported on the quality assessment of enhanced content - the evaluation of enhancement methods is often based on quality metrics that were designed for compression applications. In this paper, we propose a novel blind deep video quality assessment (VQA) method specifically for enhanced video content. It employs a new Recurrent Memory Transformer (RMT) based network architecture to obtain video quality representations, which is optimized through a novel content-quality-aware contrastive learning strategy based on a new database containing 13K training patches with enhanced content. The extracted quality representations are then combined through linear regression to generate video-level quality indices. The proposed method, RMT-BVQA, has been evaluated on the VDPVE (VQA Dataset for Perceptual Video Enhancement) database through a five-fold cross validation. The results show its superior correlation performance when compared to ten existing no-reference quality metrics.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 人工知能を用いた睡眠ステージ分類と睡眠障害検出に関するシステムレビュー

A Systematic Review on Sleep Stage Classification and Sleep Disorder Detection Using Artificial Intelligence ( http://arxiv.org/abs/2405.11008v2 )

ライセンス: Link先を確認
Tayab Uddin Wara, Ababil Hossain Fahad, Adri Shankar Das, Md. Mehedi Hasan Shawon, (参考訳) 睡眠は人々の身体的および精神的な健康にとって不可欠であり、音波睡眠は日々の活動に集中するのに有効である。 そのため、睡眠パターンや睡眠障害を含む睡眠研究は、個人の健康状態に関する知識を高めるために不可欠である。 本研究の目的は、近年の文献を包括的かつ体系的にレビューし、AIを用いた「睡眠段階分類」と「睡眠障害検出」の研究を含む睡眠研究における様々なアプローチとその結果を分析することである。 このレビューでは、最初183の論文が異なる雑誌から選ばれ、そのうち80の論文が2016年から2023年まで、明示的なレビューのために登録された。 脳波は睡眠ステージングや障害研究に最もよく用いられる身体パラメータである(研究のほぼ29%は脳活動信号のみを使用し、77%は他の信号と組み合わせている)。 畳み込みニューラルネットワーク(CNN)は、34の異なる人工知能モデルの中で最も広く使われているもので、27%である。 その他のモデルには、長寿命メモリ(LSTM)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、リカレントニューラルネットワーク(RNN)があり、これは11%、6%、6%、5%の順に構成されていた。 パフォーマンス指標では、最大83.75%のケース、F1スコアの45%、Kappaスコアの36.25%、感度の31.25%、およびその他の指標の30%のケースで精度が広く使用された。 この記事では、医師や研究者が、睡眠研究へのAIの貢献と、彼らの意図した仕事の実現可能性を得るのに役立つだろう。

Sleep is vital for people's physical and mental health, and sound sleep can help them focus on daily activities. Therefore, a sleep study that includes sleep patterns and sleep disorders is crucial to enhancing our knowledge about individuals' health status. This study aims to provide a comprehensive, systematic review of the recent literature to analyze the different approaches and their outcomes in sleep studies, which includes works on "sleep stages classification" and "sleep disorder detection" using AI. In this review, 183 articles were initially selected from different journals, among which 80 records were enlisted for explicit review, ranging from 2016 to 2023. Brain waves were the most commonly employed body parameters for sleep staging and disorder studies (almost 29% of the research used brain activity signals exclusively, and 77% combined with the other signals). The convolutional neural network (CNN), the most widely used of the 34 distinct artificial intelligence models, comprised 27%. The other models included the long short-term memory (LSTM), support vector machine (SVM), random forest (RF), and recurrent neural network (RNN), which consisted of 11%, 6%, 6%, and 5% sequentially. For performance metrics, accuracy was widely used for a maximum of 83.75% of the cases, the F1 score of 45%, Kappa of 36.25%, Sensitivity of 31.25%, and Specificity of 30% of cases, along with the other metrics. This article would help physicians and researchers get the gist of AI's contribution to sleep studies and the feasibility of their intended work.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# NetMamba: 事前トレーニングによるネットワークトラフィックの効率的な分類

NetMamba: Efficient Network Traffic Classification via Pre-training Unidirectional Mamba ( http://arxiv.org/abs/2405.11449v3 )

ライセンス: Link先を確認
Tongze Wang, Xiaohui Xie, Wenduo Wang, Chuyi Wang, Youjian Zhao, Yong Cui, (参考訳) ネットワークトラフィックの分類は、サービス品質の向上、ネットワーク管理の効率化、サイバーセキュリティの強化を目的とした重要な研究分野である。 送信暗号化技術の複雑さの増大に対処するため、様々な機械学習とディープラーニング手法が提案されている。 しかし、既存のアプローチは2つの大きな課題に直面している。 まず、広く使われているTransformerアーキテクチャの2次複雑さのため、モデル非効率に苦しむ。 第二に、不要なバイアスを保ちながら重要なバイト情報を破棄するため、トラフィックの表現が不十分である。 これらの課題に対処するために,包括的トラフィック表現方式を備えた効率的な線形時間状態空間モデルであるNetMambaを提案する。 効率問題に対処するために、トランスフォーマーの代わりに、ネットワークフィールド用に特別に選択され改良された一方向のMambaアーキテクチャを採用する。 さらに,バイアス情報を取り除き,大量のトラフィックデータから有効な情報を抽出するトラフィック表現方式を設計する。 3つの主要な分類タスクを含む6つの公開データセットの評価実験は、最先端のベースラインと比較して、NetMambaの優れた分類性能を示している。 すべてのタスクにおいて、ほぼ99%(一部は99%)の精度を達成する。 さらに、NetMambaは優れた効率を示し、最大60倍の推論速度を向上し、メモリ使用量も相容れないほど低い。 さらに、NetMambaは、ラベル付きデータの少ない分類性能で、より優れた数ショット学習能力を示す。 私たちの知る限りでは、NetMambaはネットワーク用にMambaアーキテクチャをカスタマイズする最初のモデルです。

Network traffic classification is a crucial research area aiming to enhance service quality, streamline network management, and bolster cybersecurity. To address the growing complexity of transmission encryption techniques, various machine learning and deep learning methods have been proposed. However, existing approaches face two main challenges. Firstly, they struggle with model inefficiency due to the quadratic complexity of the widely used Transformer architecture. Secondly, they suffer from inadequate traffic representation because of discarding important byte information while retaining unwanted biases. To address these challenges, we propose NetMamba, an efficient linear-time state space model equipped with a comprehensive traffic representation scheme. We adopt a specially selected and improved unidirectional Mamba architecture for the networking field, instead of the Transformer, to address efficiency issues. In addition, we design a traffic representation scheme to extract valid information from massive traffic data while removing biased information. Evaluation experiments on six public datasets encompassing three main classification tasks showcase NetMamba's superior classification performance compared to state-of-the-art baselines. It achieves an accuracy rate of nearly 99% (some over 99%) in all tasks. Additionally, NetMamba demonstrates excellent efficiency, improving inference speed by up to 60 times while maintaining comparably low memory usage. Furthermore, NetMamba exhibits superior few-shot learning abilities, achieving better classification performance with fewer labeled data. To the best of our knowledge, NetMamba is the first model to tailor the Mamba architecture for networking.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# Nickel and Diming Your GAN: 知識蒸留によるGAN効率向上のためのデュアルメソッドアプローチ

Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation ( http://arxiv.org/abs/2405.11614v2 )

ライセンス: Link先を確認
Sangyeop Yeo, Yoojin Jang, Jaejun Yoo, (参考訳) 本稿では,資源制約された環境におけるGAN(Generative Adversarial Network)を圧縮する上での課題として,DiME(Dis Distribution Matching for Efficient compression)とNICKEL(Network Interactive Compression)の2つの新しい手法を提案する。 DiMEは、効率的な分布マッチングのための埋め込みカーネルとして基礎モデルを採用し、効率的な知識蒸留を促進するために最大平均誤差を活用している。 NICKELは、学生ジェネレータと識別器との通信を強化するインタラクティブ圧縮方式を採用し、バランスよく安定した圧縮プロセスを実現する。 FFHQデータセットによるStyleGAN2アーキテクチャの包括的な評価は、NICKELとDiMEがそれぞれ95.73%と98.92%の圧縮速度で10.45と15.93のFIDスコアを達成し、我々のアプローチの有効性を示している。 本手法は, 圧縮率99.69%でも生成品質を保ち, 従来の最先端性能を大きく上回っている。 これらの知見は,GANの計算要求を大幅に低減する方法論の能力を示すだけでなく,限られたリソースで高品質なGANモデルを配置する方法も示している。 私たちのコードはまもなくリリースされるでしょう。

In this paper, we address the challenge of compressing generative adversarial networks (GANs) for deployment in resource-constrained environments by proposing two novel methodologies: Distribution Matching for Efficient compression (DiME) and Network Interactive Compression via Knowledge Exchange and Learning (NICKEL). DiME employs foundation models as embedding kernels for efficient distribution matching, leveraging maximum mean discrepancy to facilitate effective knowledge distillation. Simultaneously, NICKEL employs an interactive compression method that enhances the communication between the student generator and discriminator, achieving a balanced and stable compression process. Our comprehensive evaluation on the StyleGAN2 architecture with the FFHQ dataset shows the effectiveness of our approach, with NICKEL & DiME achieving FID scores of 10.45 and 15.93 at compression rates of 95.73% and 98.92%, respectively. Remarkably, our methods sustain generative quality even at an extreme compression rate of 99.69%, surpassing the previous state-of-the-art performance by a large margin. These findings not only demonstrate our methodologies' capacity to significantly lower GANs' computational demands but also pave the way for deploying high-quality GAN models in settings with limited resources. Our code will be released soon.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 証明できない信頼:教育技術習得実践におけるプライバシーとセキュリティのハードル

Trust, Because You Can't Verify:Privacy and Security Hurdles in Education Technology Acquisition Practices ( http://arxiv.org/abs/2405.11712v2 )

ライセンス: Link先を確認
Easton Kelso, Ananta Soneji, Sazzadur Rahaman, Yan Soshitaishvili, Rakibul Hasan, (参考訳) 高等教育機関(HEI)では教育技術(EdTech)の展望が急速に拡大している。 この成長は膨大な複雑さをもたらす。 これらのツールによって収集された広範囲なデータを保護することは、データ漏洩や誤用がデータ被写体、特にこれらのツールの使用を強制される学生に対して、セキュリティとプライバシーを脅かす可能性があるため、HEIにとって不可欠である。 これにより、HEIとEdTechベンダーのダイナミクスの深い理解が促される。 このギャップに対処するため,EdTechの指導的役割を7つのHEIで担っている13人の参加者を対象に,半構造化面接を行った。 本研究は,HEIにおけるEdTechの買収プロセス,そのプロセス全体にわたるセキュリティとプライバシの問題,サービス契約における適切な保護機構を確立する上でのHEI職員の問題点,システムと非対称性の視認性の欠如などを明らかにする。 現状に関する一定の考察を議論し、状況を改善するため、HEI、研究者、規制機関の勧告を締めくくる。

The education technology (EdTech) landscape is expanding rapidly in higher education institutes (HEIs). This growth brings enormous complexity. Protecting the extensive data collected by these tools is crucial for HEIs as data breaches and misuses can have dire security and privacy consequences on the data subjects, particularly students, who are often compelled to use these tools. This urges an in-depth understanding of HEI and EdTech vendor dynamics, which is largely understudied. To address this gap, we conducted a semi-structured interview study with 13 participants who are in EdTech leadership roles at seven HEIs. Our study uncovers the EdTech acquisition process in the HEI context, the consideration of security and privacy issues throughout that process, the pain points of HEI personnel in establishing adequate protection mechanisms in service contracts, and their struggle in holding vendors accountable due to a lack of visibility into their system and power-asymmetry, among other reasons. We discuss certain observations about the status quo and conclude with recommendations for HEIs, researchers, and regulatory bodies to improve the situation.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 宇宙論的可能性に基づく推論の未来:加速された高次元パラメータ推定とモデル比較

The future of cosmological likelihood-based inference: accelerated high-dimensional parameter estimation and model comparison ( http://arxiv.org/abs/2405.12965v2 )

ライセンス: Link先を確認
Davide Piras, Alicja Polanska, Alessio Spurio Mancini, Matthew A. Price, Jason D. McEwen, (参考訳) 我々は,最近の機械学習とその基盤技術を活用し,宇宙論的な可能性に基づく推論の新しいパラダイムを提唱し,ベイズ的推論を高次元設定で加速する。 特に私たちは (i)エミュレーション、例えばCosmoPower-JAXを模倣する機械学習モデルを訓練すること。 (ii)微分可能および確率的プログラミング、eg JAXおよびNumPyro 三 スケーラブルマルコフ連鎖モンテカルロ(MCMC)の勾配を利用したサンプリング技術、例えばハミルトニアンモンテカルロ (iv) ベイズ的証拠を純粋に後部サンプルから計算する疎結合でスケーラブルなベイズ的モデル選択手法(例えば、ハーモニックで実装された学習調和平均)。 このパラダイムにより、パラメータ推定とモデル選択の両方を含むベイズ解析を、従来のアプローチのごく一部で行うことができる。 まず,37次元および39次元パラメータ空間におけるStage IVサーベイにおけるシミュレーション宇宙せん断解析へのこのパラダイムの適用を,$\Lambda$CDMと動的ダークエネルギーモデル(w_0w_a$CDM)と比較した。 我々は,48CPUコアで8ヶ月の計算コストを2日間のGPUで2日間に削減しつつ,従来のネストサンプリング手法で計算したデータと良好な一致を示した後部輪郭とエビデンスを復元する。 第2に,3つのシミュレーションされた次世代サーベイ間の共同解析を行い,それぞれが3x2pt解析を行い,その結果,157次元および159次元のパラメータ空間が得られた。 標準的なネストサンプリング技術はこの高次元環境では実現不可能であり、48のCPUコア上での12年間の計算時間を必要とするが、提案手法は24のGPU上で8日間の計算時間しか必要としない。 私たちの分析で使用されるパッケージはすべて公開されています。

We advocate for a new paradigm of cosmological likelihood-based inference, leveraging recent developments in machine learning and its underlying technology, to accelerate Bayesian inference in high-dimensional settings. Specifically, we combine (i) emulation, where a machine learning model is trained to mimic cosmological observables, e.g. CosmoPower-JAX; (ii) differentiable and probabilistic programming, e.g. JAX and NumPyro, respectively; (iii) scalable Markov chain Monte Carlo (MCMC) sampling techniques that exploit gradients, e.g. Hamiltonian Monte Carlo; and (iv) decoupled and scalable Bayesian model selection techniques that compute the Bayesian evidence purely from posterior samples, e.g. the learned harmonic mean implemented in harmonic. This paradigm allows us to carry out a complete Bayesian analysis, including both parameter estimation and model selection, in a fraction of the time of traditional approaches. First, we demonstrate the application of this paradigm on a simulated cosmic shear analysis for a Stage IV survey in 37- and 39-dimensional parameter spaces, comparing $\Lambda$CDM and a dynamical dark energy model ($w_0w_a$CDM). We recover posterior contours and evidence estimates that are in excellent agreement with those computed by the traditional nested sampling approach while reducing the computational cost from 8 months on 48 CPU cores to 2 days on 12 GPUs. Second, we consider a joint analysis between three simulated next-generation surveys, each performing a 3x2pt analysis, resulting in 157- and 159-dimensional parameter spaces. Standard nested sampling techniques are simply unlikely to be feasible in this high-dimensional setting, requiring a projected 12 years of compute time on 48 CPU cores; on the other hand, the proposed approach only requires 8 days of compute time on 24 GPUs. All packages used in our analyses are publicly available.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 動的ディジタル双対における説明可能な決定のための大規模言語モデル

Large Language Models for Explainable Decisions in Dynamic Digital Twins ( http://arxiv.org/abs/2405.14411v2 )

ライセンス: Link先を確認
Nan Zhang, Christian Vergara-Marcillo, Georgios Diamantopoulos, Jingran Shen, Nikos Tziritas, Rami Bahsoon, Georgios Theodoropoulos, (参考訳) 動的データ駆動型Digital Twins(DDT)は、インフォームドな意思決定を可能にし、基盤となるシステムのための最適化プラットフォームを提供する。 動的データ駆動アプリケーションシステム(DDDAS)の原則を活用することで、DDTはフィードバックループやモデル更新、自律的なシステムを含む意思決定のための計算モダリティを定式化することができる。 しかし、自律的な意思決定を理解するには、しばしば技術とドメイン固有の知識が必要である。 本稿では、大規模言語モデル(LLM)を用いてDDTの説明可能性プラットフォームを提供し、ドメイン固有の知識ベースを活用して、システムの意思決定に関する自然言語説明を生成する。 スマート農業の事例研究が紹介されている。

Dynamic data-driven Digital Twins (DDTs) can enable informed decision-making and provide an optimisation platform for the underlying system. By leveraging principles of Dynamic Data-Driven Applications Systems (DDDAS), DDTs can formulate computational modalities for feedback loops, model updates and decision-making, including autonomous ones. However, understanding autonomous decision-making often requires technical and domain-specific knowledge. This paper explores using large language models (LLMs) to provide an explainability platform for DDTs, generating natural language explanations of the system's decision-making by leveraging domain-specific knowledge bases. A case study from smart agriculture is presented.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# ベータ崩壊と関連する過程における角運動量保存のパズルを理解する

Understanding the puzzle of angular momentum conservation in beta decay and related processes ( http://arxiv.org/abs/2405.15011v2 )

ライセンス: Link先を確認
Gordon Baym, Jen-Chieh Peng, C. J. Pethick, (参考訳) 電弱相互作用過程において角運動量がどのように保存されているかという疑問を提起する。 この問題を最小限の数学で導入するために、まず、散乱光子が原光子とは異なるスピン方向を持つ原子による円偏光子の弾性散乱において同じ問題を提起し、その中心電位による全相対論的スピン-1/2粒子の散乱における存在に注意する。 次に、核上のニュートリノの捕獲後に電子が放出される逆ベータ崩壊を考える。 入射ニュートリノと最終電子スピンはどちらもモータに対して反平行であるが、最終スピンはニュートリノと異なる方向、すなわち角運動量の変化である。 しかし、最終粒子の測定の前には、すべての場合において角運動量(英語版)は実際に保存されるが、角運動量の明らかな非保存は、測定装置が最初に明確に定義された角運動量を持たないが、外界で局所化されている量子測定過程において生じる。 我々は、この議論を巨大なニュートリノと電子に一般化し、核ベータ崩壊と電子-陽電子消滅過程を同一のレンズで調べ、これらの反応における角およびヘリシティ分布の物理的に透明な導出を可能にする。

We ask the question of how angular momentum is conserved in electroweak interaction processes. To introduce the problem with a minimum of mathematics, we first raise the same issue in elastic scattering of a circularly polarized photon by an atom, where the scattered photon has a different spin direction than the original photon, and note its presence in scattering of a fully relativistic spin-1/2 particle by a central potential. We then consider inverse beta decay in which an electron is emitted following the capture of a neutrino on a nucleus. While both the incident neutrino and final electron spins are antiparallel to their momenta, the final spin is in a different direction than that of the neutrino -- an apparent change of angular momentum. However, prior to measurement of the final particle, in all these cases angular momentum is indeed conserved, The apparent non-conservation of angular momentum arises in the quantum measurement process in which the measuring apparatus does not have an initially well-defined angular momentum, but is localized in the outside world. We generalize the discussion to massive neutrinos and electrons, and examine nuclear beta decay and electron-positron annihilation processes through the same lens, enabling physically transparent derivations of angular and helicity distributions in these reactions.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 機械学習回帰モデルの体系的バイアスとその補正:イメージングに基づく脳年齢予測への応用

A Systematic Bias of Machine Learning Regression Models and Its Correction: an Application to Imaging-based Brain Age Prediction ( http://arxiv.org/abs/2405.15950v2 )

ライセンス: Link先を確認
Hwiyoung Lee, Shuo Chen, (参考訳) 継続的成果のための機械学習モデルは、しばしば体系的にバイアスのある予測をもたらし、特に平均から大きく逸脱する値に対してである。 特に、大評価結果の予測は負のバイアス(実際の値の過小評価)を受ける傾向があり、小評価結果の予測は正のバイアス(実際の値の過小評価)を受ける傾向にある。 この線形中心傾向のバイアスを「機械学習回帰のシステムバイアス」と呼ぶ。 本稿では、まず、この体系的予測バイアスが、様々な機械学習回帰モデルにまたがって持続することを示し、その理論的基盤を掘り下げる。 この問題に対処するために、このバイアスを補正し、計算効率の良い実装アルゴリズムを開発するために、一般化された制約付き最適化手法を提案する。 シミュレーションの結果,提案手法は予測結果のバイアスを効果的に除去することを示した。 提案手法を神経画像データを用いた脳年齢予測に適用する。 競合する機械学習回帰モデルと比較して、脳年齢計算における「機械学習回帰の体系的バイアス」の長年の問題に効果的に対処し、脳年齢の偏りのない予測を導出する。

Machine learning models for continuous outcomes often yield systematically biased predictions, particularly for values that largely deviate from the mean. Specifically, predictions for large-valued outcomes tend to be negatively biased (underestimating actual values), while those for small-valued outcomes are positively biased (overestimating actual values). We refer to this linear central tendency warped bias as the "systematic bias of machine learning regression". In this paper, we first demonstrate that this systematic prediction bias persists across various machine learning regression models, and then delve into its theoretical underpinnings. To address this issue, we propose a general constrained optimization approach designed to correct this bias and develop computationally efficient implementation algorithms. Simulation results indicate that our correction method effectively eliminates the bias from the predicted outcomes. We apply the proposed approach to the prediction of brain age using neuroimaging data. In comparison to competing machine learning regression models, our method effectively addresses the longstanding issue of "systematic bias of machine learning regression" in neuroimaging-based brain age calculation, yielding unbiased predictions of brain age.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-04
# 畳み込みL2L流:畳み込み正規化流を用いた高粒度キャロリメータにおける高精度ショーアの生成

Convolutional L2LFlows: Generating Accurate Showers in Highly Granular Calorimeters Using Convolutional Normalizing Flows ( http://arxiv.org/abs/2405.20407v3 )

ライセンス: Link先を確認
Thorsten Buss, Frank Gaede, Gregor Kasieczka, Claudius Krause, David Shih, (参考訳) 規則に基づくシミュレーションの計算効率の良い代替品として生成代理モデルを構築しようとする中で、生成されたサンプルの品質は依然として重要なフロンティアである。 これまでのところ、最も忠実なモデルには正規化フローがある。 しかし、そのようなモデルにおける潜在空間はデータ空間と同じ次元を持つ必要があるため、正規化フローを高次元データセットにスケールアップすることは容易ではない。 以前のL2LFlowsアプローチでは、この問題を回避するために、一連の別個の正規化フローと条件付ステップのシーケンスをうまく利用していた。 本研究では、L2L Flowsを拡張して、横方向の9倍のプロファイルを持つシャワーをシミュレートする。 これを実現するために、畳み込み層とU-Net型接続を導入し、マスク付き自己回帰流から結合層へ移動し、IDD電磁カルロメータおよび公共カルロチャレンジデータセットのデータセット3でシャワーのモデリングに成功したことを実証する。

In the quest to build generative surrogate models as computationally efficient alternatives to rule-based simulations, the quality of the generated samples remains a crucial frontier. So far, normalizing flows have been among the models with the best fidelity. However, as the latent space in such models is required to have the same dimensionality as the data space, scaling up normalizing flows to high dimensional datasets is not straightforward. The prior L2LFlows approach successfully used a series of separate normalizing flows and sequence of conditioning steps to circumvent this problem. In this work, we extend L2LFlows to simulate showers with a 9-times larger profile in the lateral direction. To achieve this, we introduce convolutional layers and U-Net-type connections, move from masked autoregressive flows to coupling layers, and demonstrate the successful modelling of showers in the ILD Electromagnetic Calorimeter as well as Dataset 3 from the public CaloChallenge dataset.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-04
# 単語埋め込みを用いたアナロジー課題による薬物・遺伝子関係の予測

Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings ( http://arxiv.org/abs/2406.00984v2 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Ryoma Hashimoto, Kiwamu Arakane, Ken Murakami, Shou Soeda, Momose Oyama, Mariko Okada, Hidetoshi Shimodaira, (参考訳) 自然言語処理(NLP)は、テキスト中の単語が通常、埋め込みと呼ばれる特徴ベクトルに変換される幅広い分野で利用される。 BioConceptVecは生物学に適した埋め込みの具体例であり、スキップグラムのようなモデルを使用して約3000万のPubMed抽象化に基づいてトレーニングされている。 一般に、単語埋め込みは単純な算術演算によって類似タスクを解くことが知られている。 例えば、$\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$である。 本研究では,BioConceptVec の埋め込みと,PubMed の抽象化で訓練した埋め込みが,薬物遺伝子関係の情報を包含し,アナログ計算により薬剤の標的遺伝子を予測できることを実証した。 また, 生物学的経路を用いた薬物や遺伝子を分類することで, 性能が向上することを示した。 さらに,過去の既知の関係から派生したベクトルが,データセットの未知の将来の関係を年々予測できることを示す。 本手法は, 類似タスクをベクトル付加として実装することの単純さにもかかわらず, GPT-4のような大規模言語モデルに匹敵する性能を示し, 薬物遺伝子関係の予測を行った。

Natural language processing (NLP) is utilized in a wide range of fields, where words in text are typically transformed into feature vectors called embeddings. BioConceptVec is a specific example of embeddings tailored for biology, trained on approximately 30 million PubMed abstracts using models such as skip-gram. Generally, word embeddings are known to solve analogy tasks through simple vector arithmetic. For instance, $\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$. In this study, we demonstrate that BioConceptVec embeddings, along with our own embeddings trained on PubMed abstracts, contain information about drug-gene relations and can predict target genes from a given drug through analogy computations. We also show that categorizing drugs and genes using biological pathways improves performance. Furthermore, we illustrate that vectors derived from known relations in the past can predict unknown future relations in datasets divided by year. Despite the simplicity of implementing analogy tasks as vector additions, our approach demonstrated performance comparable to that of large language models such as GPT-4 in predicting drug-gene relations.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-04
# 自律型身体システムのための構造因果モデルの拡張

Extending Structural Causal Models for Autonomous Embodied Systems ( http://arxiv.org/abs/2406.01384v2 )

ライセンス: Link先を確認
Rhys Howard, Lars Kunze, (参考訳) 本研究は,自律型実施システムと因果推論の分離を橋渡しすることを目的としている。 自律的な体操システムは、ますます人間と相互作用し始めており、多くの場合、それらと相互作用する人々の身体的または精神的な健康にリスクをもたらす可能性がある。 一方、因果的モデルは、本質的に透明性と対照的な説明を提供する能力があるにもかかわらず、そのようなシステム内での使用は限られている。 そこで,我々はまず,自律型実施システムにおける構造因果モデルの統合を制限した課題を特定する。 次に、これらの課題に取り組むために、構造因果モデルフォーマリズムに対する理論的拡張をいくつか導入する。 これにより、これらのモデルがより高度なモジュール化とカプセル化を持つように拡張され、一定の空間時間因果モデル表現が提示される。 拡張そのものではないが、私たちが導入した拡張を通して、動的に変更可能な集合が、因果定常性の形式を維持しながら構造因果モデル内で捕捉できることが証明されている。 最後に、これらの拡張の応用を実証する2つのケーススタディアーキテクチャを紹介します。

In this work we aim to bridge the divide between autonomous embodied systems and causal reasoning. Autonomous embodied systems have come to increasingly interact with humans, and in many cases may pose risks to the physical or mental well-being of those they interact with. Meanwhile causal models, despite their inherent transparency and ability to offer contrastive explanations, have found limited usage within such systems. As such, we first identify the challenges that have limited the integration of structural causal models within autonomous embodied systems. We then introduce a number of theoretical extensions to the structural causal model formalism in order to tackle these challenges. This augments these models to possess greater levels of modularisation and encapsulation, as well presenting a constant space temporal causal model representation. While not an extension itself, we also prove through the extensions we have introduced that dynamically mutable sets can be captured within structural causal models while maintaining a form of causal stationarity. Finally we introduce two case study architectures demonstrating the application of these extensions along with a discussion of where these extensions could be utilised in future work.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-04
# 開非平衡量子系におけるMpemba効果

Mpemba effects in open nonequilibrium quantum systems ( http://arxiv.org/abs/2406.03521v3 )

ライセンス: Link先を確認
Andrea Nava, Reinhold Egger, (参考訳) いくつかの貯水池に結合した量子系を開放するために、古典的な熱的メンバ効果(初期のホット系は、冷たいものよりも最終平衡状態に速く緩和する)を一般化する。 一般に、2つの異なる種類の量子Mpemba効果が可能であることを示す。 それらは量子状態トモグラフィーによって区別される。 しかし、(型を決定することなしに)量子ムペンバ効果の存在は、電流やエネルギーのような単純な観測可能量を測定することで既に確立できる。 2つの金属鉛に結合した相互作用する2サイト北エフ模型の実験可能な場合の一般的な結果について述べる。

We generalize the classical thermal Mpemba effect (where an initially hot system relaxes faster to the final equilibrium state than a cold one) to open quantum systems coupled to several reservoirs. We show that, in general, two different types of quantum Mpemba effects are possible. They may be distinguished by quantum state tomography. However, the existence of a quantum Mpemba effect (without determining the type) can already be established by measuring simpler observables such as currents or energies. We illustrate our general results for the experimentally feasible case of an interacting two-site Kitaev model coupled to two metallic leads.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# クラス不均衡分子データに対するグラフベース双方向トランスフォーマー決定閾値調整アルゴリズム

Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data ( http://arxiv.org/abs/2406.06479v3 )

ライセンス: Link先を確認
Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei, (参考訳) 1つのクラスサイズが他のクラスよりもはるかに小さい不均衡なクラスサイズを持つデータセットは、病気の診断や薬物発見などの生物学的基盤を持つデータセットを含む多くのアプリケーションで頻繁に発生する。 そのため、様々なサイズのクラスのデータ要素を識別することが極めて重要である。 それでも、多くのデータ分類手順は、未表現のクラスに属する要素を検出するのに失敗するので、不均衡なデータセットではうまく機能しない。 本稿では,Merriman-Bence-Osher(MBO)アプローチと双方向トランスフォーマーを併用したBTDT-MBOアルゴリズムを提案する。 提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマー手法を用いる。 さらに,修正MBOアルゴリズムが動作する類似性グラフベースのフレームワークの重み関数として距離相関を実装した。 提案手法は6つの分子データセットを用いて検証し,他の手法と比較した。 計算実験により,高等級不均衡比の場合においても,提案手法は競合手法よりも優れていることが示された。

Data sets with imbalanced class sizes, where one class size is much smaller than that of others, occur exceedingly often in many applications, including those with biological foundations, such as disease diagnosis and drug discovery. Therefore, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to do so can result in heavy costs. Nonetheless, many data classification procedures do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this work, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) approaches and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification tasks on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed technique not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer procedure based on an attention mechanism for self-supervised learning. In addition, the model implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed method is validated using six molecular data sets and compared to other related techniques. The computational experiments show that the proposed technique is superior to competing approaches even in the case of a high class imbalance ratio.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# OpenVLA: オープンソースのビジョンランゲージ・アクションモデル

OpenVLA: An Open-Source Vision-Language-Action Model ( http://arxiv.org/abs/2406.09246v2 )

ライセンス: Link先を確認
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn, (参考訳) インターネット規模の視覚言語データと多様なロボットデモの組み合わせで事前訓練された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性がある。 しかし、ロボット工学にVLAを広く採用することは困難である。 1)既存のVLAは、ほとんど閉鎖されており、一般にはアクセスできない。 2) 以前の作業では、新しいタスクのVLAを効率的に微調整する方法を探索することができない。 これらの課題に対処するため、我々はOpenVLAを紹介した。OpenVLAは7BパラメータのオープンソースVLAで、現実世界の970kのロボットデモの多様なコレクションをトレーニングしている。 OpenVLAは、DINOv2とSigLIPの事前学習機能を融合したビジュアルエンコーダを備えたLlama 2言語モデルの上に構築されている。 追加のデータ多様性と新しいモデルコンポーネントの産物として、OpenVLAは一般的な操作の強力な結果を示し、RT-2-X(55B)のようなクローズドモデルよりも16.5%向上し、29のタスクで絶対的なタスク成功率と複数のロボットの実施率、パラメータが7倍少ない。 さらに、複数のオブジェクトと強力な言語接地能力を含むマルチタスク環境において、特に強力な一般化結果が得られ、拡散政策のような非スクラッチな模倣学習方法よりも20.4%向上することを示す。 また、計算効率についても検討し、別のコントリビューションとして、OpenVLAは最新の低ランク適応手法により、コンシューマGPU上で微調整が可能であり、ダウンストリームの成功率を損なうことなく、量子化によって効率的に機能することを示す。 最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットで大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchコードベースをリリースします。

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# エンド・ツー・エンドASRのためのバイトレベル表現の最適化

Optimizing Byte-level Representation for End-to-end ASR ( http://arxiv.org/abs/2406.09676v2 )

ライセンス: Link先を確認
Roger Hsiao, Liuhui Deng, Erik McDermott, Ruchir Travadi, Xiaodan Zhuang, (参考訳) 本稿では,エンドツーエンド自動音声認識(ASR)のためのバイトレベルの表現を最適化するための新しい手法を提案する。 バイトレベルの表現は、サポート対象言語の文字集合が大きい場合、大規模多言語ASRシステムでしばしば使用される。 バイトレベルの表現のコンパクトさと普遍性により、ASRモデルはより小さな出力語彙を使用することができ、柔軟性が向上する。 UTF-8は多言語ASRのバイトレベル表現として一般的に使用されるが、機械学習タスクを直接最適化するように設計されていない。 オートエンコーダとベクトル量子化を用いて、ASRのバイトレベルの表現を最適化し、精度を向上できることを示す。 提案するフレームワークは,異なるモーダルからの情報を組み込むことができ,誤り訂正機構を提供する。 この手法を用いて構築されたバイリンガル ASR モデルは,英語/マンダリン述語におけるUTF-8 表現を5% の誤差率で上回り得ることを示す。

We propose a novel approach to optimizing a byte-level representation for end-to-end automatic speech recognition (ASR). Byte-level representation is often used by large scale multilingual ASR systems when the character set of the supported languages is large. The compactness and universality of byte-level representation allow the ASR models to use smaller output vocabularies and therefore, provide more flexibility. UTF-8 is a commonly used byte-level representation for multilingual ASR, but it is not designed to optimize machine learning tasks directly. By using auto-encoder and vector quantization, we show that we can optimize a byte-level representation for ASR and achieve better accuracy. Our proposed framework can incorporate information from different modalities, and provides an error correction mechanism. In an English/Mandarin dictation task, we show that a bilingual ASR model built with this approach can outperform UTF-8 representation by 5% relative in error rate.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# HIRO:階層型情報検索最適化

HIRO: Hierarchical Information Retrieval Optimization ( http://arxiv.org/abs/2406.09979v2 )

ライセンス: Link先を確認
Krish Goel, Mahek Chandak, (参考訳) Retrieval-Augmented Generation (RAG)は、外部知識をLarge Language Models (LLM)に動的に統合することで、静的トレーニングデータセットの制限に対処することで、自然言語処理に革命をもたらした。 RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。 しかし、この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。 この文脈では,Depth-First Search(DFS)に基づく再帰的類似度スコア計算と分岐プルーニングを用いた新しいクエリ手法である階層情報検索最適化(HIRO)を導入する。 この方法は、情報損失を伴わずにLLMに配信されるコンテキストを一意に最小化し、過剰なデータの課題を効果的に管理する。 HIROの洗練されたアプローチは、NarrativeQAデータセットのパフォーマンスを10.85%改善することで検証されている。

Retrieval-Augmented Generation (RAG) has revolutionized natural language processing by dynamically integrating external knowledge into Large Language Models (LLMs), addressing their limitation of static training datasets. Recent implementations of RAG leverage hierarchical data structures, which organize documents at various levels of summarization and information density. This complexity, however, can cause LLMs to "choke" on information overload, necessitating more sophisticated querying mechanisms. In this context, we introduce Hierarchical Information Retrieval Optimization (HIRO), a novel querying approach that employs a Depth-First Search (DFS)-based recursive similarity score calculation and branch pruning. This method uniquely minimizes the context delivered to the LLM without informational loss, effectively managing the challenge of excessive data. HIRO's refined approach is validated by a 10.85% improvement in performance on the NarrativeQA dataset.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# BiKC:双方向ロボットマニピュレーションのためのキープレイスコンディション整合性ポリシー

BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation ( http://arxiv.org/abs/2406.10093v2 )

ライセンス: Link先を確認
Dongjie Yu, Hang Xu, Yizhou Chen, Yi Ren, Jia Pan, (参考訳) 双方向操作タスクは通常、2つのアーム間の効率的な相互作用を必要とする複数のステージを伴い、模倣学習システムにおいてステップワイドおよびステージワイドの課題を提起する。 具体的には、ひとつのステップの失敗と遅延が時間の経過とともにブロードキャストされ、各サブステージタスクの成功と効率が妨げられ、結果として全体のタスクパフォーマンスが損なわれる。 近年の研究では、特定の課題に対処する努力が続けられているが、推論速度の重要性を同時に強調しながら、双対タスクの多段階的な性質を明示的に考慮するアプローチはほとんどない。 本稿では,バイマニュアル操作に適したキーポーズ条件の整合性ポリシーを提案する。 階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。 予測キーは、軌道生成のためのガイダンスを提供するとともに、1つのサブステージタスクの完了を示す。 トラジェクトリジェネレータは、蒸留なしでスクラッチから訓練された一貫性モデルとして設計され、現在の観測と予測キーポジションを高速な推論速度で条件付けしたアクションシーケンスを生成する。 シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。 コードはhttps://github.com/ManUtdMoon/BiKC.comで入手できる。

Bimanual manipulation tasks typically involve multiple stages which require efficient interactions between two arms, posing step-wise and stage-wise challenges for imitation learning systems. Specifically, failure and delay of one step will broadcast through time, hinder success and efficiency of each sub-stage task, and thereby overall task performance. Although recent works have made strides in addressing certain challenges, few approaches explicitly consider the multi-stage nature of bimanual tasks while simultaneously emphasizing the importance of inference speed. In this paper, we introduce a novel keypose-conditioned consistency policy tailored for bimanual manipulation. It is a hierarchical imitation learning framework that consists of a high-level keypose predictor and a low-level trajectory generator. The predicted keyposes provide guidance for trajectory generation and also mark the completion of one sub-stage task. The trajectory generator is designed as a consistency model trained from scratch without distillation, which generates action sequences conditioning on current observations and predicted keyposes with fast inference speed. Simulated and real-world experimental results demonstrate that the proposed approach surpasses baseline methods in terms of success rate and operational efficiency. Codes are available at https://github.com/ManUtdMoon/BiKC.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# 薬理ビジランスのエビデンス生成の自動化:大規模言語モデルを用いてコンテキスト対応SQLを生成する

Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL ( http://arxiv.org/abs/2406.10690v3 )

ライセンス: Link先を確認
Jeffery L. Painter, Venkateswara Rao Chalamalasetti, Raymond Kassekert, Andrew Bate, (参考訳) 目的: 自然言語クエリ (NLQ) を構造化クエリ言語 (SQL) クエリに変換するために, 大規模言語モデル (LLM) を用いることにより, 医薬ナビランス (PV) データベースからの情報検索の効率性と精度を向上させる。 資料と方法:我々はOpenAIのGPT-4モデルを、ビジネスコンテキストドキュメントに富んだ検索拡張世代(RAG)フレームワークで活用し、NLQを構文的に正確なSQLクエリに変換する。 各NLQは,暗記を防ぐためにランダムかつ独立にLLMに提示された。 この研究は3つのフェーズで行われ、クエリの複雑さが変化し、LLMの性能はビジネスコンテキスト文書と無関係に評価された。 結果:NLQ-to-SQLの精度は,データベーススキーマだけで8.3\%から,ビジネスコンテキスト文書で78.3\%に向上した。 この拡張は、低、中、高複雑性のクエリ間で一貫性があり、クエリ生成におけるコンテキスト知識の重要な役割を示している。 議論: ビジネスコンテキストドキュメントの統合は、LLMの正確でコンテキストに関連のあるSQLクエリを生成する能力を大幅に改善しました。 複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上し、定期的なデプロイメントの約束が示唆された。 結論: 本研究は, LLMを安全データ検索と解析に利用するための新しいアプローチを示し, クエリ生成精度の大幅な向上を示す。 この方法論は、様々なデータ集約ドメインに適用可能なフレームワークを提供し、非技術ユーザに対する情報検索のアクセシビリティと効率を高める。

Objective: To enhance the efficiency and accuracy of information retrieval from pharmacovigilance (PV) databases by employing Large Language Models (LLMs) to convert natural language queries (NLQs) into Structured Query Language (SQL) queries, leveraging a business context document. Materials and Methods: We utilized OpenAI's GPT-4 model within a retrieval-augmented generation (RAG) framework, enriched with a business context document, to transform NLQs into syntactically precise SQL queries. Each NLQ was presented to the LLM randomly and independently to prevent memorization. The study was conducted in three phases, varying query complexity, and assessing the LLM's performance both with and without the business context document. Results: Our approach significantly improved NLQ-to-SQL accuracy, increasing from 8.3\% with the database schema alone to 78.3\% with the business context document. This enhancement was consistent across low, medium, and high complexity queries, indicating the critical role of contextual knowledge in query generation. Discussion: The integration of a business context document markedly improved the LLM's ability to generate accurate and contextually relevant SQL queries. Performance achieved a maximum of 85\% when high complexity queries are excluded, suggesting promise for routine deployment. Conclusion: This study presents a novel approach to employing LLMs for safety data retrieval and analysis, demonstrating significant advancements in query generation accuracy. The methodology offers a framework applicable to various data-intensive domains, enhancing the accessibility and efficiency of information retrieval for non-technical users.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# スタイル-NeRF2NeRF:スタイル対応マルチビュー画像からの3次元スタイル転送

Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images ( http://arxiv.org/abs/2406.13393v3 )

ライセンス: Link先を確認
Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada, (参考訳) 本稿では,2次元画像拡散モデルのパワーを生かした3次元シーンのスタイリングのための,シンプルで効果的なパイプラインを提案する。 多視点画像の集合から再構成されたNeRFモデルを考えると、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースのNeRFモデルを精細化し、3Dスタイルの転送を行う。 ターゲット方式のプロンプトが与えられた場合、我々はまず、注意共有機構を備えた深度条件付き拡散モデルを利用して、知覚的に類似した多視点画像を生成する。 次に, 事前学習したCNNモデルから抽出した特徴写像に基づいて, スライスされたワッサースタイン損失を用いて, スタイル伝達過程を導出する。 我々のパイプラインは分離されたステップで構成されており、ユーザーは様々なプロンプトのアイデアをテストし、NeRFファインチューニングステージに進む前にスタイリングされた3D結果をプレビューすることができる。 本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。 結果のビデオはプロジェクトのページでも公開されている。

We propose a simple yet effective pipeline for stylizing a 3D scene, harnessing the power of 2D image diffusion models. Given a NeRF model reconstructed from a set of multi-view images, we perform 3D style transfer by refining the source NeRF model using stylized images generated by a style-aligned image-to-image diffusion model. Given a target style prompt, we first generate perceptually similar multi-view images by leveraging a depth-conditioned diffusion model with an attention-sharing mechanism. Next, based on the stylized multi-view images, we propose to guide the style transfer process with the sliced Wasserstein loss based on the feature maps extracted from a pre-trained CNN model. Our pipeline consists of decoupled steps, allowing users to test various prompt ideas and preview the stylized 3D result before proceeding to the NeRF fine-tuning stage. We demonstrate that our method can transfer diverse artistic styles to real-world 3D scenes with competitive quality. Result videos are also available on our project page: https://haruolabs.github.io/style-n2n/
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# 開放量子系における忠実性の非線形性:高次元量子コンピューティングにおけるゲートとノイズ依存性

Nonlinearity of the Fidelity in Open Qudit Systems: Gate and Noise Dependence in High-dimensional Quantum Computing ( http://arxiv.org/abs/2406.15141v3 )

ライセンス: Link先を確認
Jean-Gabriel Hartmann, Denis Janković, Rémi Pasquier, Mario Ruben, Paul-Antoine Hervieux, (参考訳) 高次元量子コンピューティングは、従来の量子ビットベースのシステムで直面するスケーラビリティとエラー訂正の問題に対処する可能性から、大きな関心を集めている。 本稿では、リンドブラッド形式におけるマルコフ雑音下での単一キューディット系の平均ゲート忠実度(AGF)について検討し、高次補正項の計算のための包括的な理論的枠組みを開発することにより、これまでの研究を拡張した。 環境結合係数の観点から平均ゲート不整合(AGI)の摂動膨張に関する一般表現を導出し,これらを広範囲の数値シミュレーションにより検証し,強い結合状態における線形な挙動から非線形な挙動への遷移を強調する。 本研究は,AGIがQudit次元,量子ゲート選択,ノイズ強度に依存していることに注目し,量子ゲート設計と誤り訂正プロトコルを最適化するための重要な洞察を提供する。 さらに,本フレームワークは,強結合系におけるAGIの普遍的バウンダリの同定と,近距離キュートアーキテクチャの性能向上のための実践的意義について検討する。 この研究は、高次元量子コンピューティングにおける将来の研究と発展のための堅牢な基盤を提供し、ロバストで高忠実な量子演算の発展に寄与する。

High-dimensional quantum computing has generated significant interest due to its potential to address scalability and error correction challenges faced by traditional qubit-based systems. This paper investigates the Average Gate Fidelity (AGF) of single qudit systems under Markovian noise in the Lindblad formalism, extending previous work by developing a comprehensive theoretical framework for the calculation of higher-order correction terms. We derive general expressions for the perturbative expansion of the Average Gate Infidelity (AGI) in terms of the environmental coupling coefficient and validate these with extensive numerical simulations, emphasizing the transition from linear to nonlinear behaviour in the strong coupling regime. Our findings highlight the dependence of AGI on qudit dimensionality, quantum gate choice, and noise strength, providing critical insights for optimising quantum gate design and error correction protocols. Additionally, we utilise our framework to identify universal bounds for the AGI in the strong coupling regime and explore the practical implications for enhancing the performance of near-term qudit architectures. This study offers a robust foundation for future research and development in high-dimensional quantum computing, contributing to the advancement of robust, high-fidelity quantum operations.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-04
# UHD-IQAベンチマークデータベース:ブラインド写真品質評価の境界を押し上げる

UHD-IQA Benchmark Database: Pushing the Boundaries of Blind Photo Quality Assessment ( http://arxiv.org/abs/2406.17472v2 )

ライセンス: Link先を確認
Vlad Hosu, Lorenzo Agnolucci, Oliver Wiedemann, Daisuke Iso, Dietmar Saupe, (参考訳) 固定幅3840ピクセルの6073 UHD-1 (4K) 画像からなる画像品質評価(IQA)データセットを提案する。 既存のNo-Reference (NR) IQAデータセットとは対照的に、我々の研究は高い技術的品質の高度に美的な写真に焦点を当てており、文献のギャップを埋めている。 画像は、合成内容を排除するために慎重にキュレートされ、一般的なNR-IQAモデルを訓練するのに十分な多様性がある。 重要なのは、このデータセットに、クラウドソーシング調査によって得られた知覚的品質評価が注釈付けされていることだ。 写真家とグラフィックアーティストからなる10人の専門家ラッカーは、複数のセッションで少なくとも2回は画像を評価し、1枚あたり20の信頼性の高い評価を得た。 アノテーションは信頼性を確保するために、自己整合性を含むいくつかの指標に基づいて厳選された。 データセットには、5000以上のカテゴリのユーザとマシン生成タグによる豊富なメタデータと、お気に入り、お気に入り、ダウンロード、ビューなどの人気指標が含まれている。 高品質な画像、信頼できるクラウドソースアノテーション、高アノテーション解決などの特徴により、我々のデータセットは、知覚的画像品質評価研究を推進し、現代の写真に適用可能な実用的なNR-IQAモデルを開発する新たな機会を開く。 私たちのデータセットはhttps://database.mmsp-kn.de/uhd-iqa-benchmark-database.htmlで公開されています。

We introduce a novel Image Quality Assessment (IQA) dataset comprising 6073 UHD-1 (4K) images, annotated at a fixed width of 3840 pixels. Contrary to existing No-Reference (NR) IQA datasets, ours focuses on highly aesthetic photos of high technical quality, filling a gap in the literature. The images, carefully curated to exclude synthetic content, are sufficiently diverse to train general NR-IQA models. Importantly, the dataset is annotated with perceptual quality ratings obtained through a crowdsourcing study. Ten expert raters, comprising photographers and graphics artists, assessed each image at least twice in multiple sessions spanning several days, resulting in 20 highly reliable ratings per image. Annotators were rigorously selected based on several metrics, including self-consistency, to ensure their reliability. The dataset includes rich metadata with user and machine-generated tags from over 5,000 categories and popularity indicators such as favorites, likes, downloads, and views. With its unique characteristics, such as its focus on high-quality images, reliable crowdsourced annotations, and high annotation resolution, our dataset opens up new opportunities for advancing perceptual image quality assessment research and developing practical NR-IQA models that apply to modern photos. Our dataset is available at https://database.mmsp-kn.de/uhd-iqa-benchmark-database.html
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# グリーン関数と非線形感受性に対する適応型変分量子コンピューティングアプローチ

Adaptive variational quantum computing approaches for Green's functions and nonlinear susceptibilities ( http://arxiv.org/abs/2407.01313v2 )

ライセンス: Link先を確認
Martin Mootz, Thomas Iadecola, Yong-Xin Yao, (参考訳) 本稿では,ハミルトン系の実時間単一粒子グリーン関数と非線形感受性を計算するための量子コンピューティング手法を提案する。 これらのアプローチは、状態の準備と伝播に適応的な変分量子アルゴリズムを利用する。 自動生成されたコンパクト回路を用いて、応答関数の周波数分解に十分な時間をかけて動的進化を行う。 従来のハードウェアにおける状態ベクトルシミュレータによるグリーン関数の計算を,最大アンザッツ回路深さが65層と424層であり,最大アンザッツ回路深さが81層である分子LiHに対して,それぞれ示す。 さらに、Dzyaloshinskii-Moriya相互作用を組み込んだ反強磁性量子スピン-1モデルについて、2次元コヒーレント分光実験で測定できる3次の非線形感受性の計算を例証する。 これらの結果から、線形および非線形応答関数を評価するための適応パラメータ化回路を用いたリアルタイムアプローチは、短期量子プロセッサで実現可能であることが示された。

We present and benchmark quantum computing approaches for calculating real-time single-particle Green's functions and nonlinear susceptibilities of Hamiltonian systems. The approaches leverage adaptive variational quantum algorithms for state preparation and propagation. Using automatically generated compact circuits, the dynamical evolution is performed over sufficiently long times to achieve adequate frequency resolution of the response functions. We showcase accurate Green's function calculations using a statevector simulator on classical hardware for Fermi-Hubbard chains of 4 and 6 sites, with maximal ansatz circuit depths of 65 and 424 layers, respectively, and for the molecule LiH with a maximal ansatz circuit depth of 81 layers. Additionally, we consider an antiferromagnetic quantum spin-1 model that incorporates the Dzyaloshinskii-Moriya interaction to illustrate calculations of the third-order nonlinear susceptibilities, which can be measured in two-dimensional coherent spectroscopy experiments. These results demonstrate that real-time approaches using adaptive parameterized circuits to evaluate linear and nonlinear response functions can be feasible with near-term quantum processors.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# 単光子強結合限界におけるパラメトリック光-物質相互作用

Parametric Light-Matter Interaction in the Single-Photon Strong Coupling Limit ( http://arxiv.org/abs/2407.02024v3 )

ライセンス: Link先を確認
C. A. Potts, R. C. Dekker, S. Deve, E. W. Strijbis, G. A. Steele, (参考訳) 共振器間のパラメトリック結合は、例えば空洞光学において、線形共振器の特別な測定精度と制御を可能にしている。 このレベルの制御は、強いサイドバンドドライブを使用することで可能となり、相互作用を線形化しながら結合率を高めた。 本稿では,1つの線形マイクロ波空洞を超伝導トランスモン量子ビットに置き換えるパラメトリック結合マイクロ波回路の新たなパラダイムを示す。 本システムは,光-圧力相互作用のマイクロ波アナログであるトランスモン量子ビットと高線形マイクロ波共振器との光-圧力結合を利用する。 強いサイドバンド駆動を適用すると、オンデマンドで非線形のJaynes-Cummingsが線形共振器と相互作用する。 また, 単一光子結合率を全崩壊速度より桁違いに大きくし, デバイスを単一光子結合系に配置する。 この光子-圧力Jaynes-Cummings相互作用の実証は、新しい光子-圧力量子情報処理ハードウェアの開発の道を開くものであり、この新しいプラットフォームを機械共振器で対向させることで、将来量子重力のエキゾチックなテストを可能にする。

Parametric coupling between harmonic oscillators has enabled exquisite measurement precision and control of linear resonators, being extensively studied, for example, in cavity optomechanics. This level of control has been made possible by using strong sideband drives, enhancing the coupling rate while also linearizing the interaction. In this article, we demonstrate a new paradigm of parametrically coupled microwave circuits replacing one linear microwave cavity with a superconducting transmon qubit. Our system utilizes photon-pressure coupling between the transmon qubit and a highly linear microwave resonator, a microwave analog of the radiation-pressure interaction. Applying a strong sideband drive results in an on-demand, non-linear Jaynes-Cummings interaction with the linear resonator. We also observe a single-photon coupling rate an order of magnitude larger than all decay rates, placing the device in the single-photon strong coupling regime. This demonstration of photon-pressure Jaynes-Cummings interactions paves the way for developing novel photon-pressure quantum information processing hardware and will enable exotic tests of quantum gravity in the future by interfacing this new platform with mechanical resonators.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# 分散情報ネットワーク(DIN)

Decentralized Intelligence Network (DIN) ( http://arxiv.org/abs/2407.02461v5 )

ライセンス: Link先を確認
Abraham Nash, (参考訳) 分散インテリジェンスネットワーク(DIN)は、AI開発における課題、特にデータの断片化とサイロ化の問題に対処するために設計された理論フレームワークである。 これは、さまざまなデータソースにアクセスするための障壁を克服することで、主権データネットワーク内の効果的なAIトレーニングを促進する。 1) 個人データストアは,参加者のコントロール内でデータがセキュアに保持されているデータ主権を保証する。 2) 分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーション学習プロトコル。 3) パブリックブロックチェーン上のスケーラブルで信頼性のない暗号化報酬機構により、参加をインセンティブ化し、分散監査プロトコルを通じて公正な報酬配布を保証する。 調整と報酬の分配は、不変レコードでパブリックブロックチェーン上で管理されるため、トレーニングデータへのアクセスを防ぎ、制御したり、金銭的利益に影響を与えることは、このアプローチによって保証される。 このフレームワークは、参加者がデータのコントロールを維持し、金銭的に利益を享受し、集団AIを活用して有益なアルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献することで、効果的なAIトレーニングをサポートする。

Decentralized Intelligence Network (DIN) is a theoretical framework designed to address challenges in AI development, particularly focusing on data fragmentation and siloing issues. It facilitates effective AI training within sovereign data networks by overcoming barriers to accessing diverse data sources, leveraging: 1) personal data stores to ensure data sovereignty, where data remains securely within Participants' control; 2) a scalable federated learning protocol implemented on a public blockchain for decentralized AI training, where only model parameter updates are shared, keeping data within the personal data stores; and 3) a scalable, trustless cryptographic rewards mechanism on a public blockchain to incentivize participation and ensure fair reward distribution through a decentralized auditing protocol. This approach guarantees that no entity can prevent or control access to training data or influence financial benefits, as coordination and reward distribution are managed on the public blockchain with an immutable record. The framework supports effective AI training by allowing Participants to maintain control over their data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial algorithms.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# AIのように見える: LLMがWikipediaの中立性をいかに適用(そして不適切な)するか

Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms ( http://arxiv.org/abs/2407.04183v2 )

ライセンス: Link先を確認
Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert, (参考訳) 大規模言語モデル(LLM)は広義のコーパスで訓練され、特殊な規範を持つコミュニティで使用される。 LLMにコミュニティルールを提供することは、モデルがこれらの規範に従うのに十分なのだろうか? LLMの検知能力(Task)を評価する。 1)と正しい(Task) 2)ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)ポリシーに従って、バイアス付きのウィキペディア編集を行う。 LLMはバイアス検出に苦労し、バランスの取れたデータセットでは64%の精度しか達成できなかった。 モデルは対照的なバイアス(過大な予測バイアスなど)を示し、中立性に関する明確な先行を示唆した。 LLMは世代によって改善され、ウィキペディアの編集者によって削除された単語の79%が削除された。 しかし、LLMsはウィキペディアのエディターの単純な中性化以外の追加変更を行い、高速で精度の低い編集が可能になった。 興味深いことに、クラウドワーカーたちは、AIの書き直しをWikipediaの編集者による書き直しよりも中立的(70%)で流動的(61%)と評価した。 質的な分析により、LLMはウィキペディアの編集者よりも包括的にNPOVを適用したことがあるが、文法のような非NPOV関連の変更がしばしば行われた。 LLMは、一般市民と共鳴するが、コミュニティの専門家と異なる方法で規則を適用することができる。 LLMは生成に有効な可能性があるが、エディターエージェンシーを減らし、モデレーション作業量を増やす可能性がある(例えば、追加の検証)。 ルールが分かりやすくても、LSMを適用することは、コミュニティメンバーのように難しいかもしれません。

Large language models (LLMs) are trained on broad corpora and then used in communities with specialized norms. Is providing LLMs with community rules enough for models to follow these norms? We evaluate LLMs' capacity to detect (Task 1) and correct (Task 2) biased Wikipedia edits according to Wikipedia's Neutral Point of View (NPOV) policy. LLMs struggled with bias detection, achieving only 64% accuracy on a balanced dataset. Models exhibited contrasting biases (some under- and others over-predicted bias), suggesting distinct priors about neutrality. LLMs performed better at generation, removing 79% of words removed by Wikipedia editors. However, LLMs made additional changes beyond Wikipedia editors' simpler neutralizations, resulting in high-recall but low-precision editing. Interestingly, crowdworkers rated AI rewrites as more neutral (70%) and fluent (61%) than Wikipedia-editor rewrites. Qualitative analysis found LLMs sometimes applied NPOV more comprehensively than Wikipedia editors but often made extraneous non-NPOV-related changes (such as grammar). LLMs may apply rules in ways that resonate with the public but diverge from community experts. While potentially effective for generation, LLMs may reduce editor agency and increase moderation workload (e.g., verifying additions). Even when rules are easy to articulate, having LLMs apply them like community members may still be difficult.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# ORMNet:Egocentric Hand-Object Segmentationのためのオブジェクト中心関係モデリング

ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation ( http://arxiv.org/abs/2407.05576v2 )

ライセンス: Link先を確認
Yuejiao Su, Yi Wang, Lap-Pui Chau, (参考訳) エゴセントリック・ハンドオブジェクト・セグメンテーション(EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、有望な新しいタスクである。 EgoHOSは様々なアプリケーションを実現する可能性を秘めているが、現在の手法は高性能とエンドツーエンドの最適化を同時に実現するのに苦労している。 さらに、既存のアプローチでは、相互作用対象のセグメンテーションを支援するために手技を完全に活用できず、様々な相互作用対象のカテゴリ間の結合関係を見落とし、結果としてパフォーマンスの欠陥が生じる。 これらの制約に対処するために,オブジェクトとオブジェクト間の関係をモデリングすることで,エンドツーエンドかつ効果的なEgoHOSを実現するための新しいオブジェクト中心関係モデリングネットワーク(ORMNet)を提案する。 具体的には、ハンドオブジェクト関係(HOR)モジュールを導入して、手とオブジェクトの相関関係を捉える。 さらに,多種多様な相互作用対象のカテゴリ間の結合関係と,それらを切り離すためのオブジェクト関係疎結合(ORD)戦略を設計し,手と物体の相互作用の学習を強調し,相互作用対象の分類の混乱を低減する。 ドメイン内実験では、ORMNetは最先端のメソッドと比較して特に例外的なセグメンテーション性能を示し、ドメイン外実験では、その堅牢な一般化能力を示している。 プロジェクトはhttps://github.com/yuggiehk/ORMNet/で入手できる。

Egocentric hand-object segmentation (EgoHOS) is a promising new task aiming at segmenting hands and interacting objects in egocentric images. Although EgoHOS has the potential to enable various applications, current methods struggle to achieve both high performance and end-to-end optimization simultaneously. Moreover, existing approaches fail to fully leverage hand cues to assist the interacting-object segmentation and overlook the coupled relationships between diverse interacting-object categories, resulting in performance deficiencies. To address these limitations, this paper proposes a novel Object-centric Relationship Modeling Network (ORMNet) to fulfill end-to-end and effective EgoHOS by modeling relationships between hands and objects as well as objects and objects. Specifically, a Hand-Object Relation (HOR) module is introduced to capture the correlation between hands and objects, which uses hand features to guide the network to extract more distinguishing interacting-object features. Besides, we find the coupling relations between diverse interacting-object categories and design the Object Relation Decoupling (ORD) strategy to disentangle them, emphasizing learning of the interaction between hands and objects and reducing the confusion of interacting-object classification. In-domain experiments show that ORMNet has notably exceptional segmentation performance compared with state-of-the-art methods, while out-of-domain experiments further exhibit its robust generalization capability. The project is available at https://github.com/yuggiehk/ORMNet/
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# モンテカルロの速度論的相互作用粒子ランゲヴィン

Kinetic Interacting Particle Langevin Monte Carlo ( http://arxiv.org/abs/2407.05790v2 )

ライセンス: Link先を確認
Paul Felix Valsecchi Oliva, O. Deniz Akyildiz, (参考訳) 本稿では、潜伏変数モデルにおける統計的推測のために、Kineetic Interacting Particle Langevin Monte Carlo (KIPLMC) 法と呼ばれる、アンダーダム付きランゲインアルゴリズムの相互作用を紹介し、解析する。 本稿では,パラメータと潜伏変数の空間内で共同で進化する拡散過程を提案し,この拡散の定常分布がパラメータの最大限界推定値の周りに集中しているという事実を利用する。 次に、統計モデルのパラメータを推定する実用的なアルゴリズムとして、この拡散について2つの明確な考察を行う。 各アルゴリズムに対して、潜伏変数やパラメータに関して、関節の対数類似度が強い場合の非漸近収束率を求める。 特に,拡散の収束解析を離散化誤差とともに提供し,ワッサーシュタイン2距離におけるアルゴリズムの収束率推定を行う。 我々は, アンダーダッシュされた試料試料と同様, 寸法依存性の向上を明らかに示し, 加速収束率を達成する。 提案手法の有用性を実証するために, 統計的推測のための拡散法の有効性と, 離散化に利用した数値積分器の安定性を示す数値実験を行った。 私たちの設定では、教師なし学習、統計的推論、逆問題など、幅広い応用をカバーしています。

This paper introduces and analyses interacting underdamped Langevin algorithms, termed Kinetic Interacting Particle Langevin Monte Carlo (KIPLMC) methods, for statistical inference in latent variable models. We propose a diffusion process that evolves jointly in the space of parameters and latent variables and exploit the fact that the stationary distribution of this diffusion concentrates around the maximum marginal likelihood estimate of the parameters. We then provide two explicit discretisations of this diffusion as practical algorithms to estimate parameters of statistical models. For each algorithm, we obtain nonasymptotic rates of convergence for the case where the joint log-likelihood is strongly concave with respect to latent variables and parameters. In particular, we provide convergence analysis for the diffusion together with the discretisation error, providing convergence rate estimates for the algorithms in Wasserstein-2 distance. We achieve accelerated convergence rates clearly demonstrating improvement in dimension dependence, similar to the underdamped samplers. To demonstrate the utility of the introduced methodology, we provide numerical experiments that demonstrate the effectiveness of the proposed diffusion for statistical inference and the stability of the numerical integrators utilised for discretisation. Our setting covers a broad number of applications, including unsupervised learning, statistical inference, and inverse problems.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# MADE-for-ASD:自閉症スペクトラム障害診断のためのマルチアトラスディープアンサンブルネットワーク

MADE-for-ASD: A Multi-Atlas Deep Ensemble Network for Diagnosing Autism Spectrum Disorder ( http://arxiv.org/abs/2407.07076v2 )

ライセンス: Link先を確認
Xuehan Liu, Md Rakibul Hasan, Tom Gedeon, Md Zakir Hossain, (参考訳) 自閉症スペクトラム障害(ASD)の早期診断のグローバルなニーズに応じて,従来の時間的診断手法と潜在的な自動化ソリューションのギャップを埋める。 我々は、重み付きディープアンサンブルネットワークを介して脳の機能的磁気共鳴画像(fMRI)データの複数のアトラスを統合するマルチアトラスディープアンサンブルネットワーク、MADE-for-ASDを提案する。 提案手法は,ASD診断性能を高め,患者のプロファイリングについてより総合的な視点を提供する予測ワークフローに,人口統計情報を統合する。 ABIDE (Autism Brain Imaging Data Exchange, 自閉症脳画像データ交換) Iデータセットを実験した。 提案システムでは,データセット全体の75.20%の精度,特定のサブセットに対して96.40%の精度を実現している。 具体的には,同量のデータに対する先行処理よりも4.4ポイント向上した。 このモデルはデータセット全体の82.90%の感度と69.70%の特異性を示し、それぞれ91.00%と99.50%の感度を示す。 ASD診断の上位10ROI(前頭蓋・前帯・腹腔鏡など)をFスコアで特定した。 提案システムは、ASD診断において、よりコスト効率が高く、効率的でスケーラブルな戦略の道を開く可能性がある。 コードと評価はhttps://github.com/hasan-rakibul/MADE-for-ASD.comで公開されている。

In response to the global need for efficient early diagnosis of Autism Spectrum Disorder (ASD), this paper bridges the gap between traditional, time-consuming diagnostic methods and potential automated solutions. We propose a multi-atlas deep ensemble network, MADE-for-ASD, that integrates multiple atlases of the brain's functional magnetic resonance imaging (fMRI) data through a weighted deep ensemble network. Our approach integrates demographic information into the prediction workflow, which enhances ASD diagnosis performance and offers a more holistic perspective on patient profiling. We experiment with the well-known publicly available ABIDE (Autism Brain Imaging Data Exchange) I dataset, consisting of resting state fMRI data from 17 different laboratories around the globe. Our proposed system achieves 75.20% accuracy on the entire dataset and 96.40% on a specific subset $-$ both surpassing reported ASD diagnosis accuracy in ABIDE I fMRI studies. Specifically, our model improves by 4.4 percentage points over prior works on the same amount of data. The model exhibits a sensitivity of 82.90% and a specificity of 69.70% on the entire dataset, and 91.00% and 99.50%, respectively, on the specific subset. We leverage the F-score to pinpoint the top 10 ROI in ASD diagnosis, such as precuneus and anterior cingulate/ventromedial. The proposed system can potentially pave the way for more cost-effective, efficient and scalable strategies in ASD diagnosis. Codes and evaluations are publicly available at https://github.com/hasan-rakibul/MADE-for-ASD.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-04
# 交通衝突検出のための統一理論と統計的学習手法

A unified theory and statistical learning approach for traffic conflict detection ( http://arxiv.org/abs/2407.10959v3 )

ライセンス: Link先を確認
Yiru Jiao, Simeon C. Calvert, Sander van Cranenburgh, Hans van Lint, (参考訳) 本研究は,道路利用者の衝突リスクを評価するための一貫した包括的方法論を求めて,交通衝突検出のための統一的理論と統計的学習手法を提案する。 提案理論は、文脈依存的な確率的衝突リスクを仮定し、日々の相互作用における極端な事象の統計的学習により、このリスクを評価する。 実世界の軌道データを用いた実演実験を行った。 第一に、紛争を示す統一された指標は、ドイツの高速道路における車線変更の相互作用で訓練される。 このメトリックやその他の既存のメトリクスは、パフォーマンス比較のために米国の100-Car Naturalistic Driving Studyのほぼクラッシュなイベントに適用される。 実験の結果、トレーニングされたメトリクスは効果的な衝突警告を提供し、異なるデータセットと交通環境をまたいで一般化し、幅広い紛争タイプをカバーし、紛争強度の長期分布を提供することが示された。 提案理論は,道路利用者の移動状態や環境条件,参加者特性といった要因を包括的に考慮し,交通紛争の仮定を包括的に含む汎用的な定式化による一貫した評価を保証する。 したがって、理論と学習のアプローチは、異なる道路利用者間および様々な相互作用シナリオ間での衝突検出のための説明可能な、適応可能な方法論を共同で提供する。 これにより、交通インフラの安全性評価の強化、自動運転のためのより効果的な衝突警告システム、異なる交通状況における道路利用者の行動のより深い理解などにより、事故の低減と交通安全全体の改善が期待できる。

This study proposes a unified theory and statistical learning approach for traffic conflict detection, addressing the long-existing call for a consistent and comprehensive methodology to evaluate the collision risk emerging in road user interactions. The proposed theory assumes context-dependent probabilistic collision risk and frames conflict detection as assessing this risk by statistical learning of extreme events in daily interactions. Experiments using real-world trajectory data are conducted for demonstration. Firstly, a unified metric for indicating conflicts is trained with lane-changing interactions on German highways. This metric and other existing metrics are then applied to near-crash events from the 100-Car Naturalistic Driving Study in the U.S. for performance comparison. Results of the experiments show that the trained metric provides effective collision warnings, generalises across distinct datasets and traffic environments, covers a broad range of conflict types, and delivers a long-tailed distribution of conflict intensity. Reflecting on these results, the proposed theory ensures consistent evaluation by a generic formulation that encompasses varying assumptions of traffic conflicts; the statistical learning approach then enables a comprehensive consideration of influencing factors such as motion states of road users, environment conditions, and participant characteristics. Therefore, the theory and learning approach jointly provide an explainable and adaptable methodology for conflict detection among different road users and across various interaction scenarios. This promises to reduce accidents and improve overall traffic safety, by enhanced safety assessment of traffic infrastructures, more effective collision warning systems for autonomous driving, and a deeper understanding of road user behaviour in different traffic conditions.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-04
# 数値データのための因果探索アルゴリズムの総合的検証と実証評価

Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data ( http://arxiv.org/abs/2407.13054v2 )

ライセンス: Link先を確認
Wenjin Niu, Zijun Gao, Liyan Song, Lingbo Li, (参考訳) 因果解析は、様々な分野における現象の根本原因を理解する上で不可欠な要素となっている。 その重要性にもかかわらず、因果発見アルゴリズムに関する既存の文献は断片化されており、一貫性のない方法論、すなわち既存の手法には普遍的な分類基準がなく、包括的な評価の欠如、すなわち、ベンチマークアルゴリズムではデータ特性が共同で解析されることがしばしば無視される。 本研究は,数値データに基づく因果発見手法の徹底的な検討と実証的評価を行うことにより,これらのギャップに対処し,より明確で構造化されたフィールド理解を実現することを目的とする。 私たちの研究は20年以上にわたる総合的な文献レビューから始まり、200以上の学術論文を分析し、40以上の代表的アルゴリズムを特定しました。 この広範な分析により、因果発見の複雑さに合わせた構造分類学が発達し、手法を6つの主要なタイプに分類する。 包括的評価の欠如に対処するため、本研究では、複数の合成および実世界のデータセット上で29の因果探索アルゴリズムを広範囲に評価する。 我々は,サイズ,線形性,雑音分布に基づいて合成データセットを分類し,評価指標を5つ採用し,トップ3のアルゴリズムレコメンデーションを要約し,さまざまなデータシナリオにおけるユーザのためのガイドラインを提供する。 この結果から,データセット特性がアルゴリズムの性能に与える影響が明らかとなった。 さらに,80%を超える精度のメタデータ抽出戦略を開発し,未知のデータセット上でのアルゴリズム選択を支援する。 これらの知見に基づいて、特定のデータセットに対して最も適切な因果発見方法を選択するための専門的かつ実践的なガイドラインを提供する。

Causal analysis has become an essential component in understanding the underlying causes of phenomena across various fields. Despite its significance, existing literature on causal discovery algorithms is fragmented, with inconsistent methodologies, i.e., there is no universal classification standard for existing methods, and a lack of comprehensive evaluations, i.e., data characteristics are often ignored to be jointly analyzed when benchmarking algorithms. This study addresses these gaps by conducting an exhaustive review and empirical evaluation for causal discovery methods on numerical data, aiming to provide a clearer and more structured understanding of the field. Our research begins with a comprehensive literature review spanning over two decades, analyzing over 200 academic articles and identifying more than 40 representative algorithms. This extensive analysis leads to the development of a structured taxonomy tailored to the complexities of causal discovery, categorizing methods into six main types. To address the lack of comprehensive evaluations, our study conducts an extensive empirical assessment of 29 causal discovery algorithms on multiple synthetic and real-world datasets. We categorize synthetic datasets based on size, linearity, and noise distribution, employing five evaluation metrics, and summarize the top-3 algorithm recommendations, providing guidelines for users in various data scenarios. Our results highlight a significant impact of dataset characteristics on algorithm performance. Moreover, a metadata extraction strategy with an accuracy exceeding 80% is developed to assist users in algorithm selection on unknown datasets. Based on these insights, we offer professional and practical guidelines to help users choose the most suitable causal discovery methods for their specific dataset.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-04
# 無線フェデレーション学習のためのエネルギー効率の良いチャネルデコーディング:収束解析と適応設計

Energy-Efficient Channel Decoding for Wireless Federated Learning: Convergence Analysis and Adaptive Design ( http://arxiv.org/abs/2407.13703v3 )

ライセンス: Link先を確認
Linping Qu, Yuyi Mao, Shenghui Song, Chi-Ying Tsui, (参考訳) 無線ネットワークにフェデレートラーニング(FL)のような分散学習ソリューションをデプロイする上で最も重要な課題の1つは、モバイルクライアントのバッテリ容量の制限である。 モバイルクライアントのエネルギー消費は、アップリンクデータ伝送によるものであるという見方が一般的であるが、この論文では、チャネルデコーディングが、FLにおけるモバイルクライアントのエネルギー消費全体に大きく貢献する、という新たな発見を示す。 そこで本研究では,FLの固有ロバスト性を利用したエネルギー効率適応型チャネル復号法を提案する。 特に、携帯クライアントにおけるチャネルデコーダのエネルギー消費を減らすために、復号回数を適応的に調整することでロバスト性を利用する。 我々は,通信エラーのある無線FLが,ビット誤り率(BER)が適切に制約されている場合に,誤りのない通信の場合と同じ速度で収束できることを理論的に証明する。 次に、無線FLシステムのエネルギー効率を向上させるために、適応チャネル復号方式を提案する。 実験により,提案手法は既存の手法と比較して,チャネル復号化エネルギー消費量を約20%削減しつつ,同じ学習精度を維持していることが示された。

One of the most critical challenges for deploying distributed learning solutions, such as federated learning (FL), in wireless networks is the limited battery capacity of mobile clients. While it is a common belief that the major energy consumption of mobile clients comes from the uplink data transmission, this paper presents a novel finding, namely channel decoding also contributes significantly to the overall energy consumption of mobile clients in FL. Motivated by this new observation, we propose an energy-efficient adaptive channel decoding scheme that leverages the intrinsic robustness of FL to model errors. In particular, the robustness is exploited to reduce the energy consumption of channel decoders at mobile clients by adaptively adjusting the number of decoding iterations. We theoretically prove that wireless FL with communication errors can converge at the same rate as the case with error-free communication provided the bit error rate (BER) is properly constrained. An adaptive channel decoding scheme is then proposed to improve the energy efficiency of wireless FL systems. Experimental results demonstrate that the proposed method maintains the same learning accuracy while reducing the channel decoding energy consumption by ~20% when compared to an existing approach.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-04
# 大規模言語モデルからの知識を能動的に希釈することで限定ラベル付きデータによるグラフニューラルネットワークの強化

Enhancing Graph Neural Networks with Limited Labeled Data by Actively Distilling Knowledge from Large Language Models ( http://arxiv.org/abs/2407.13989v3 )

ライセンス: Link先を確認
Quan Li, Tianxiang Zhao, Lingwei Chen, Junjie Xu, Suhang Wang, (参考訳) グラフは、ソーシャルネットワーク分析、バイオインフォマティクス、知識グラフなど、現実世界に広く普及している。 グラフニューラルネットワーク(GNN)は、グラフの基本課題であるノード分類において優れた能力を持つ。 残念ながら、従来のGNNは、実世界のアプリケーションで数ショットのノード分類タスクが頻繁に行われているにもかかわらず、ラベル付きノードがほとんどないシナリオでは依然として課題に直面している。 この課題に対処するため,グラフメタ学習,移動学習,Large Language Models(LLM)に基づく手法など,さまざまなアプローチが提案されている。 しかし、従来のメタラーニングとトランスファーラーニングは、しばしば基礎クラスからの事前の知識を必要とするか、ラベルなしノードの潜在的な利点を活用できない。 一方、LLMベースの手法は、LLMのゼロショット機能を見落とし、生成されたコンテキストの品質に大きく依存する。 本稿では、LLMとGNNを統合し、LLMのゼロショット推論と推論機能を活用し、GNNの性能を高めるためにグラフ-LLMベースのアクティブラーニングパラダイムを用いる新しいアプローチを提案する。 大規模な実験により,ノード分類精度をかなり制限されたラベル付きデータで向上し,最先端のベースラインをかなりのマージンで上回った。

Graphs are pervasive in the real-world, such as social network analysis, bioinformatics, and knowledge graphs. Graph neural networks (GNNs) have great ability in node classification, a fundamental task on graphs. Unfortunately, conventional GNNs still face challenges in scenarios with few labeled nodes, despite the prevalence of few-shot node classification tasks in real-world applications. To address this challenge, various approaches have been proposed, including graph meta-learning, transfer learning, and methods based on Large Language Models (LLMs). However, traditional meta-learning and transfer learning methods often require prior knowledge from base classes or fail to exploit the potential advantages of unlabeled nodes. Meanwhile, LLM-based methods may overlook the zero-shot capabilities of LLMs and rely heavily on the quality of generated contexts. In this paper, we propose a novel approach that integrates LLMs and GNNs, leveraging the zero-shot inference and reasoning capabilities of LLMs and employing a Graph-LLM-based active learning paradigm to enhance GNNs' performance. Extensive experiments demonstrate the effectiveness of our model in improving node classification accuracy with considerably limited labeled data, surpassing state-of-the-art baselines by significant margins.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-04
# 地球観測における欠損センサに対するモデル予測のロバスト性の向上

Increasing the Robustness of Model Predictions to Missing Sensors in Earth Observation ( http://arxiv.org/abs/2407.15512v2 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Andreas Dengel, (参考訳) EOのためのマルチセンサMLモデルは、様々なソースからのデータを統合することにより、予測精度を向上させることを目的としている。 しかし、特に外部要因の影響を受けやすい非永続センサーでは、欠落したデータの存在が重大な課題となる。 既存の文献は、時間的ドロップアウトやセンサ不変モデルのような戦略を探求し、欠落したデータ問題への一般化に対処している。 これらの研究に触発されて、入力センサドロップアウト(ISensD)とアンサンブルセンサ不変(ESensI)という、マルチセンサーシナリオに適した2つの新しい手法を研究した。 3つのマルチセンサ時間的EOデータセットを用いた実験により,モデル予測のロバスト性をより効果的に向上させることが実証された。 特に,センサが無くなった場合,モデルの予測性能が低下する様子に注目した。 アンサンブル・マルチセンサー・モデルはセンサの欠如に対して最も頑丈であることが観察された。 さらに、ISensDのセンサードロップアウト成分は、有望な堅牢性を示す。

Multi-sensor ML models for EO aim to enhance prediction accuracy by integrating data from various sources. However, the presence of missing data poses a significant challenge, particularly in non-persistent sensors that can be affected by external factors. Existing literature has explored strategies like temporal dropout and sensor-invariant models to address the generalization to missing data issues. Inspired by these works, we study two novel methods tailored for multi-sensor scenarios, namely Input Sensor Dropout (ISensD) and Ensemble Sensor Invariant (ESensI). Through experimentation on three multi-sensor temporal EO datasets, we demonstrate that these methods effectively increase the robustness of model predictions to missing sensors. Particularly, we focus on how the predictive performance of models drops when sensors are missing at different levels. We observe that ensemble multi-sensor models are the most robust to the lack of sensors. In addition, the sensor dropout component in ISensD shows promising robustness results.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-04
# 医療安全クリティカルセッティングにおける大規模言語モデルを用いたガードレールの必要性:薬理工学における人工知能応用

The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem ( http://arxiv.org/abs/2407.18322v2 )

ライセンス: Link先を確認
Joe B Hakim, Jeffery L Painter, Darmendra Ramcharran, Vijay Kara, Greg Powell, Paulina Sobczak, Chiho Sato, Andrew Bate, Andrew Beam, (参考訳) 大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。 しかし、LLMの高リスクかつ安全クリティカルな領域への展開は、特にLLMが製造された情報を生成できる ''hallucination'' の問題など、ユニークな課題を生んでいる。 これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。 これらのリスクを軽減するため、特定の種類の幻覚や薬物安全性の誤りを軽減し、他の医療安全クリティカルな文脈にも適用可能なガードレールのコンセプトスイートを考案し、実証した。 これらのガードレールは、異常な文書を検出し、不適切なデータの取り込みを防ぎ、不正な薬物名や有害な事象を識別し、生成された内容の不確実性を伝達するメカニズムを含む。 我々はこれらのガードレールをテキスト・テキスト・タスク用に微調整されたLLMと統合し、有害事象レポート内の構造化データと非構造化データの両方を自然言語に変換する。 本手法は, 個別症例安全レポートの翻訳に応用し, 薬物移動処理タスクに有効であることを示した。 我々のガードレール・フレームワークは、様々な領域に適用可能なツールセットを提供しており、不正な薬物移動関連用語の生成を含む重要なエラーの発生を排除し、医療安全上重要な環境における厳格な規制基準と品質基準を順守することにより、リスクの高い状況下でLLMを安全に使用できることを保証している。

Large language models (LLMs) are useful tools with the capacity for performing specific types of knowledge work at an effective scale. However, LLM deployments in high-risk and safety-critical domains pose unique challenges, notably the issue of ``hallucination,'' where LLMs can generate fabricated information. This is particularly concerning in settings such as drug safety, where inaccuracies could lead to patient harm. To mitigate these risks, we have developed and demonstrated a proof of concept suite of guardrails specifically designed to mitigate certain types of hallucinations and errors for drug safety, and potentially applicable to other medical safety-critical contexts. These guardrails include mechanisms to detect anomalous documents to prevent the ingestion of inappropriate data, identify incorrect drug names or adverse event terms, and convey uncertainty in generated content. We integrated these guardrails with an LLM fine-tuned for a text-to-text task, which involves converting both structured and unstructured data within adverse event reports into natural language. This method was applied to translate individual case safety reports, demonstrating effective application in a pharmacovigilance processing task. Our guardrail framework offers a set of tools with broad applicability across various domains, ensuring LLMs can be safely used in high-risk situations by eliminating the occurrence of key errors, including the generation of incorrect pharmacovigilance-related terms, thus adhering to stringent regulatory and quality standards in medical safety-critical environments.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-04
# YOLOによる頭蓋内出血分節の軽度改善と不確実性切除分節モデル

Weakly Supervised Intracranial Hemorrhage Segmentation with YOLO and an Uncertainty Rectified Segment Anything Model ( http://arxiv.org/abs/2407.20461v3 )

ライセンス: Link先を確認
Pascal Spiegler, Amirhossein Rasoulian, Yiming Xiao, (参考訳) 頭蓋内出血 (ICH) は, 治療成績と生存率を改善するために, 迅速かつ正確な診断を必要とする生命予後である。 教師付き深層学習の最近の進歩は、医用画像の分析を大幅に改善してきたが、しばしば高品質なアノテーションを備えた広範囲なデータセットに依存しており、費用がかかり、時間もかかり、医療の専門知識を必要としている。 そこで我々は, YOLOオブジェクト検出モデルと不確実性補正セグメンテーションモデル(SAM)を利用した, 弱い教師付きICHセグメンテーション法を開発した。 さらに, YOLO予測ボックスプロンプトを用いて, セグメンテーション結果を改善するために, 新たなポイントプロンプト生成器を提案する。 ICH検出の精度は0.933,AUCは0.796,Diceスコアは0.629であった。 提案手法は, モデルトレーニングにおいて, 精巧なセグメンテーション基底の真理を必要とせず, より一般的に使用されているICH定量化手法に, 頑健で正確な代替手段を提供する。

Intracranial hemorrhage (ICH) is a life-threatening condition that requires rapid and accurate diagnosis to improve treatment outcomes and patient survival rates. Recent advancements in supervised deep learning have greatly improved the analysis of medical images, but often rely on extensive datasets with high-quality annotations, which are costly, time-consuming, and require medical expertise to prepare. To mitigate the need for large amounts of expert-prepared segmentation data, we have developed a novel weakly supervised ICH segmentation method that utilizes the YOLO object detection model and an uncertainty-rectified Segment Anything Model (SAM). In addition, we have proposed a novel point prompt generator for this model to further improve segmentation results with YOLO-predicted bounding box prompts. Our approach achieved a high accuracy of 0.933 and an AUC of 0.796 in ICH detection, along with a mean Dice score of 0.629 for ICH segmentation, outperforming existing weakly supervised and popular supervised (UNet and Swin-UNETR) approaches. Overall, the proposed method provides a robust and accurate alternative to the more commonly used supervised techniques for ICH quantification without requiring refined segmentation ground truths during model training.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-04
# ユビキタスな信号検出法に向けて

Towards a Universal Method for Meaningful Signal Detection ( http://arxiv.org/abs/2408.00016v2 )

ライセンス: Link先を確認
Louis Mahon, (参考訳) 人間の発話と特定の動物の発声は、ある発話が伝達する内容を解読できるため、意味のある内容を伝えることができることが知られている。 本稿では,信号が意味を持つかどうかを判断するための代替手法として,信号自体を解析し,伝達された意味とは無関係であることを示す。 波形を入力として取り出す手法を考案し,その「意味豊かさ」の度合いを示すスコアを出力する。 入力の連続部分をクラスタ化して、総記述長を最小化し、割り当てられたクラスタラベルのコードの長さを有意性スコアとする。 提案手法は,様々な基準に対して実証的に評価し,様々な言語および様々な話者による人間の発話に高いスコアを与える唯一の方法であり,鳥類やオルカの動物声に対する適度なスコア,および様々な音源からの環境騒音に対する低スコアであることを示す。

It is known that human speech and certain animal vocalizations can convey meaningful content because we can decipher the content that a given utterance does convey. This paper explores an alternative approach to determining whether a signal is meaningful, one that analyzes only the signal itself and is independent of what the conveyed meaning might be. We devise a method that takes a waveform as input and outputs a score indicating its degree of `meaningfulness`. We cluster contiguous portions of the input to minimize the total description length, and then take the length of the code of the assigned cluster labels as meaningfulness score. We evaluate our method empirically, against several baselines, and show that it is the only one to give a high score to human speech in various languages and with various speakers, a moderate score to animal vocalizations from birds and orcas, and a low score to ambient noise from various sources.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-04
# 3つのマルチソース推論モデルによるアフリカにおけるウェルス指数予測の比較分析

A Comparative Analysis of Wealth Index Predictions in Africa between three Multi-Source Inference Models ( http://arxiv.org/abs/2408.01631v2 )

ライセンス: Link先を確認
Márton Karsai, János Kertész, Lisette Espín-Noboa, (参考訳) 貧困マップ推論は、回帰モデルから、表のデータ、画像、ネットワークに適用される畳み込みニューラルネットワークまで、伝統的な技術と現代的な技術の両方に関心を抱く研究領域である。 トレーニングフェーズの検証に重点を置いているにもかかわらず、最終的な予測の精査は依然として限られている。 ここでは,Chi et al (2022) が推定するRelative Wealth Index (RWI) とLee and Braithwaite (2022) とEsp\in-Noboa et al (2023) が推定するInternational Wealth Index (IWI) を比較した。 我々の分析は、時間とともに富の予測の傾向と相違点を特定することに焦点を当てている。 以上の結果から,Chi et al と Esp\in-Noboa et al の予測は,トレーニングセットの異なる時間枠による差が期待される一般GDPの傾向と一致していることがわかった。 しかし、Lee と Braithwaite の予測は大きく分岐し、モデルの妥当性に潜在的な問題が示唆された。 アフリカの政策立案者や利害関係者が、富、特に地上での意思決定に使用されるモデルを厳格に監査する必要性を浮き彫りにしている。 これらの技術は、信頼性を高め、貧困緩和戦略が十分に確立されていることを保証するために、継続的な検証と改善を必要とします。

Poverty map inference is a critical area of research, with growing interest in both traditional and modern techniques, ranging from regression models to convolutional neural networks applied to tabular data, images, and networks. Despite extensive focus on the validation of training phases, the scrutiny of final predictions remains limited. Here, we compare the Relative Wealth Index (RWI) inferred by Chi et al. (2022) with the International Wealth Index (IWI) inferred by Lee and Braithwaite (2022) and Esp\'in-Noboa et al. (2023) across six Sub-Saharan African countries. Our analysis focuses on identifying trends and discrepancies in wealth predictions over time. Our results show that the predictions by Chi et al. and Esp\'in-Noboa et al. align with general GDP trends, with differences expected due to the distinct time-frames of the training sets. However, predictions by Lee and Braithwaite diverge significantly, indicating potential issues with the validity of the model. These discrepancies highlight the need for policymakers and stakeholders in Africa to rigorously audit models that predict wealth, especially those used for decision-making on the ground. These and other techniques require continuous verification and refinement to enhance their reliability and ensure that poverty alleviation strategies are well-founded.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-04
# RT-Surv:大規模非構造電子健康記録の大規模言語モデル構築による放射線治療後の死亡予測の改善

RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records ( http://arxiv.org/abs/2408.05074v3 )

ライセンス: Link先を確認
Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom, (参考訳) 正確な患者選択は、放射線治療(RT)において非効率な治療を防ぐために重要である。 従来の生存予測モデルは、構造化データに依存し、精度を欠くことが多い。 本研究では, 大規模言語モデル(LLM)が非構造化電子健康記録(EHR)データを構成する可能性について検討し, 包括的臨床情報統合による生存予測精度の向上を図る。 2013年から2023年にかけてのyonsei Cancer CenterにおけるRT治療患者34,276人を対象に,構造的および非構造的データを含む分析を行った。 オープンソース LLM を用いて、単発学習による非構造化 EHR データを構造化し、その性能をドメイン固有の医療用 LLM とより小さな変種と比較した。 生存予測モデルは、統計的、機械学習、深層学習のアプローチを用いて、構造化データとLLM構造化データの両方を取り入れて開発された。 臨床専門家はLLM構造化データの精度を評価した。 オープンソースのLLMは、追加のトレーニングなしで構造化されていないEHRデータを構築する際に87.5%の精度を達成し、ドメイン固有の医療用LLMを著しく上回り、わずか35.8%の精度にしか達しなかった。 より大きなLSMは、特に患者の生存率と密接な相関を持つ、一般的な状態や病気の範囲といった臨床的に関係のある特徴を抽出する上で、より効果的であった。 LLMを構造化した臨床特徴を生存予測モデルに組み込むことで精度が向上し、深層学習モデルのCインデックスは0.737から0.820に増加した。 これらのモデルは、臨床的に重要な因子を強調することで、より解釈可能になった。 本研究は, 特定の医療訓練を受けなくても, 大規模非構造化EMHデータを効果的に構築することができ, 臨床予測モデルの精度と解釈可能性を大幅に向上させることができることを示した。

Accurate patient selection is critical in radiotherapy (RT) to prevent ineffective treatments. Traditional survival prediction models, relying on structured data, often lack precision. This study explores the potential of large language models (LLMs) to structure unstructured electronic health record (EHR) data, thereby improving survival prediction accuracy through comprehensive clinical information integration. Data from 34,276 patients treated with RT at Yonsei Cancer Center between 2013 and 2023 were analyzed, encompassing both structured and unstructured data. An open-source LLM was used to structure the unstructured EHR data via single-shot learning, with its performance compared against a domain-specific medical LLM and a smaller variant. Survival prediction models were developed using statistical, machine learning, and deep learning approaches, incorporating both structured and LLM-structured data. Clinical experts evaluated the accuracy of the LLM-structured data. The open-source LLM achieved 87.5% accuracy in structuring unstructured EHR data without additional training, significantly outperforming the domain-specific medical LLM, which reached only 35.8% accuracy. Larger LLMs were more effective, particularly in extracting clinically relevant features like general condition and disease extent, which closely correlated with patient survival. Incorporating LLM-structured clinical features into survival prediction models significantly improved accuracy, with the C-index of deep learning models increasing from 0.737 to 0.820. These models also became more interpretable by emphasizing clinically significant factors. This study shows that general-domain LLMs, even without specific medical training, can effectively structure large-scale unstructured EHR data, substantially enhancing the accuracy and interpretability of clinical predictive models.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-04
# オンライン広告はレグレタブルな必需品:ウェブをペイウォールする危険について

Online Advertising is a Regrettable Necessity: On the Dangers of Pay-Walling the Web ( http://arxiv.org/abs/2409.00026v2 )

ライセンス: Link先を確認
Yonas Kassa, (参考訳) ウェブの指数的な成長とその利益は、インターネット接続を持つ誰でも無料でウェブ上の情報にアクセスできるオープンモデルに大きく寄与する。 このことは、国連のような組織が認識する最も脆弱な社会の様々なメンバーにとって、前例のない機会を生み出している。 これは、オープンウェブの主要な投資家であるオンライン広告によるものである。 しかし、近年のウェブ上のペイウォール情報やサービスのトレンドは、そのようなオープンモデルに対する差し迫った危険を生じさせ、経済的に脆弱なWebへのアクセスを阻害し、最終的にはデジタル分離を生み出している。 本稿では、この新たなモデルには持続可能性がなく、デジタル分割が悪化し、オンライン広告が崩壊する可能性があると論じる。 われわれは、広告付きオープンウェブビジネスモデルを再考し、グローバルユーザーが実際に見ている広告に対してどのように支払っているかを実証した。 国民一人当たりのGNI(グロス・ナショナル・インカム)のデータと平均ペイウォール・アクセス・コストを用いて、簡単な収入-ペイウォール支出ギャップ基準を確立した。 このベースラインでは、人口推定56億人の135カ国が、完全な有料ウェブのシナリオに余裕がないことを示している。 さらに、いわゆる「プレミアムサービス」の混合モデルがデジタル分離をいかに生み出し、オンライン広告エコシステムに危険をもたらすかについても論じる。 最後に、Webを持続可能なビジネスモデルとより包括的に維持するために、さらなる研究と政策イニシアチブを求めます。

The exponential growth of the web and its benefits can be attributed largely to its open model where anyone with internet connection can access information on the web for free. This has created unprecedented opportunities for various members of society including the most vulnerable, as recognized by organizations such as the UN. This again can be attributed to online advertising, which has been the main financier to the open web. However, recent trends of paywalling information and services on the web are creating imminent dangers to such open model of the web, inhibiting access for the economically vulnerable, and eventually creating digital segregation. In this paper, we argue that this emerging model lacks sustainability, exacerbates digital divide, and might lead to collapse of online advertising. We revisit the ad-supported open web business model and demonstrate how global users actually pay for the ads they see. Using data on GNI (gross national income) per capita and average paywall access costs, we established a simple income-paywall expenditure gap baseline. With this baseline we show that 135 countries with a total population estimate of 6.56 billion people cannot afford a scenario of a fully paywalled web. We further discuss how a mixed model of the so-called "premium services" creates digital segregation and poses danger to online advertising ecosystem. Finally, we call for further research and policy initiatives to keep the web open and more inclusive with a sustainable business model.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-04
# 整数プログラミングによる公平な最小表現クラスタリング

Fair Minimum Representation Clustering via Integer Programming ( http://arxiv.org/abs/2409.02963v1 )

ライセンス: Link先を確認
Connor Lawless, Oktay Gunluk, (参考訳) クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。 多くのアプリケーションにおいて、これらのクラスタは実世界の構成(例えば、選挙地区、プレイリスト、テレビチャンネル)に対応しており、最小レベルの表現(例えば、50\%)に達すると、グループによってのみ利益が得られる。 本稿では、各群(例えば、人口統計群)が少なくとも与えられたクラスタ数の最小表現レベルを持つ必要があるという追加の制約を伴って、k平均とkメディアンのクラスタリング問題を考察する。 混合整数最適化フレームワークを用いて問題を定式化し, フェアネス制約を直接組み込んだ最小化アルゴリズムMiniReLを提案する。 公平性基準を取り入れたアルゴリズムではNP-Hardの割り当て問題が発生するが、大規模データセットにおいてもアルゴリズムを実用的なものにするための計算手法を提供する。 数値的な結果から,標準的なベンチマークデータセット間のクラスタリングコストを実質的に増加させることなく,より公平なクラスタを構築することが可能であることが示唆された。

Clustering is an unsupervised learning task that aims to partition data into a set of clusters. In many applications, these clusters correspond to real-world constructs (e.g., electoral districts, playlists, TV channels) whose benefit can only be attained by groups when they reach a minimum level of representation (e.g., 50\% to elect their desired candidate). In this paper, we study the k-means and k-medians clustering problems with the additional constraint that each group (e.g., demographic group) must have a minimum level of representation in at least a given number of clusters. We formulate the problem through a mixed-integer optimization framework and present an alternating minimization algorithm, called MiniReL, that directly incorporates the fairness constraints. While incorporating the fairness criteria leads to an NP-Hard assignment problem within the algorithm, we provide computational approaches that make the algorithm practical even for large datasets. Numerical results show that the approach is able to create fairer clusters with practically no increase in the clustering cost across standard benchmark datasets.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# 彼らが何を言ったか、何をしたか信頼しているか? 個人化された説明を提供するマルチモーダル・ユーザー・エンベッド

Do We Trust What They Say or What They Do? A Multimodal User Embedding Provides Personalized Explanations ( http://arxiv.org/abs/2409.02965v1 )

ライセンス: Link先を確認
Zhicheng Ren, Zhiping Xiao, Yizhou Sun, (参考訳) ソーシャルメディアの急速な発展に伴い、ソーシャルネットワークのユーザーデータ分析の重要性も重要視されている。 ソーシャルメディアにおけるユーザ表現学習は、パーソナライズされたコンテンツ配信を行うか、悪意のあるアクターを検出することができる、重要な研究領域である。 他の多くのデータよりも複雑であるため、ソーシャルネットワークのユーザーデータは本質的にマルチモーダルな性質を持っている。 テキスト(ポストコンテンツ)とリレーショナル(ユーザ間インタラクション)の両方を活用して、高品質なユーザ埋め込みを学習するために、様々なマルチモーダルアプローチが提案されている。 グラフニューラルネットワークモデルの出現により、ソーシャルネットワークにおけるユーザテキストの埋め込みとユーザインタラクショングラフのエンドツーエンド統合がより強化される。 しかし、これらのアプローチのほとんどは、特定のタスク下で個々のユーザを予測する上で、データ(テキストやグラフ構造情報)のどの側面が役に立つかを適切に解明していない。 本稿では,ソーシャルネットワークのためのコントリビューション対応マルチモーダルユーザ埋め込み(CAMUE)という,シンプルで効果的なフレームワークを提案する。 我々は,信頼できない情報の影響を自動的に軽減し,パーソナライズされた説明可能な予測を提供することを実証的証拠で実証した。 ケーススタディも実施し、その結果がどの程度妥当かを示した。 ほとんどのユーザにとって、グラフ構造情報はテキスト情報よりも信頼できるが、テキストがより役に立つような合理的なケースもある。 私たちの仕事は、より説明しやすく、信頼性があり、効果的なソーシャルメディアユーザー埋め込みの道を開くことで、パーソナライズされたコンテンツ配信を改善できます。

With the rapid development of social media, the importance of analyzing social network user data has also been put on the agenda. User representation learning in social media is a critical area of research, based on which we can conduct personalized content delivery, or detect malicious actors. Being more complicated than many other types of data, social network user data has inherent multimodal nature. Various multimodal approaches have been proposed to harness both text (i.e. post content) and relation (i.e. inter-user interaction) information to learn user embeddings of higher quality. The advent of Graph Neural Network models enables more end-to-end integration of user text embeddings and user interaction graphs in social networks. However, most of those approaches do not adequately elucidate which aspects of the data - text or graph structure information - are more helpful for predicting each specific user under a particular task, putting some burden on personalized downstream analysis and untrustworthy information filtering. We propose a simple yet effective framework called Contribution-Aware Multimodal User Embedding (CAMUE) for social networks. We have demonstrated with empirical evidence, that our approach can provide personalized explainable predictions, automatically mitigating the impact of unreliable information. We also conducted case studies to show how reasonable our results are. We observe that for most users, graph structure information is more trustworthy than text information, but there are some reasonable cases where text helps more. Our work paves the way for more explainable, reliable, and effective social media user embedding which allows for better personalized content delivery.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# ブロックチェーンのスケーラビリティに関する包括的調査

A Comprehensive Survey of Blockchain Scalability: Shaping Inner-Chain and Inter-Chain Perspectives ( http://arxiv.org/abs/2409.02968v1 )

ライセンス: Link先を確認
Baochao Chen, Liyuan Ma, Hao Xu, Juncheng Ma, Dengcheng Hu, Xiulong Liu, Jie Wu, Jianrong Wang, Keqiu Li, (参考訳) ブロックチェーンは物流、金融、農業に広く応用されている。 単一のブロックチェーンユーザが増えるにつれて、スケーラビリティが重要になります。 しかしながら、既存の作業には、ブロックチェーンのスケーラビリティに関する包括的な要約が欠けている。 単一のチェーンやクロスチェーン技術に重点を置いています。 この調査では、物理層と論理層、さらにはインナーチェーン、チェーン間、テクノロジ次元にわたるスケーラビリティについて要約する。 物理層はデータとプロトコルを、論理層はブロックチェーンアーキテクチャをカバーしている。 各コンポーネントは、技術的要因を考慮して、インナーチェーンとチェーン間の観点から分析される。 目的は、ブロックチェーンのアーキテクチャ、データ、プロトコルに対する研究者の理解を高め、スケーラビリティの研究を促進することである。

Blockchain is widely applied in logistics, finance, and agriculture. As single blockchain users grow, scalability becomes crucial. However, existing works lack a comprehensive summary of blockchain scalability. They focus on single chains or cross-chain technologies. This survey summarizes scalability across the physical and logical layers, as well as inner-chain, inter-chain, and technology dimensions. The physical layer covers data and protocols, while the logical layer represents blockchain architecture. Each component is analyzed from inner-chain and inter-chain perspectives, considering technological factors. The aim is to enhance researchers' understanding of blockchain's architecture, data, and protocols to advance scalability research.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# LibMOON: PyTorchのグラディエントベースの多目的最適化ライブラリ

LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch ( http://arxiv.org/abs/2409.02969v1 )

ライセンス: Link先を確認
Xiaoyuan Zhang, Liang Zhao, Yingying Yu, Xi Lin, Zhenkun Wang, Han Zhao, Qingfu Zhang, (参考訳) マルチ目的最適化問題(MOP)は、機械学習、マルチタスク学習、公正性や堅牢性制約下での学習などにおいて広く用いられている。 複数の目的関数をスカラー目的関数に還元する代わりに、MOPは、数百万のパラメータを持つモデルよりも複数の目的関数を同時に最適化することを含む、いわゆるパレート最適性(Pareto optimality)あるいはパレート集合学習(Pareto set learning)を最適化することを目指している。 MOPの既存のベンチマークライブラリは、主に進化アルゴリズムに焦点を当てており、そのほとんどは、目的物からの高次情報を効果的に活用せず、数百万のパラメータを持つ大規模モデルにスケールできないゼロ階法である。 本稿では,このギャップを考慮し,最先端の勾配法をサポートする初の多目的最適化ライブラリであるLibMOONを紹介する。

Multiobjective optimization problems (MOPs) are prevalent in machine learning, with applications in multi-task learning, learning under fairness or robustness constraints, etc. Instead of reducing multiple objective functions into a scalar objective, MOPs aim to optimize for the so-called Pareto optimality or Pareto set learning, which involves optimizing more than one objective function simultaneously, over models with millions of parameters. Existing benchmark libraries for MOPs mainly focus on evolutionary algorithms, most of which are zeroth-order methods that do not effectively utilize higher-order information from objectives and cannot scale to large-scale models with millions of parameters. In light of the above gap, this paper introduces LibMOON, the first multiobjective optimization library that supports state-of-the-art gradient-based methods, provides a fair benchmark, and is open-sourced for the community.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# センサデータに基づく高齢者の食事行動モニタリング:教師なし分類法の比較

Meal-taking activity monitoring in the elderly based on sensor data: Comparison of unsupervised classification methods ( http://arxiv.org/abs/2409.02971v1 )

ライセンス: Link先を確認
Abderrahim Derouiche, Damien Brulin, Eric Campo, Antoine Piau, (参考訳) 高齢化に向けた人口動態の変化を特徴とする時代には, 虚弱化を鑑み, 栄養モニタリングの改善が急務である。 本研究の目的は、K-Means、GMM、DBSCAN技術を組み合わせて食事摂取活動の識別を強化することである。 The Davies-Bouldin Index (DBI) for the optimal meal taking activity clustering, the results showed that K-Means is best Solution, because the unrivalled efficiency in data demarcation, compared the capabilities of GMM and DBSCAN。 複雑なパターンとアウトリーチを識別できるが、後者の手法は操作上の複雑さと正確なパラメータ設定への依存によって制限される。 本稿では,センサを備えた4軒の住宅のデータを処理した。 その結果, K-Means法の適用により, 特にDBI(Davies-Bouldin Index)の低値が証明され, 最適なクラスター分離と凝集を図った。 GMMアルゴリズムを用いて各活動の平均時間を計算することにより、食事摂取活動の様々なカテゴリを識別することができる。 あるいは、各食事摂取活動に適合する日時が異なる場合もある。 K-Means、GMM、DBSCANクラスタリングアルゴリズムを用いて、データを完全に理解するための効果的な戦略を示す。 このアプローチは、最適な食事摂取活動クラスタリングのための最も適した方法の比較と選択を容易にする。

In an era marked by a demographic change towards an older population, there is an urgent need to improve nutritional monitoring in view of the increase in frailty. This research aims to enhance the identification of meal-taking activities by combining K-Means, GMM, and DBSCAN techniques. Using the Davies-Bouldin Index (DBI) for the optimal meal taking activity clustering, the results show that K-Means seems to be the best solution, thanks to its unrivalled efficiency in data demarcation, compared with the capabilities of GMM and DBSCAN. Although capable of identifying complex patterns and outliers, the latter methods are limited by their operational complexities and dependence on precise parameter configurations. In this paper, we have processed data from 4 houses equipped with sensors. The findings indicate that applying the K-Means method results in high performance, evidenced by a particularly low Davies-Bouldin Index (DBI), illustrating optimal cluster separation and cohesion. Calculating the average duration of each activity using the GMM algorithm allows distinguishing various categories of meal-taking activities. Alternatively, this can correspond to different times of the day fitting to each meal-taking activity. Using K-Means, GMM, and DBSCAN clustering algorithms, the study demonstrates an effective strategy for thoroughly understanding the data. This approach facilitates the comparison and selection of the most suitable method for optimal meal-taking activity clustering.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# SDOoop: ストリーミングデータ解析における周期パターンと相外異常のキャプチャ

SDOoop: Capturing Periodical Patterns and Out-of-phase Anomalies in Streaming Data Analysis ( http://arxiv.org/abs/2409.02973v1 )

ライセンス: Link先を確認
Alexander Hartl, Félix Iglesias Vázquez, Tanja Zseby, (参考訳) ストリーミングデータ分析は、IoT、サイバーセキュリティ、ロボティクス、メカトロニクス、サイバー物理システムといったアプリケーションでますます必要とされている。 関連性はあるものの、オープンな課題を抱える新興分野である。 SDOは、速度、解釈可能性、直感的なパラメータ化の要件を満たすために設計された最近の異常検出手法である。 本研究では、SDOのストリーミングバージョンを拡張して、データ構造の時間的情報を保持するSDOoopを提案する。 SDOoopは、従来のアルゴリズムでは検出できないコンテキスト異常を特定し、データジオメトリ、クラスタ、時間パターンの検査を可能にする。 我々はSDOoopを使って、重要なインフラにおける実際のネットワーク通信をモデル化し、それらのダイナミクスを明らかにするパターンを抽出した。 さらに, 侵入検知や自然科学領域のデータを用いてSDOoopを評価し, 最先端手法に匹敵する性能を得た。 この結果から,ストリーミングデータの解析と解析を行う新たなモデルベース手法の可能性が示唆された。 SDOoopはサンプル単位の空間と時間的複雑さで動作するため、ビッグデータには理想的であり、大量の情報を即座に処理できる。 SDOoopは、精度とスピードに加えて、高度に解釈可能な情報モデルを提供すると期待されている、次世代機械学習に準拠している。

Streaming data analysis is increasingly required in applications, e.g., IoT, cybersecurity, robotics, mechatronics or cyber-physical systems. Despite its relevance, it is still an emerging field with open challenges. SDO is a recent anomaly detection method designed to meet requirements of speed, interpretability and intuitive parameterization. In this work, we present SDOoop, which extends the capabilities of SDO's streaming version to retain temporal information of data structures. SDOoop spots contextual anomalies undetectable by traditional algorithms, while enabling the inspection of data geometries, clusters and temporal patterns. We used SDOoop to model real network communications in critical infrastructures and extract patterns that disclose their dynamics. Moreover, we evaluated SDOoop with data from intrusion detection and natural science domains and obtained performances equivalent or superior to state-of-the-art approaches. Our results show the high potential of new model-based methods to analyze and explain streaming data. Since SDOoop operates with constant per-sample space and time complexity, it is ideal for big data, being able to instantly process large volumes of information. SDOoop conforms to next-generation machine learning, which, in addition to accuracy and speed, is expected to provide highly interpretable and informative models.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# LLMにおける幻覚検出:高速かつメモリ効率の良い微調整モデル

Hallucination Detection in LLMs: Fast and Memory-Efficient Finetuned Models ( http://arxiv.org/abs/2409.02976v1 )

ライセンス: Link先を確認
Gabriel Y. Arteaga, Thomas B. Schön, Nicolas Pielawski, (参考訳) 不確実性推定は、自動運転車や医療、保険といったリスクの高い環境でAIを実装する際に必要となる要素である。 大規模言語モデル(LLM)は近年、人気が高まっているが、幻覚を受けており、リスクの高い環境で深刻な被害を被る可能性がある。 LLMの成功にもかかわらず、トレーニングと実行にはコストがかかり、大量の計算とメモリが必要であり、実際にアンサンブルメソッドを使用するのを防いでいる。 本研究では,LLMアンサンブルの高速かつメモリフレンドリーな学習を可能にする新しい手法を提案する。 結果として得られるアンサンブルは幻覚を検知でき、訓練や推論に1つのGPUしか必要としないため、現実的なアプローチであることを示す。

Uncertainty estimation is a necessary component when implementing AI in high-risk settings, such as autonomous cars, medicine, or insurances. Large Language Models (LLMs) have seen a surge in popularity in recent years, but they are subject to hallucinations, which may cause serious harm in high-risk settings. Despite their success, LLMs are expensive to train and run: they need a large amount of computations and memory, preventing the use of ensembling methods in practice. In this work, we present a novel method that allows for fast and memory-friendly training of LLM ensembles. We show that the resulting ensembles can detect hallucinations and are a viable approach in practice as only one GPU is needed for training and inference.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# ソフトウェア工学のための大規模言語モデルベースエージェント:調査

Large Language Model-Based Agents for Software Engineering: A Survey ( http://arxiv.org/abs/2409.02977v1 )

ライセンス: Link先を確認
Junwei Liu, Kaixin Wang, Yixuan Chen, Xin Peng, Zhenpeng Chen, Lingming Zhang, Yiling Lou, (参考訳) 近年のLarge Language Models(LLM)の進歩は、AIエージェント、すなわちLLMベースのエージェントの新しいパラダイムを形成している。 スタンドアロンのLLMと比較して、LCMベースのエージェントは、外部のリソースやツールを知覚し活用する能力でLSMを拡張して、LCMの汎用性と専門性を大幅に拡張する。 これまで、LLMベースのエージェントが適用され、ソフトウェア工学(SE)において顕著な効果を示した。 複数のエージェントと人間の相互作用の相乗効果は、複雑な実世界のSE問題に対処する際のさらなる約束をもたらす。 本研究は,SE のための LLM ベースのエージェントに関する総合的かつ体系的な調査である。 我々は106の論文を収集し、それらを2つの視点、すなわちSEとエージェントの観点から分類する。 さらに、この重要な領域におけるオープンな課題と今後の方向性についても論じる。 この調査のリポジトリはhttps://github.com/FudanSELab/Agent4SE-Paper-Listにある。

The recent advance in Large Language Models (LLMs) has shaped a new paradigm of AI agents, i.e., LLM-based agents. Compared to standalone LLMs, LLM-based agents substantially extend the versatility and expertise of LLMs by enhancing LLMs with the capabilities of perceiving and utilizing external resources and tools. To date, LLM-based agents have been applied and shown remarkable effectiveness in Software Engineering (SE). The synergy between multiple agents and human interaction brings further promise in tackling complex real-world SE problems. In this work, we present a comprehensive and systematic survey on LLM-based agents for SE. We collect 106 papers and categorize them from two perspectives, i.e., the SE and agent perspectives. In addition, we discuss open challenges and future directions in this critical domain. The repository of this survey is at https://github.com/FudanSELab/Agent4SE-Paper-List.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# Vec2Face: 制約の少ないベクトルによる顔データセット生成のスケーリング

Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors ( http://arxiv.org/abs/2409.02979v1 )

ライセンス: Link先を確認
Haiyu Wu, Jaskirat Singh, Sicong Tian, Liang Zheng, Kevin W. Bowyer, (参考訳) 本稿では,既存の人物の顔画像を合成し,顔認識モデル(FR)を効果的に訓練するデータセットを作成する方法について検討する。 2つの重要なゴールは、(1) 多数の異なるアイデンティティ(クラス間分離)を生成し、(2) 個々のアイデンティティ(クラス内変異)の外観が広範囲に変化する能力である。 しかし、現存する作品 1)は通常、よく区切られたアイデンティティをいくつ生成できるかに制限される。 2) 属性拡張のために別個の編集モデルを無視するか、使用します。 本稿では,サンプルベクトルのみを入力とし,顔画像とその属性を柔軟に生成・制御できる総合モデルであるVec2Faceを提案する。 機能マスク付きオートエンコーダとデコーダで構成されたVec2Faceは、顔画像再構成によって監視され、推論に便利に使用できる。 Vec2Faceは、それらの間の類似性が低いベクトルを入力として使用し、よく分離されたIDを生成する。 入力IDベクトルを小さな範囲内でランダムに摂動することで、Vec2Faceは顔属性の頑健な変化で同一のIDの顔を生成することができる。 また、勾配降下法を用いてベクトル値を調整することにより、指定された属性を持つ画像を生成することもできる。 Vec2Faceは、1500万枚の画像を持つ300万枚のIDを効率よく合成している。 10kから300kまでのHSFaceデータセットでトレーニングされたFRモデルは、5つの実世界のテストセットで、最先端の精度を92%から93.52%に向上させる。 合成トレーニングセットを用いて作成したモデルは,実顔画像の同スケールトレーニングセット(CALFWテストセット)を用いて作成したモデルよりも高い精度を実現した。

This paper studies how to synthesize face images of non-existent persons, to create a dataset that allows effective training of face recognition (FR) models. Two important goals are (1) the ability to generate a large number of distinct identities (inter-class separation) with (2) a wide variation in appearance of each identity (intra-class variation). However, existing works 1) are typically limited in how many well-separated identities can be generated and 2) either neglect or use a separate editing model for attribute augmentation. We propose Vec2Face, a holistic model that uses only a sampled vector as input and can flexibly generate and control face images and their attributes. Composed of a feature masked autoencoder and a decoder, Vec2Face is supervised by face image reconstruction and can be conveniently used in inference. Using vectors with low similarity among themselves as inputs, Vec2Face generates well-separated identities. Randomly perturbing an input identity vector within a small range allows Vec2Face to generate faces of the same identity with robust variation in face attributes. It is also possible to generate images with designated attributes by adjusting vector values with a gradient descent method. Vec2Face has efficiently synthesized as many as 300K identities with 15 million total images, whereas 60K is the largest number of identities created in the previous works. FR models trained with the generated HSFace datasets, from 10k to 300k identities, achieve state-of-the-art accuracy, from 92% to 93.52%, on five real-world test sets. For the first time, our model created using a synthetic training set achieves higher accuracy than the model created using a same-scale training set of real face images (on the CALFW test set).
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# DREAMSの作成方法:拡散モデルと点雲を用いた衛星銀河・サブハロ人口のエミュレート

How DREAMS are made: Emulating Satellite Galaxy and Subhalo Populations with Diffusion Models and Point Clouds ( http://arxiv.org/abs/2409.02980v1 )

ライセンス: Link先を確認
Tri Nguyen, Francisco Villaescusa-Navarro, Siddharth Mishra-Sharma, Carolina Cuesta-Lazaro, Paul Torrey, Arya Farahi, Alex M. Garcia, Jonah C. Rose, Stephanie O'Neil, Mark Vogelsberger, Xuejian Shen, Cian Roche, Daniel Anglés-Alcázar, Nitya Kallivayalil, Julian B. Muñoz, Francis-Yan Cyr-Racine, Sandip Roy, Lina Necib, Kassidy E. Kollmann, (参考訳) 銀河と宿主の暗黒物質(DM)ハロスの関連は、宇宙論、銀河形成、DM物理学の理解に不可欠である。 今後の宇宙探査の再開を最大化するためには、この複雑な関係をモデル化する正確な方法が必要である。 この接続をモデル化するために、Halo Occupation Distribution (HOD) から経験的および半解析的モデル、流体力学まで、多くの技術が開発されている。 流体力学シミュレーションはより詳細な天体物理過程を組み込むことができるが、計算コストが高い。 本研究では,変分拡散モデルとトランスフォーマーに基づく生成フレームワークであるNeHODについて,流体力学シミュレーションの精度で,HODと類似した計算コストで,DM上に銀河・サブハロスを描く。 銀河・サブハロを点雲としてモデル化することで、双晶やボキセル化の代わりに、シミュレーションの解像度まで小さな空間スケールを解決できる。 それぞれのハロについて、NeHODは中心銀河と衛星銀河の位置、速度、質量、濃度を予測する。 DREAMSプロジェクトのTNG-Warm DMスイート上でNeHODをトレーニングする。 本モデルでは, 質量関数, 恒星-ハロ質量関係, 濃度-質量関係, 空間クラスタリングなど, シミュレーションパラメータの関数として, サブハロ物性間の複雑な関係を捉える。 この手法は、銀河団クラスタリングから強いレンズリング研究まで、様々な下流応用に利用できる。

The connection between galaxies and their host dark matter (DM) halos is critical to our understanding of cosmology, galaxy formation, and DM physics. To maximize the return of upcoming cosmological surveys, we need an accurate way to model this complex relationship. Many techniques have been developed to model this connection, from Halo Occupation Distribution (HOD) to empirical and semi-analytic models to hydrodynamic. Hydrodynamic simulations can incorporate more detailed astrophysical processes but are computationally expensive; HODs, on the other hand, are computationally cheap but have limited accuracy. In this work, we present NeHOD, a generative framework based on variational diffusion model and Transformer, for painting galaxies/subhalos on top of DM with an accuracy of hydrodynamic simulations but at a computational cost similar to HOD. By modeling galaxies/subhalos as point clouds, instead of binning or voxelization, we can resolve small spatial scales down to the resolution of the simulations. For each halo, NeHOD predicts the positions, velocities, masses, and concentrations of its central and satellite galaxies. We train NeHOD on the TNG-Warm DM suite of the DREAMS project, which consists of 1024 high-resolution zoom-in hydrodynamic simulations of Milky Way-mass halos with varying warm DM mass and astrophysical parameters. We show that our model captures the complex relationships between subhalo properties as a function of the simulation parameters, including the mass functions, stellar-halo mass relations, concentration-mass relations, and spatial clustering. Our method can be used for a large variety of downstream applications, from galaxy clustering to strong lensing studies.
翻訳日:2024-09-07 01:16:35 公開日:2024-09-04
# 光格子におけるトポロジカルポンピングに基づく量子回路

Quantum circuits based on topological pumping in optical lattices ( http://arxiv.org/abs/2409.02984v1 )

ライセンス: Link先を確認
Zijie Zhu, Yann Kiefer, Samuel Jele, Marius Gächter, Giacomo Bisson, Konrad Viebahn, Tilman Esslinger, (参考訳) 量子回路を構成するゲート演算は、デジタル量子シミュレーションと量子処理の基礎を形成する。 2ビットゲートは一般に近接する隣り合って動作するが、多くの回路は非局所接続を必要とし、SWAPゲートの繰り返し適用やクビットシャットリングのようなある種の量子情報転送を必要とする。 このような輸送中の運動コヒーレンスを保存することは、ゲートの忠実度とクビット接続を改善し、局所フェルミオンモードを接続する上で重要な課題である。 ここでは、超交換相互作用に基づくフェルミオンカリウム-40原子間の調整可能なゲート操作と、トポロジカルThoulessポンプによる光格子内の双方向輸送を組み合わせる。 原子一重項対の1シフト忠実度は、50以上の格子サイトにおいて99.57(4)%であることを示す。 我々は,多数のランダム分散フェルミオンスピン一重項対を空間的に,コヒーレントに分割し,輸送中に遭遇する原子間の$($SWAP$)^\alpha$-gate演算を示す。 フェミオン間の絡み合いのサインとして,多周波一重項-三重項振動を観測した。 トポロジカルポンピングは一般に長寿命の原子および分子状態に適用され、特に状態依存光学格子を用いた輸送に固有の寿命制限を克服する。 我々の研究は、量子情報の輸送のための新しい道を開き、フェルミオンモードに基づくアプローチや原子干渉計など、量子回路における工学的接続に先例のない可能性を提供する。

Gate operations composed in quantum circuits form the basis of digital quantum simulation and quantum processing. While two-qubit gates generally operate between nearest neighbours, many circuits require non-local connectivity, necessitating some form of quantum information transport, such as the repeated application of SWAP gates or qubit shuttling. Preserving motional coherence during such transport remains a key challenge to improve gate fidelity and qubit connectivity, as well as to connect local fermionic modes. Here we combine tuneable gate operations between fermionic potassium-40 atoms - based on superexchange interaction - with their bidirectional transport via topological Thouless pumping in an optical lattice. We demonstrate shuttling of atomic singlet pairs with a single-shift fidelity of 99.57(4)% over 50 lattice sites. We spatially and coherently split a large number of randomly distributed fermionic spin singlet pairs and show $($SWAP$)^\alpha$-gate operations between atoms encountering each other during transport. As a signature of entanglement between fermions separated over large distances and interwoven with each other, we observe multi-frequency singlet-triplet oscillations. Topological pumping is generally applicable to long-lived atomic and molecular states, and specifically overcomes lifetime limitations inherent to transport using state-dependent optical lattices. Our work opens up new avenues for transport of quantum information and offers unprecedented possibilities for engineering connectivity in quantum circuits, including approaches based on fermionic modes, as well as for atom interferometry.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# トラップイオン量子シミュレーションの進歩

Progress in Trapped-Ion Quantum Simulation ( http://arxiv.org/abs/2409.02990v1 )

ライセンス: Link先を確認
Michael Foss-Feig, Guido Pagano, Andrew C. Potter, Norman Y. Yao, (参考訳) トラップされたイオンは、長いコヒーレンス時間と高忠実度、プログラム可能な量子演算を提供し、凝縮物質系の量子シミュレーション、量子力学、高エネルギー物理学に関する問題のための有望なプラットフォームとなる。 我々は、トラップイオン量子ビットおよびアーキテクチャにおける選択された展開をレビューし、これらの新興機能を利用する量子シミュレーションアプリケーションについて議論する。 このレビューでは、フレキシブルキュービット接続、選択的中回路計測、古典的なフィードバックなどのトラップイオンハードウェア機能を利用するデジタル(ゲートベース)量子シミュレーションの発展を強調し、長距離相互作用を持つモデルをシミュレートし、非ユニタリダイナミクスを探索し、限られた絡み合いを持つ状態のシミュレーションを圧縮し、長距離絡み合い状態の準備やシミュレートに必要な回路深さを減らす。

Trapped ions offer long coherence times and high fidelity, programmable quantum operations, making them a promising platform for quantum simulation of condensed matter systems, quantum dynamics, and problems related to high-energy physics. We review selected developments in trapped-ion qubits and architectures and discuss quantum simulation applications that utilize these emerging capabilities. This review emphasizes developments in digital (gate-based) quantum simulations that exploit trapped-ion hardware capabilities, such as flexible qubit connectivity, selective mid-circuit measurement, and classical feedback, to simulate models with long-range interactions, explore non-unitary dynamics, compress simulations of states with limited entanglement, and reduce the circuit depths required to prepare or simulate long-range entangled states.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# マクロスケールにおける量子論

Quantum theory at the macroscopic scale ( http://arxiv.org/abs/2409.03001v1 )

ライセンス: Link先を確認
Miguel Gallego, Borivoje Dakić, (参考訳) 顕微鏡世界の量子的記述は、数学的にも概念的にも、マクロ世界の古典的な記述とは相容れない。 それにもかかわらず、古典力学はマクロ極限における量子力学から現れると一般に受け入れられている。 本稿では、この観点に挑戦し、量子フォーマリズムのすべての側面を、デコヒーレンス、粒子の損失、粗粒度(不正確)測定に対して頑健な方法で維持できることを実証する。 このマクロシステムに関する古典的な記述からの逸脱は、単に数学的ではなく概念的なものであり、ベルの不等式とレゲット=ガルグの不等式を明示的に破ることによって示される。

The quantum description of the microscopic world is incompatible with the classical description of the macroscopic world, both mathematically and conceptually. Nevertheless, it is generally accepted that classical mechanics emerges from quantum mechanics in the macroscopic limit. In this letter, we challenge this perspective and demonstrate that the behavior of a macroscopic system can retain all aspects of the quantum formalism, in a way that is robust against decoherence, particle losses and coarse-grained (imprecise) measurements. This departure from the expected classical description of macroscopic systems is not merely mathematical but also conceptual, as we show by the explicit violation of a Bell inequality and a Leggett-Garg inequality.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# PIETRA:物理インフォームド・エビデンシャル・ラーニング

PIETRA: Physics-Informed Evidential Learning for Traversing Out-of-Distribution Terrain ( http://arxiv.org/abs/2409.03005v1 )

ライセンス: Link先を確認
Xiaoyi Cai, James Queeney, Tong Xu, Aniket Datar, Chenhui Pan, Max Miller, Ashton Flather, Philip R. Osteen, Nicholas Roy, Xuesu Xiao, Jonathan P. How, (参考訳) 自己教師付き学習は、オフロードナビゲーションのためのトラバーサビリティモデルを開発するための強力なアプローチである。 既存の手法では、明らかな深層学習のような手法を用いて、モデルの不確実性を定量化し、分布外の地形を特定して回避する。 しかし、物理モデルを用いて新しい地形を効果的に解析できる場合、常に分布外の地形は過度に保守的である。 この課題を克服するために、我々は、物理の先行性を明らかなニューラルネットワークの数学的定式化に直接統合する自己教師型学習フレームワークであるPIETRAを導入し、不確実性を認識した物理インフォームドトレーニング損失を通じて暗黙的に物理知識を導入する。 我々の明らかなネットワークは、学習と物理に基づくアウト・オブ・ディストリビューション・インプットの予測をシームレスに遷移させる。 さらに、物理インフォームド・ロスは学習したモデルを規則化し、物理モデルとの整合性を確保する。 大規模なシミュレーションとハードウェア実験により、PIETRAは、大きな分散シフトのある環境における学習精度とナビゲーション性能の両方を改善することを示した。

Self-supervised learning is a powerful approach for developing traversability models for off-road navigation, but these models often struggle with inputs unseen during training. Existing methods utilize techniques like evidential deep learning to quantify model uncertainty, helping to identify and avoid out-of-distribution terrain. However, always avoiding out-of-distribution terrain can be overly conservative, e.g., when novel terrain can be effectively analyzed using a physics-based model. To overcome this challenge, we introduce Physics-Informed Evidential Traversability (PIETRA), a self-supervised learning framework that integrates physics priors directly into the mathematical formulation of evidential neural networks and introduces physics knowledge implicitly through an uncertainty-aware, physics-informed training loss. Our evidential network seamlessly transitions between learned and physics-based predictions for out-of-distribution inputs. Additionally, the physics-informed loss regularizes the learned model, ensuring better alignment with the physics model. Extensive simulations and hardware experiments demonstrate that PIETRA improves both learning accuracy and navigation performance in environments with significant distribution shifts.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# カメラ中心型モバイルクラウドソーシングアプリケーションの設計と評価

Design and Evaluation of Camera-Centric Mobile Crowdsourcing Applications ( http://arxiv.org/abs/2409.03012v1 )

ライセンス: Link先を確認
Abby Stylianou, Michelle Brachman, Albatool Wazzan, Samuel Black, Richard Souvenir, (参考訳) 画像検索やきめ細かい認識など、コンピュータビジョンや機械学習における自動化手法の根底にあるデータは、クラウドソーシングによってもたらされることが多い。 ユーザの本質的なモチベーションに依存したコンテキストでは,アプリケーション設計がユーザのコントリビューション意欲や,取得したデータの量や品質にどのように影響するかを理解する。 本研究では,ユーザの要求するラベル付け作業量によって異なるカメラベースのモバイルクラウドソーシングアプリケーションの3つのバージョンを設計し,ユーザの要求するユーザの情報量とラベル付き画像の量と品質との間のトレードオフを評価するためのユーザスタディを行った。 その結果,高いレベルのユーザラベリングがコントリビューションの削減につながることが示唆された。 ユーザ満足度を低下させることなく、最も要求の高いラベリングレベルを持つアプリケーションバージョンを使用して、最も多く画像を収集し、注釈付けした。 予備実験では、追加ラベル付きデータにより画像検索タスクのパフォーマンスが向上した。

The data that underlies automated methods in computer vision and machine learning, such as image retrieval and fine-grained recognition, often comes from crowdsourcing. In contexts that rely on the intrinsic motivation of users, we seek to understand how the application design affects a user's willingness to contribute and the quantity and quality of the data they capture. In this project, we designed three versions of a camera-based mobile crowdsourcing application, which varied in the amount of labeling effort requested of the user and conducted a user study to evaluate the trade-off between the level of user-contributed information requested and the quantity and quality of labeled images collected. The results suggest that higher levels of user labeling do not lead to reduced contribution. Users collected and annotated the most images using the application version with the highest requested level of labeling with no decrease in user satisfaction. In preliminary experiments, the additional labeled data supported increased performance on an image retrieval task.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 量子回路による置換のランダムサンプリング

Random sampling of permutations through quantum circuits ( http://arxiv.org/abs/2409.03018v1 )

ライセンス: Link先を確認
Bibhas Adhikari, (参考訳) 本稿では,Steinhaus-Johnson-Trotterアルゴリズムからインスピレーションを得た,置換のランダムサンプリングのための古典的アルゴリズムを提案する。 提案手法は, 置換標本を隣接転位生成物として表現することにより, 置換標本を包括的に把握する。 そこで我々は, 量子回路モデルを用いて, 量子回路モデルを用いて, $n$-qubit系に対する置換のランダムサンプリングを行う。 応用として,古典的データにおける平均差を量子回路モデルを用いて評価するために,2サンプルランダム化試験のための量子アルゴリズムを提案する。 最後に,対称群に対するネストしたコロナ積グラフ生成モデルを提案し,量子回路モデルによる特定の置換集合からの置換のランダムサンプリングを容易にする。

In this paper, we introduce classical algorithms for random sampling of permutations, drawing inspiration from the Steinhaus-Johnson-Trotter algorithm. Our approach takes a comprehensive view of permutation sampling by expressing them as products of adjacent transpositions. Building on this, we develop a quantum analogue of these classical algorithms using a quantum circuit model for random sampling of permutations for $n$-qubit systems. As an application, we present a quantum algorithm for the two-sample randomization test to assess the difference of means in classical data, utilizing a quantum circuit model. Finally, we propose a nested corona product graph generative model for symmetric groups, which facilitates random sampling of permutations from specific sets of permutations through a quantum circuit model.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# CLUE:大規模言語モデルにおける概念レベル不確実性推定

CLUE: Concept-Level Uncertainty Estimation for Large Language Models ( http://arxiv.org/abs/2409.03021v1 )

ライセンス: Link先を確認
Yu-Hsiang Wang, Andrew Bai, Che-Ping Tsai, Cho-Jui Hsieh, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語生成(NLG)タスクにおいて顕著な熟練性を示している。 以前の研究では、LLMの生成過程が不確実性を伴うことが示唆されている。 しかし、既存の不確実性推定へのアプローチは、主にシーケンス内の個々の情報を見渡すシーケンスレベルの不確実性に焦点を当てている。 これらの方法は、シーケンス内の各コンポーネントの不確かさを別々に評価するのに不足する。 そこで本研究では,LLMのための概念レベル不確実性推定(CLUE)のための新しいフレームワークを提案する。 LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。 我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行い,幻覚検出やストーリー生成といった様々なタスクに有用なツールとなることを実証した。

Large Language Models (LLMs) have demonstrated remarkable proficiency in various natural language generation (NLG) tasks. Previous studies suggest that LLMs' generation process involves uncertainty. However, existing approaches to uncertainty estimation mainly focus on sequence-level uncertainty, overlooking individual pieces of information within sequences. These methods fall short in separately assessing the uncertainty of each component in a sequence. In response, we propose a novel framework for Concept-Level Uncertainty Estimation (CLUE) for LLMs. We leverage LLMs to convert output sequences into concept-level representations, breaking down sequences into individual concepts and measuring the uncertainty of each concept separately. We conduct experiments to demonstrate that CLUE can provide more interpretable uncertainty estimation results compared with sentence-level uncertainty, and could be a useful tool for various tasks such as hallucination detection and story generation.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 境界:都市景観におけるオブジェクト検出のための光リアル合成データの生成

Boundless: Generating Photorealistic Synthetic Data for Object Detection in Urban Streetscapes ( http://arxiv.org/abs/2409.03022v1 )

ライセンス: Link先を確認
Mehmet Kerem Turkcan, Ian Li, Chengbo Zang, Javad Ghaderi, Gil Zussman, Zoran Kostic, (参考訳) 本研究では,高密度都市景観における高精度なオブジェクト検出を可能にする写真リアルな合成データ生成システムであるBoundlessを紹介する。 コンテキストレスは、大規模な実世界のデータ収集と手動の地上構造オブジェクトアノテーション(ラベル付け)を自動化され、設定可能なプロセスで置き換えることができる。 バウンドレスはUnreal Engine 5 (UE5) City Sampleプロジェクトをベースにしており、様々な照明とシーン変動条件で正確な3Dバウンディングボックスの収集を可能にしている。 中高度カメラから取得した実世界のデータセットの推測に使用する場合、Boundlessが生成したデータセットに基づいてトレーニングされたオブジェクト検出モデルの性能を評価する。 本研究では,境界のない学習モデルとCARLA学習モデルを比較し,7.8mAPの改善を観察する。 その結果,都市景観を対象とした大規模オブジェクト検出モデルの訓練・微調整を行う上で,合成データ生成は信頼性の高い手法である,という前提が得られた。

We introduce Boundless, a photo-realistic synthetic data generation system for enabling highly accurate object detection in dense urban streetscapes. Boundless can replace massive real-world data collection and manual ground-truth object annotation (labeling) with an automated and configurable process. Boundless is based on the Unreal Engine 5 (UE5) City Sample project with improvements enabling accurate collection of 3D bounding boxes across different lighting and scene variability conditions. We evaluate the performance of object detection models trained on the dataset generated by Boundless when used for inference on a real-world dataset acquired from medium-altitude cameras. We compare the performance of the Boundless-trained model against the CARLA-trained model and observe an improvement of 7.8 mAP. The results we achieved support the premise that synthetic data generation is a credible methodology for training/fine-tuning scalable object detection models for urban scenes.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# NUMOSIM: 異常検出ベンチマークを備えた合成モビリティデータセット

NUMOSIM: A Synthetic Mobility Dataset with Anomaly Detection Benchmarks ( http://arxiv.org/abs/2409.03024v1 )

ライセンス: Link先を確認
Chris Stanford, Suman Adari, Xishun Liao, Yueshuai He, Qinhua Jiang, Chenchen Kuai, Jiaqi Ma, Emmanuel Tung, Yinlong Qian, Lingyi Zhao, Zihao Zhou, Zeeshan Rasheed, Khurram Shafique, (参考訳) 現実世界のモビリティデータの収集は難しい。 プライバシーの懸念、論理的困難、および固有の偏見に悩まされることが多い。 さらに、微妙で複雑なパターンを区別するために細心の注意を要するため、大規模データの異常を正確にアノテートすることはほぼ不可能である。 これらの課題は、信頼性のあるデータへのアクセスを制限し、厳密な評価、比較、および方法論のベンチマークを複雑化することにより、地理空間異常検出研究の進展を著しく妨げた。 これらの制約に対処するため,我々はNUMOSIMという合成モビリティデータセットを導入し,異常検出手法のベンチマークを行うための制御,倫理的,多様な環境を提供する。 NUMOSIMは、さまざまな現実的なモビリティシナリオをシミュレートし、実際のモビリティデータに基づいてトレーニングされた高度なディープラーニングモデルによって生成された、典型的な動作と異常な動作の両方を包含する。 このアプローチにより、NUMOSIMは現実の運動パターンの複雑さを正確に再現し、人口統計学、地理空間学、時間的要因間の相互作用を効果的に捉えた検出アルゴリズムに、戦略的に異常を注入して挑戦し、評価することができる。 我々のゴールは、異常検出およびモビリティモデリング技術を改善するための現実的なベンチマークを提供することで、地理空間モビリティ解析を向上することである。 これをサポートするために、包括的なドキュメント、評価指標、ベンチマーク結果とともに、NUMOSIMデータセットへのオープンアクセスを提供しています。

Collecting real-world mobility data is challenging. It is often fraught with privacy concerns, logistical difficulties, and inherent biases. Moreover, accurately annotating anomalies in large-scale data is nearly impossible, as it demands meticulous effort to distinguish subtle and complex patterns. These challenges significantly impede progress in geospatial anomaly detection research by restricting access to reliable data and complicating the rigorous evaluation, comparison, and benchmarking of methodologies. To address these limitations, we introduce a synthetic mobility dataset, NUMOSIM, that provides a controlled, ethical, and diverse environment for benchmarking anomaly detection techniques. NUMOSIM simulates a wide array of realistic mobility scenarios, encompassing both typical and anomalous behaviours, generated through advanced deep learning models trained on real mobility data. This approach allows NUMOSIM to accurately replicate the complexities of real-world movement patterns while strategically injecting anomalies to challenge and evaluate detection algorithms based on how effectively they capture the interplay between demographic, geospatial, and temporal factors. Our goal is to advance geospatial mobility analysis by offering a realistic benchmark for improving anomaly detection and mobility modeling techniques. To support this, we provide open access to the NUMOSIM dataset, along with comprehensive documentation, evaluation metrics, and benchmark results.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 細かな画像のキャプションのための自己検索の再考

No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning ( http://arxiv.org/abs/2409.03025v1 )

ライセンス: Link先を確認
Manu Gaur, Darshan Singh S, Makarand Tapaswi, (参考訳) 画像キャプションシステムは、ノイズ(alt-text)またはジェネリック( Human Annotation)のいずれかのデータに基づいて訓練されているため、きめ細かいキャプションを生成することができない。 これは、頻発するフレーズの生成を促進する最大限の訓練によってさらに悪化する。 それまでの研究では、自己検索(SR)報酬による微調整キャプタによって、この制限に対処しようと試みてきた。 しかし,SRファインチューニングは,字幕の忠実度を低下させ,幻覚までも減少させる傾向があることが判明した。 本研究では,このボトルネックを回避するために,キャプションシステムのMLE初期化を改善し,SR微調整プロセスのカリキュラムを設計する。 そこで本研究では,(1)人間のアノテーションに固定されたまま,一般的な画像キャプションデータセットに細粒度を注入する新しいフレームワークであるビジュアルキャプションブースティング,(2)自己検索報酬の対照的な性質をより最適に活用する,慎重に設計されたトレーニングカリキュラムであるBagCurriを提案する。 共同で、キャプタは画像のきめ細かい面を記述でき、また、地味なキャプタへの忠実さを保っている。 提案手法は, SR において 99 個の乱発散器 (RD100) に対して+8.9% , ImageCoDe では+7.6% で, 従来よりも性能が向上した。 さらに、キャプションシステムを評価する既存のメトリクスは、多様性に報いるか、モデルのきめ細かい理解能力を評価するのに失敗する。 第3のコントリビューションでは、評価レンズから自己検索を提案することで、この問題に対処しています。 SRを用いて視覚的な微妙な特徴を捉えたキャプタの能力を評価する,非常に類似した画像の袋からなるベンチマークであるTrueMatchを紹介する。 我々はTrueMatch上で、最先端のオープンソースMLLMを評価し、比較し、我々のSRアプローチが、桁違いに少ないパラメータの1-2桁で、大きなマージン(例えば、カンブリアの4.8%から7.1%)でそれらを上回ります。

Image captioning systems are unable to generate fine-grained captions as they are trained on data that is either noisy (alt-text) or generic (human annotations). This is further exacerbated by maximum likelihood training that encourages generation of frequently occurring phrases. Previous works have tried to address this limitation by fine-tuning captioners with a self-retrieval (SR) reward. However, we find that SR fine-tuning has a tendency to reduce caption faithfulness and even hallucinate. In this work, we circumvent this bottleneck by improving the MLE initialization of the captioning system and designing a curriculum for the SR fine-tuning process. To this extent, we present (1) Visual Caption Boosting, a novel framework to instill fine-grainedness in generic image captioning datasets while remaining anchored in human annotations; and (2) BagCurri, a carefully designed training curriculum that more optimally leverages the contrastive nature of the self-retrieval reward. Jointly, they enable the captioner to describe fine-grained aspects in the image while preserving faithfulness to ground-truth captions. Our approach outperforms previous work by +8.9% on SR against 99 random distractors (RD100) (Dessi et al., 2023); and +7.6% on ImageCoDe. Additionally, existing metrics to evaluate captioning systems fail to reward diversity or evaluate a model's fine-grained understanding ability. Our third contribution addresses this by proposing self-retrieval from the lens of evaluation. We introduce TrueMatch, a benchmark comprising bags of highly similar images that uses SR to assess the captioner's ability to capture subtle visual distinctions. We evaluate and compare several state-of-the-art open-source MLLMs on TrueMatch, and find that our SR approach outperforms them all by a significant margin (e.g. +4.8% - 7.1% over Cambrian) while having 1-2 orders of magnitude fewer parameters.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# オープンソースの大規模言語モデルによるデバッグ: 評価

Debugging with Open-Source Large Language Models: An Evaluation ( http://arxiv.org/abs/2409.03031v1 )

ライセンス: Link先を確認
Yacine Majdoub, Eya Ben Charrada, (参考訳) 大規模言語モデルは、ソフトウェア開発タスクをサポートする大きな可能性を示しています。 そのため、ますます多くの開発者が、バグの多いコードを修正するためにLLM(例えば、ChatGPT)に目を向けています。 これは時間と労力を節約できるが、多くの企業は厳格なコード共有ポリシーのためにそれを禁止している。 これを解決するために、企業はオープンソースLLMをローカルで実行することができる。 しかし、これまで、デバッグにおけるオープンソースの大規模言語モデルの性能を評価する研究はあまり行われていない。 この研究は、バグの多いコードの修正におけるオープンソースのLLMの能力の予備的な評価である。 評価では、オープンソースの5つの大きな言語モデルと、Python、Java、C++で記述された4000以上のバグの多いコードインスタンスを含むベンチマークであるDebugBenchが使用されている。 オープンソースのLLMは43.9%から66.6%のスコアを獲得し、DeepSeek-Coderは3つのプログラミング言語で最高のスコアを獲得した。

Large language models have shown good potential in supporting software development tasks. This is why more and more developers turn to LLMs (e.g. ChatGPT) to support them in fixing their buggy code. While this can save time and effort, many companies prohibit it due to strict code sharing policies. To address this, companies can run open-source LLMs locally. But until now there is not much research evaluating the performance of open-source large language models in debugging. This work is a preliminary evaluation of the capabilities of open-source LLMs in fixing buggy code. The evaluation covers five open-source large language models and uses the benchmark DebugBench which includes more than 4000 buggy code instances written in Python, Java and C++. Open-source LLMs achieved scores ranging from 43.9% to 66.6% with DeepSeek-Coder achieving the best score for all three programming languages.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 逆レンダリングによる空中測光画像の一般アルベド復元手法

A General Albedo Recovery Approach for Aerial Photogrammetric Images through Inverse Rendering ( http://arxiv.org/abs/2409.03032v1 )

ライセンス: Link先を確認
Shuang Song, Rongjun Qin, (参考訳) 合成3D環境のための屋外シーンのモデリングには、生画像からの反射・アルベド情報の復元が必要であるが、これはこの過程における複雑な非モデル物理学(例えば、間接照明、体積散乱、スペクトル反射)による不適切な問題である。 その問題は実際的な文脈では未解決のままである。 回収されたアルベドは、モデルリライティングとシェーディングを容易にし、レンダリングされたモデルのリアリズムとデジタルツインの応用をさらに強化することができる。 通常、フォトグラムの3Dモデルでは、ソースイメージをテクスチャ素材として扱うだけで、不要な光のアーティファクト(キャプチャの時点で)をテクスチャに埋め込むことができる。 したがって、これらの汚染されたテクスチャは、現実的なレンダリングを可能にするために合成環境に最適である。 さらに、これらの組込み環境照明は、画像にマッチする不確実性を引き起こす異なる画像間の光一貫性にさらに課題をもたらす。 本稿では,自然照度下での典型的な空中測光画像からアルベドを復元するための一般的な画像形成モデルを提案する。 我々のアプローチは、太陽の照明と風景の幾何学の両方が空中光度計で推定可能であるという事実に基づいており、この不測な問題に対して直接の入力を提供することができる。 この物理に基づくアプローチは、典型的なドローンベースのフォトグラム収集によって得られたデータ以外の追加の入力を必要としない。 また, 得られたアルベド画像は, 特徴量, 高密度マッチング, エッジ, 線抽出などの画像解析において, 典型的な画像処理タスクを改善することができることを示した。

Modeling outdoor scenes for the synthetic 3D environment requires the recovery of reflectance/albedo information from raw images, which is an ill-posed problem due to the complicated unmodeled physics in this process (e.g., indirect lighting, volume scattering, specular reflection). The problem remains unsolved in a practical context. The recovered albedo can facilitate model relighting and shading, which can further enhance the realism of rendered models and the applications of digital twins. Typically, photogrammetric 3D models simply take the source images as texture materials, which inherently embed unwanted lighting artifacts (at the time of capture) into the texture. Therefore, these polluted textures are suboptimal for a synthetic environment to enable realistic rendering. In addition, these embedded environmental lightings further bring challenges to photo-consistencies across different images that cause image-matching uncertainties. This paper presents a general image formation model for albedo recovery from typical aerial photogrammetric images under natural illuminations and derives the inverse model to resolve the albedo information through inverse rendering intrinsic image decomposition. Our approach builds on the fact that both the sun illumination and scene geometry are estimable in aerial photogrammetry, thus they can provide direct inputs for this ill-posed problem. This physics-based approach does not require additional input other than data acquired through the typical drone-based photogrammetric collection and was shown to favorably outperform existing approaches. We also demonstrate that the recovered albedo image can in turn improve typical image processing tasks in photogrammetry such as feature and dense matching, edge, and line extraction.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# MDNF:メッシュ上のニューラルネットワークのためのマルチ拡散ネットワーク

MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes ( http://arxiv.org/abs/2409.03034v1 )

ライセンス: Link先を確認
Avigail Cohen Rimon, Tal Shnitzer, Mirela Ben Chen, (参考訳) 本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。 ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な空間分解能レベルと高い周波数帯域を関連付けることにより、空間領域と周波数領域を分解し、粗い分解能を低い周波数にマッピングする。 幾何を考慮した空間分解を実現するために,複数のDiffusionNet成分をそれぞれ異なる空間分解レベルに関連付ける。 次に、より微細な分解能レベルを高周波数に関連付けるために、フーリエ特徴写像を適用した。 最終信号は、低周波信号の上に高周波信号を集約する正弦波活性化MLPを用いてウェーブレットにインスパイアされた方法で構成される。 我々のアーキテクチャは、複雑なニューラルネットワークの学習において高い精度を実現し、不連続性、ターゲットフィールドの指数スケールの変動、メッシュ修正に対して堅牢である。 本稿では, 合成RGB関数, UVテクスチャ座標, 頂点正規化などの多種多様なニューラルネットワークへの応用を通じて, アプローチの有効性を実証する。 提案手法の有効性を検証するため,2つの代替手法と比較し,マルチ解像度アーキテクチャの利点を示す。

We propose a novel framework for representing neural fields on triangle meshes that is multi-resolution across both spatial and frequency domains. Inspired by the Neural Fourier Filter Bank (NFFB), our architecture decomposes the spatial and frequency domains by associating finer spatial resolution levels with higher frequency bands, while coarser resolutions are mapped to lower frequencies. To achieve geometry-aware spatial decomposition we leverage multiple DiffusionNet components, each associated with a different spatial resolution level. Subsequently, we apply a Fourier feature mapping to encourage finer resolution levels to be associated with higher frequencies. The final signal is composed in a wavelet-inspired manner using a sine-activated MLP, aggregating higher-frequency signals on top of lower-frequency ones. Our architecture attains high accuracy in learning complex neural fields and is robust to discontinuities, exponential scale variations of the target field, and mesh modification. We demonstrate the effectiveness of our approach through its application to diverse neural fields, such as synthetic RGB functions, UV texture coordinates, and vertex normals, illustrating different challenges. To validate our method, we compare its performance against two alternatives, showcasing the advantages of our multi-resolution architecture.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 生成モデルは分配外変量シフトを検出できるか?

Can Your Generative Model Detect Out-of-Distribution Covariate Shift? ( http://arxiv.org/abs/2409.03043v1 )

ライセンス: Link先を確認
Christiaan Viviers, Amaan Valiuddin, Francisco Caetano, Lemar Abdi, Lena Filatova, Peter de With, Fons van der Sommen, (参考訳) センサデータのアウト・オブ・ディストリビューション~(OOD)の検出と共変量分布シフトは、キャプチャー、ノーマル、イン・ディストリビューション(ID)セットに異なる高レベル画像統計を持つ新しいテスト例を特定することを目的としている。 既存のOOD検出文献は、共変量シフトに対するコンセンサスをほとんど含まないセマンティックシフトに重点を置いている。 生成モデルは教師なしの方法でIDデータをキャプチャし、下流のタスクに関係なく、この学習された分布から著しく逸脱したサンプルを効果的に識別する。 本研究では,多種多様なモデルを含む広範囲な解析を通じて,生成モデルがドメイン固有の共変量シフトを検出し,定量化する能力を明らかにする。 この結果から,高頻度信号依存および独立性の詳細のみをモデル化することで,発生頻度の高い感覚障害(大域信号統計における異常や偏差)を検出することができると推測した。 条件付き正規化フロー(cNFs)を用いた異方性高周波数画像成分の共変処理に適したOOD検出のための新しい手法であるCovariateFlowを提案する。 CIFAR10 対 CIFAR10-C と ImageNet200 対 ImageNet200-C では,OOD 共変量シフトを正確に検出し,本手法の有効性を示した。 この研究は、共変量シフトの存在下でのOOD検出において、イメージングシステムの忠実性の向上と機械学習モデルの支援に寄与する。

Detecting Out-of-Distribution~(OOD) sensory data and covariate distribution shift aims to identify new test examples with different high-level image statistics to the captured, normal and In-Distribution (ID) set. Existing OOD detection literature largely focuses on semantic shift with little-to-no consensus over covariate shift. Generative models capture the ID data in an unsupervised manner, enabling them to effectively identify samples that deviate significantly from this learned distribution, irrespective of the downstream task. In this work, we elucidate the ability of generative models to detect and quantify domain-specific covariate shift through extensive analyses that involves a variety of models. To this end, we conjecture that it is sufficient to detect most occurring sensory faults (anomalies and deviations in global signals statistics) by solely modeling high-frequency signal-dependent and independent details. We propose a novel method, CovariateFlow, for OOD detection, specifically tailored to covariate heteroscedastic high-frequency image-components using conditional Normalizing Flows (cNFs). Our results on CIFAR10 vs. CIFAR10-C and ImageNet200 vs. ImageNet200-C demonstrate the effectiveness of the method by accurately detecting OOD covariate shift. This work contributes to enhancing the fidelity of imaging systems and aiding machine learning models in OOD detection in the presence of covariate shift.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# 非デスクトップデバイスにおけるパスワード入力の大規模調査

A Large-Scale Survey of Password Entry Practices on Non-Desktop Devices ( http://arxiv.org/abs/2409.03044v1 )

ライセンス: Link先を確認
John Sadik, Scott Ruoti, (参考訳) パスワードマネージャは、ユーザーがセキュリティを改善するためにパスワードを生成することを推奨する。 しかし, ユーザによるパスワード生成は避けられ, パスワードマネージャを使わずに生成したパスワードをデバイスに入力することが難しいという根拠を与えることが多い。 本稿では、米国、英国、欧州の個人を対象に、パスワードを入力するデバイスの範囲と、それらのデバイスにおけるパスワード入力に関わる課題について調査する(999ドル)。 パスワードマネージャを使わずにデバイスにパスワードを入力することは、よくあることであり、大きなユーザビリティの課題が伴う。 これらのユーザビリティの課題により、ユーザはパスワードを弱め、入力の容易さを高めることができる。 本稿は、今後の研究がこれらの課題にどう対処できるかを議論し、ユーザーが生成されたパスワードを採用することを奨励するものである。

Password managers encourage users to generate passwords to improve their security. However, research has shown that users avoid generating passwords, often giving the rationale that it is difficult to enter generated passwords on devices without a password manager. In this paper, we conduct a survey ($n=999$) of individuals from the US, UK, and Europe, exploring the range of devices on which they enter passwords and the challenges associated with password entry on those devices. We find that password entry on devices without password managers is a common occurrence and comes with significant usability challenges. These usability challenges lead users to weaken their passwords to increase the ease of entry. We conclude this paper with a discussion of how future research could address these challenges and encourage users to adopt generated passwords.
翻訳日:2024-09-07 00:59:44 公開日:2024-09-04
# オッドボールネス:言語モデルを用いた普遍的異常検出

Oddballness: universal anomaly detection with language models ( http://arxiv.org/abs/2409.03046v1 )

ライセンス: Link先を確認
Filip Graliński, Ryszard Staruch, Krzysztof Jurkiewicz, (参考訳) 本稿では,言語モデルを用いてテキスト中の異常(一般には任意のデータのシーケンス)を教師なしで検出する手法を提案する。 この手法は、言語モデルによって生成される確率(様相)を考察するが、低様相トークンに焦点をあてるのではなく、この論文で導入された新しい計量である奇異性を考える。 オッドボールネスは、与えられたトークンの ``strange'' が言語モデルに従ってどのようにあるかを測定する。 教師なしのセットアップが仮定された場合, ランダム性は, 単に低次事象を考慮すればよい, という文法的誤り検出タスク(テキスト異常検出の特定の場合)において示す。

We present a new method to detect anomalies in texts (in general: in sequences of any data), using language models, in a totally unsupervised manner. The method considers probabilities (likelihoods) generated by a language model, but instead of focusing on low-likelihood tokens, it considers a new metric introduced in this paper: oddballness. Oddballness measures how ``strange'' a given token is according to the language model. We demonstrate in grammatical error detection tasks (a specific case of text anomaly detection) that oddballness is better than just considering low-likelihood events, if a totally unsupervised setup is assumed.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# キンク励起の絡み目含量

Entanglement content of kink excitations ( http://arxiv.org/abs/2409.03048v1 )

ライセンス: Link先を確認
Luca Capizzi, Michele Mazzoni, (参考訳) 秩序相における量子一次元系は、シンクを対称性を破った真空の上の基本励起として認める。 キンクの散乱特性は準粒子の散乱と似ているが、その絡み合いに現れる異なる局所性特性を持つ。 本研究では, キンク励起の絡み合いエントロピーについて検討する。 まず、スピン-1/2鎖の特定の状態に関する詳細な計算を行い、これらの励起の健全な特徴を明らかにする。 第二に、ツイスト場と励起に付随する半局所場の間の代数的関係に基づく場理論の枠組みを提供し、この枠組みでR'enyiエントロピーを計算する。 有限個のキンクを持つ励起状態と対称性を破った基底状態とのエントロピー差の普遍的な予測は、大面積領域の極限におけるモデルの顕微鏡的詳細に依存しない。 最後に,Isingモデルの秩序相と乱相を関連づけたKramers-Wannier双対性の結果について論じる。

Quantum one-dimensional systems in their ordered phase admit kinks as elementary excitations above their symmetry-broken vacua. While the scattering properties of the kinks resemble those of quasiparticles, they have distinct locality features that are manifest in their entanglement content. In this work, we study the entanglement entropy of kink excitations. We first present detailed calculations for specific states of a spin-1/2 chain to highlight the salient features of these excitations. Second, we provide a field-theoretic framework based on the algebraic relations between the twist fields and the semilocal fields associated with the excitations, and we compute the R\'enyi entropies in this framework. We obtain universal predictions for the entropy difference between the excited states with a finite number of kinks and the symmetry-broken ground states, which do not depend on the microscopic details of the model in the limit of large regions. Finally, we discuss some consequences of the Kramers-Wannier duality, which relates the ordered and disordered phases of the Ising model, and we explain why, counterintuitively, no explicit relations between those phases are found at the level of entanglement.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 協調型マルチエージェント強化学習における分散実行のための集中学習入門

An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2409.03052v1 )

ライセンス: Link先を確認
Christopher Amato, (参考訳) マルチエージェント強化学習(MARL)は近年急速に普及している。 多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。 CTDEメソッドは、トレーニング中に集中的な情報を使用することができるが、分散的な方法で実行されるため、最も一般的な方法である。 CTDEは、利用可能な情報(例えば、他のエージェントポリシー、基礎となる状態)を使用できる独立したトレーニングフェーズを必要とする唯一のパラダイムです。 結果として、CTEメソッドよりもスケーラブルになり、実行中に通信を必要とせず、よく機能することが多い。 CTDEは、最も自然に協調的なケースに適合するが、どの情報が観測されるかによっては、競合や混合の設定に応用できる可能性がある。 このテキストは協調的なMARLにおけるCTDEの導入である。 これは、設定、基本的な概念、一般的な方法を説明することを目的としている。 CTDE MARLのすべての処理をカバーしていない。 私は、亜地域の主要な概念を理解し、省略した人たちに謝罪するために重要だと信じている仕事を含めてきました。

Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE). CTDE methods are the most common as they can use centralized information during training but execute in a decentralized manner -- using only information available to that agent during execution. CTDE is the only paradigm that requires a separate training phase where any available information (e.g., other agent policies, underlying states) can be used. As a result, they can be more scalable than CTE methods, do not require communication during execution, and can often perform well. CTDE fits most naturally with the cooperative case, but can be potentially applied in competitive or mixed settings depending on what information is assumed to be observed. This text is an introduction to CTDE in cooperative MARL. It is meant to explain the setting, basic concepts, and common methods. It does not cover all work in CTDE MARL as the subarea is quite extensive. I have included work that I believe is important for understanding the main concepts in the subarea and apologize to those that I have omitted.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# アフリカ・アメリカン・イングリッシュの人文とASRによる写本の文体的差異の定量化

Quantification of stylistic differences in human- and ASR-produced transcripts of African American English ( http://arxiv.org/abs/2409.03059v1 )

ライセンス: Link先を確認
Annika Heuser, Tyler Kendall, Miguel del Rio, Quinten McNamara, Nishchal Bhandari, Corey Miller, Migüel Jetté, (参考訳) 自動音声認識(ASR)システムの性能を評価するのに使用される精度の一般的な測定基準は、ヒューマン・トランククリバー(英語版)と同様に、複数のエラー源を説明できる。 verbatimとnon-verbatimのような統計的差異は、トレーニングとテストデータセットの違いがある場合、ASRのパフォーマンス評価において重要な役割を果たす。 この問題は、音声から正書法へのマッピングが標準化されていないような、表現不足の品種の音声に対して合成される。 アフリカ・アメリカン・イングリッシュ (AAE) の発話10時間のうち, 人体と2人のASRが生成する6種類の書き起こしの文体的差異を分類した。 本研究では, 単語誤り率 (WER) を指標として, これらのカテゴリ間の相互作用について検討した。 結果と全体的な分析は、ASR出力がトレーニングデータの人間翻訳者による決定の関数であることを示すのに役立ちます。

Common measures of accuracy used to assess the performance of automatic speech recognition (ASR) systems, as well as human transcribers, conflate multiple sources of error. Stylistic differences, such as verbatim vs non-verbatim, can play a significant role in ASR performance evaluation when differences exist between training and test datasets. The problem is compounded for speech from underrepresented varieties, where the speech to orthography mapping is not as standardized. We categorize the kinds of stylistic differences between 6 transcription versions, 4 human- and 2 ASR-produced, of 10 hours of African American English (AAE) speech. Focusing on verbatim features and AAE morphosyntactic features, we investigate the interactions of these categories with how well transcripts can be compared via word error rate (WER). The results, and overall analysis, help clarify how ASR outputs are a function of the decisions made by the training data's human transcribers.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 誤り検出とアウト・オブ・ディストリビューション検出への応用

Better Verified Explanations with Applications to Incorrectness and Out-of-Distribution Detection ( http://arxiv.org/abs/2409.03060v1 )

ライセンス: Link先を確認
Min Wu, Xiaofu Li, Haoze Wu, Clark Barrett, (参考訳) VeriX(VeriX:2212.01051, VeriX: arXiv:2212.01051)は,機械学習モデル出力に対して最適な検証説明を生成するシステムであり,検証説明のサイズと生成時間を大幅に改善するVeriX+を提案する。 サイズを改善するために有界な伝搬に基づく感度技術を導入し、時間を改善するための信頼度ランキング付き二分探索に基づくトラバーサルを導入し、これら2つのテクニックは直交的であり、独立に、あるいは一緒に使用することができる。 また、QuickXplain (Junker 2004) アルゴリズムを我々の設定に適応させ、サイズと時間の間のトレードオフを提供する方法を示す。 GTSRBデータセットでは38%,MNISTでは90%の時間短縮を実現した。 また、検証された説明の応用についても検討し、説明サイズが誤検出と分布外検出の両方に有用な指標であることを示す。

Building on VeriX (Verified eXplainability, arXiv:2212.01051), a system for producing optimal verified explanations for machine learning model outputs, we present VeriX+, which significantly improves both the size and the generation time of verified explanations. We introduce a bound propagation-based sensitivity technique to improve the size, and a binary search-based traversal with confidence ranking for improving time -- the two techniques are orthogonal and can be used independently or together. We also show how to adapt the QuickXplain (Junker 2004) algorithm to our setting to provide a trade-off between size and time. Experimental evaluations on standard benchmarks demonstrate significant improvements on both metrics, e.g., a size reduction of 38% on the GTSRB dataset and a time reduction of 90% on MNIST. We also explore applications of our verified explanations and show that explanation size is a useful proxy for both incorrectness detection and out-of-distribution detection.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 視線合成と照準のためのニューラル3次元表現への高密度距離深度化

Incorporating dense metric depth into neural 3D representations for view synthesis and relighting ( http://arxiv.org/abs/2409.03061v1 )

ライセンス: Link先を確認
Arkadeep Narayan Chaudhury, Igor Vasiljevic, Sergey Zakharov, Vitor Guizilini, Rares Ambrus, Srinivasa Narasimhan, Christopher G. Atkeson, (参考訳) 小さなシーンの正確な幾何学と写真リアリスティックな外観を合成することは、ゲーム、バーチャルリアリティー、ロボット操作、自律運転、便利な製品キャプチャ、消費者レベルの写真などにおいて魅力的なユースケースを持つ、活発な研究分野である。 ロボット工学にシーン幾何学と外観推定技術を適用すると、ロボットの動きやシーンクラッタの限られた範囲による視野の狭い円錐が、現在の推定技術に悪質な評価をもたらすこと、あるいは失敗することを発見した。 一方, ロボット応用においては, 立体法で直接測定し, 照明を制御できることが多い。 深度は、再現性を改善するためにオブジェクトの形状を推定し、マルチイルミネーション画像はリライトを容易にする。 本研究では, テクスチャと幾何学的エッジの曖昧さを両立させ, 形状と外観を両立させながら観察された人工物に, 濃厚な距離深度を組み込むことを実証する。 また、パイプラインに必要なデータを収集し、いくつかのトレーニングビューでリライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。

Synthesizing accurate geometry and photo-realistic appearance of small scenes is an active area of research with compelling use cases in gaming, virtual reality, robotic-manipulation, autonomous driving, convenient product capture, and consumer-level photography. When applying scene geometry and appearance estimation techniques to robotics, we found that the narrow cone of possible viewpoints due to the limited range of robot motion and scene clutter caused current estimation techniques to produce poor quality estimates or even fail. On the other hand, in robotic applications, dense metric depth can often be measured directly using stereo and illumination can be controlled. Depth can provide a good initial estimate of the object geometry to improve reconstruction, while multi-illumination images can facilitate relighting. In this work we demonstrate a method to incorporate dense metric depth into the training of neural 3D representations and address an artifact observed while jointly refining geometry and appearance by disambiguating between texture and geometry edges. We also discuss a multi-flash stereo camera system developed to capture the necessary data for our pipeline and show results on relighting and view synthesis with a few training views.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# MobileUNETR:効率的な医用画像分割のための軽量エンドツーエンドハイブリッド・ビジョン・トランスフォーマー

MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation ( http://arxiv.org/abs/2409.03062v1 )

ライセンス: Link先を確認
Shehan Perera, Yunus Erzurumlu, Deepak Gulati, Alper Yilmaz, (参考訳) 皮膚がんのセグメンテーションは、医療画像解析において重要な課題である。 多くの既存のソリューション、主にCNNベースのソリューションは、グローバルな文脈理解の欠如に関連する問題に直面している。 あるいは、大規模なTransformerモデルを使って、グローバルなコンテキストギャップを埋めるアプローチもあるが、モデルのサイズと計算の複雑さを犠牲にしている。 最後に、多くのTransformerベースのアプローチは、主にCNNベースのデコーダに依存し、Transformerベースのデコーダモデルの利点を見落としている。 これらの制約を認識しながら,モデルサイズを最小化しながら,CNNとトランスフォーマーの両方に関連する性能制約を克服することを目的としたMobileUNETRの導入により,効率的な画像セグメンテーションに向けた有望な歩みを示す,効率的な軽量ソリューションの必要性に対処する。 MobileUNETRには3つの主要な機能がある。 1) MobileUNETRは、ローカル・グローバル・コンテクストの特徴抽出を効率的にバランスさせるための軽量ハイブリッドCNN-Transformerエンコーダで構成されている。 2 マスク生成のためのデコード段階内の異なる解像度で低レベル及びグローバルな特徴を同時に活用する新規なハイブリッドデコーダ。 3) 大規模かつ複雑なアーキテクチャを超えると、MobileUNETRは300万のパラメータと1.3 GFLOPの計算複雑性により、それぞれ10倍と23倍のパラメータとFLOPSが減少する。 ISIC 2016、ISIC 2017、ISIC 2018、PH2データセットを含む4つの公的に利用可能な皮膚病変分類データセットに対する提案手法の有効性を検証するために、広範囲な実験を行った。 コードは、https://github.com/OSUPCVLab/MobileUNETR.gitで公開される。

Skin cancer segmentation poses a significant challenge in medical image analysis. Numerous existing solutions, predominantly CNN-based, face issues related to a lack of global contextual understanding. Alternatively, some approaches resort to large-scale Transformer models to bridge the global contextual gaps, but at the expense of model size and computational complexity. Finally many Transformer based approaches rely primarily on CNN based decoders overlooking the benefits of Transformer based decoding models. Recognizing these limitations, we address the need efficient lightweight solutions by introducing MobileUNETR, which aims to overcome the performance constraints associated with both CNNs and Transformers while minimizing model size, presenting a promising stride towards efficient image segmentation. MobileUNETR has 3 main features. 1) MobileUNETR comprises of a lightweight hybrid CNN-Transformer encoder to help balance local and global contextual feature extraction in an efficient manner; 2) A novel hybrid decoder that simultaneously utilizes low-level and global features at different resolutions within the decoding stage for accurate mask generation; 3) surpassing large and complex architectures, MobileUNETR achieves superior performance with 3 million parameters and a computational complexity of 1.3 GFLOP resulting in 10x and 23x reduction in parameters and FLOPS, respectively. Extensive experiments have been conducted to validate the effectiveness of our proposed method on four publicly available skin lesion segmentation datasets, including ISIC 2016, ISIC 2017, ISIC 2018, and PH2 datasets. The code will be publicly available at: https://github.com/OSUPCVLab/MobileUNETR.git
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# バックドアディフェンス、学習性、難読化

Backdoor defense, learnability and obfuscation ( http://arxiv.org/abs/2409.03077v1 )

ライセンス: Link先を確認
Paul Christiano, Jacob Hilton, Victor Lecomte, Mark Xu, (参考訳) 本研究では,攻撃者と防御者の間のゲームを用いて,バックドアに対する防御性に関する公式な概念を導入する。 このゲームでは、攻撃者は「トリガー」と呼ばれる特定の入力に対して異なる振る舞いをする関数を修正し、ほとんどどこでも同じ動作をする。 その後、ディフェンダーは評価時にトリガーを検出しようとする。 もしディフェンダーが十分高い確率で成功するなら、関数クラスは防御可能であると言われる。 防御を可能にする攻撃者に対する重要な制約は、攻撃者の戦略がランダムなチョーゼントリガーのために機能しなければならないことである。 私たちの定義は単純で、学習について明示的に言及していませんが、学習容易性と密接な関係があることを示します。 計算的に非有界な設定では、Hanneke et al (2022) の投票アルゴリズムを用いて、防御性が本質的に関数クラスのVC次元によって決定されることを示す。 計算的に有界な設定では、PAC学習性が効率のよい防御性を示すが、逆ではないことを示すために、同様の引数を用いる。 一方、多項式サイズ回路のクラスが効率よく防御できないことを示すために、区別不可能な難読化を用いる。 最後に、多項式サイズの決定木を、防御が学習よりも厳密に容易な自然な例として提示する。 そこで我々は,効率的な学習性と難読化の中間概念として,効率的な防御性を見いだした。

We introduce a formal notion of defendability against backdoors using a game between an attacker and a defender. In this game, the attacker modifies a function to behave differently on a particular input known as the "trigger", while behaving the same almost everywhere else. The defender then attempts to detect the trigger at evaluation time. If the defender succeeds with high enough probability, then the function class is said to be defendable. The key constraint on the attacker that makes defense possible is that the attacker's strategy must work for a randomly-chosen trigger. Our definition is simple and does not explicitly mention learning, yet we demonstrate that it is closely connected to learnability. In the computationally unbounded setting, we use a voting algorithm of Hanneke et al. (2022) to show that defendability is essentially determined by the VC dimension of the function class, in much the same way as PAC learnability. In the computationally bounded setting, we use a similar argument to show that efficient PAC learnability implies efficient defendability, but not conversely. On the other hand, we use indistinguishability obfuscation to show that the class of polynomial size circuits is not efficiently defendable. Finally, we present polynomial size decision trees as a natural example for which defense is strictly easier than learning. Thus, we identify efficient defendability as a notable intermediate concept in between efficient learnability and obfuscation.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# SUSY量子力学、(非)分析性、および$\ldots=相転移

SUSY Quantum Mechanics, (non)-Analyticity and $\ldots$ Phase Transitions ( http://arxiv.org/abs/2409.03081v1 )

ライセンス: Link先を確認
Alexander V Turbiner, (参考訳) これは、結合定数の不連続性はエネルギーと固有関数の両方で起こりうるという1D$ Schr\"odinger方程式を解析することによって示される。 驚くべきことに、エネルギー対結合定数に存在するこれらの不連続性は、以下の3つのタイプのみである。 (i)不連続エネルギー(第1次相転移に類似) (II)エネルギーが連続である間(第2次相転移と似ている)における不連続第一微分 (ii)エネルギーとそのすべての微分は連続であるが、函数は不連続点の下と上(無限次相転移に類似)が異なる。 超対称性(SUSY)量子力学はこの現象を研究するのに便利な枠組みを提供する。

It is shown by analyzing the $1D$ Schr\"odinger equation the discontinuities in the coupling constant can occur in both the energies and the eigenfunctions. Surprisingly, those discontinuities, which are present in the energies versus the coupling constant, are of three types only: (i) discontinuous energies (similar to the 1st order phase transitions), (ii) discontinuous first derivative in the energy while the energy is continuous (similar to the 2nd order phase transitions), (ii) the energy and all its derivatives are continuous but the functions are different below and above the point of discontinuity (similar to the infinite order phase transitions). Supersymmetric (SUSY) Quantum Mechanics provides a convenient framework to study this phenomenon.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 高速高忠実度断熱状態伝達のための量子幾何学的プロトコル

Quantum geometric protocols for fast high-fidelity adiabatic state transfer ( http://arxiv.org/abs/2409.03084v1 )

ライセンス: Link先を確認
Christian Ventura Meinersen, Stefano Bosco, Maximilian Rimbach-Russ, (参考訳) 高速かつ高忠実な演算を可能にする効率的な制御スキームは、実用的な量子計算には不可欠である。 しかし、現在の最適化プロトコルは、高密度エネルギーレベルスペクトルやクロストークを含む量子ビットを符号化する顕微鏡システムによって課される厳密な要求のために難航し、通常、動作の速度と忠実さのトレードオフを必要とする。 本稿では、量子計量テンソルに基づく最適制御のための一般的なフレームワークを開発することにより、これらの課題に対処する。 この枠組みは、高密度エネルギースペクトルであっても、フルタイム進化プロパゲータの代わりに系のハミルトニアンのみに基づいて高速で高忠実な断熱パルスを可能にし、基礎となるヒルベルト空間のサイズに依存しない。 さらに、このフレームワークは、追加の制御フィールドを必要とせずに、ダイアバティック遷移と状態依存のクロストーク効果を抑制する。 一例として、二重量子ドットにおける断熱電荷移動について検討し、性能を向上した最適制御パルスを求める。 幾何学的プロトコルでは,超高速な20nsパルスに対して,転送ファイドライトはF>99\%$以下であることが示される。

Efficient control schemes that enable fast, high-fidelity operations are essential for any practical quantum computation. However, current optimization protocols are intractable due to stringent requirements imposed by the microscopic systems encoding the qubit, including dense energy level spectra and cross talk, and generally require a trade-off between speed and fidelity of the operation. Here, we address these challenges by developing a general framework for optimal control based on the quantum metric tensor. This framework allows for fast and high-fidelity adiabatic pulses, even for a dense energy spectrum, based solely on the Hamiltonian of the system instead of the full time evolution propagator and independent of the size of the underlying Hilbert space. Furthermore, the framework suppresses diabatic transitions and state-dependent crosstalk effects without the need for additional control fields. As an example, we study the adiabatic charge transfer in a double quantum dot to find optimal control pulses with improved performance. We show that for the geometric protocol, the transfer fidelites are lower bounded $F>99\%$ for ultrafast 20 ns pulses, regardless of the size of the anti-crossing.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 医用画像セグメンテーションのための強化トレーニングデータセットの作成におけるAIと市民科学の結合

Coupling AI and Citizen Science in Creation of Enhanced Training Dataset for Medical Image Segmentation ( http://arxiv.org/abs/2409.03087v1 )

ライセンス: Link先を確認
Amir Syahmi, Xiangrong Lu, Yinxuan Li, Haoxuan Yao, Hanjun Jiang, Ishita Acharya, Shiyi Wang, Yang Nan, Xiaodan Xing, Guang Yang, (参考訳) 近年の医用画像と人工知能(AI)の進歩は診断能力を大幅に向上させたが、効果的な深層学習(DL)モデルの開発は、高品質な注釈付きデータセットの欠如により、いまだに制限されている。 医療専門家による従来の手作業によるアノテーションプロセスは、時間とリソース集約であり、これらのデータセットのスケーラビリティを制限している。 本研究では、AIとクラウドソーシングを組み合わせた堅牢で汎用的なフレームワークを導入し、さまざまなモダリティにわたる医療画像データセットの品質と量を改善する。 提案手法では,多様なクラウドアノテータ群が医療画像のラベル付けを効率的に行えるように,ユーザフレンドリーなオンラインプラットフォームを活用している。 MedSAMセグメンテーションAIをこのプラットフォームに統合することにより、私たちは、クラウドラベリングされたイメージをマージするアルゴリズムにより、専門家レベルの品質を維持しながら、アノテーションプロセスを加速する。 さらに、生成AIモデルであるpix2pixGANを用いて、リアルな形態的特徴をキャプチャする合成画像を用いてトレーニングデータセットを拡張する。 これらの手法は、拡張データセットを生成するために設計された凝集性フレームワークに統合され、あらゆる医学的深層学習セグメンテーションモデルのトレーニングを強化する普遍的な前処理パイプラインとして機能する。 このフレームワークは,特にトレーニングデータに制限がある場合,モデルの性能を著しく改善することを示す。

Recent advancements in medical imaging and artificial intelligence (AI) have greatly enhanced diagnostic capabilities, but the development of effective deep learning (DL) models is still constrained by the lack of high-quality annotated datasets. The traditional manual annotation process by medical experts is time- and resource-intensive, limiting the scalability of these datasets. In this work, we introduce a robust and versatile framework that combines AI and crowdsourcing to improve both the quality and quantity of medical image datasets across different modalities. Our approach utilises a user-friendly online platform that enables a diverse group of crowd annotators to label medical images efficiently. By integrating the MedSAM segmentation AI with this platform, we accelerate the annotation process while maintaining expert-level quality through an algorithm that merges crowd-labelled images. Additionally, we employ pix2pixGAN, a generative AI model, to expand the training dataset with synthetic images that capture realistic morphological features. These methods are combined into a cohesive framework designed to produce an enhanced dataset, which can serve as a universal pre-processing pipeline to boost the training of any medical deep learning segmentation model. Our results demonstrate that this framework significantly improves model performance, especially when training data is limited.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# LLMを用いた多言語単体テスト生成

Multi-language Unit Test Generation using LLMs ( http://arxiv.org/abs/2409.03093v1 )

ライセンス: Link先を確認
Rangeet Pan, Myeongsoo Kim, Rahul Krishna, Raju Pavuluri, Saurabh Sinha, (参考訳) 自動化された単体テストを実装することは重要なことですが、ソフトウェア開発では時間がかかります。 開発者はアプリケーションのバリデーションとレグレッションの防止のためにテストを書くことにかなりの時間を費やしている。 このタスクで開発者を支援するために、過去数十年にわたるソフトウェア工学の研究は、ユニットテスト生成を自動化するための多くの技術を開発した。 しかし、この努力にもかかわらず、主にJava、C、C#、さらに最近ではPythonなど、非常に少数のプログラミング言語で使えるツールが存在する。 さらに、自動生成されたテストは可読性に乏しく、しばしば開発者が書いたテストに似ていないことが研究で判明した。 本研究では,大きな言語モデル (LLM) がギャップを埋める上でどのように役立つか,厳密な調査を行う。 静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。 パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を説明します。 我々は、生成したテストの品質を、カバレッジ、突然変異スコア、テストの自然性の観点から評価するために、徹底的な実証的研究を行い、それらを、エンタープライズJavaアプリケーションや大規模なPythonベンチマークと同様に標準で評価した。 以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに優れた性能を発揮するとともに,開発者が読みやすく理解しやすいような,より自然なテストケースを生成できることが示唆された。 また,161人のプロ開発者が実施したユーザスタディの結果を報告する。

Implementing automated unit tests is an important but time consuming activity in software development. Developers dedicate substantial time to writing tests for validating an application and preventing regressions. To support developers in this task, software engineering research over the past few decades has developed many techniques for automating unit test generation. However, despite this effort, usable tools exist for very few programming languages -- mainly Java, C, and C# and, more recently, for Python. Moreover, studies have found that automatically generated tests suffer poor readability and often do not resemble developer-written tests. In this work, we present a rigorous investigation of how large language models (LLMs) can help bridge the gap. We describe a generic pipeline that incorporates static analysis to guide LLMs in generating compilable and high-coverage test cases. We illustrate how the pipeline can be applied to different programming languages, specifically Java and Python, and to complex software requiring environment mocking. We conducted a through empirical study to assess the quality of the generated tests in terms of coverage, mutation score, and test naturalness -- evaluating them on standard as well as enterprise Java applications and a large Python benchmark. Our results demonstrate that LLM-based test generation, when guided by static analysis, can be competitive with, and even outperform, state-of-the-art test-generation techniques in coverage achieved while also producing considerably more natural test cases that developers find easy to read and understand. We also present the results of a user study, conducted with 161 professional developers, that highlights the naturalness characteristics of the tests generated by our approach.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# スパースパウリ力学による2次元および3次元における実時間作用素の進化

Real-time operator evolution in two and three dimensions via sparse Pauli dynamics ( http://arxiv.org/abs/2409.03097v1 )

ライセンス: Link先を確認
Tomislav Begušić, Garnet Kin-Lic Chan, (参考訳) 最近開発された量子回路の期待値のシミュレーション法であるスパースパウリダイナミクスを用いて,実時間演算子の進化を研究する。 1次元スピン鎖におけるエネルギーと電荷の拡散の例と、2次元横場イジングモデルにおける急激なクエンチダイナミクスについて、このアプローチは最先端テンソルネットワーク法と競合することを示した。 さらに, テンソルネットワーク法において非常に困難な3次元横フィールドイジングモデルにおいて, クエンチダイナミクスを研究することによって, アプローチの柔軟性を実証する。 計算基底状態から始まる期待値ダイナミクスのシミュレーションのために、多数のXおよびY行列で項を破棄することにより、パウリ作用素の増大和を弱めるスパースパウリ力学の拡張を導入する。 これは我々の2次元および3次元シミュレーションによって検証される。 最後に、スパースパウリ力学は、挑戦的な観測対象を高精度に収束させるだけでなく、限られた計算資源を与えられたとしても、信頼性の高い近似的なアプローチとして機能することができると論じる。

We study real-time operator evolution using sparse Pauli dynamics, a recently developed method for simulating expectation values of quantum circuits. On the examples of energy and charge diffusion in 1D spin chains and sudden quench dynamics in the 2D transverse-field Ising model, it is shown that this approach can compete with state-of-the-art tensor network methods. We further demonstrate the flexibility of the approach by studying quench dynamics in the 3D transverse-field Ising model which is highly challenging for tensor network methods. For the simulation of expectation value dynamics starting in a computational basis state, we introduce an extension of sparse Pauli dynamics that truncates the growing sum of Pauli operators by discarding terms with a large number of X and Y matrices. This is validated by our 2D and 3D simulations. Finally, we argue that sparse Pauli dynamics is not only capable of converging challenging observables to high accuracy, but can also serve as a reliable approximate approach even when given only limited computational resources.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# トランスフォーマーの解釈可能性を活用してクラウドリソースの積極的なスケーリングを自動化する

Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources ( http://arxiv.org/abs/2409.03103v1 )

ライセンス: Link先を確認
Amadou Ba, Pavithra Harsha, Chitra Subramanian, (参考訳) 現代のWebサービスは、マイクロサービスの利点を活用するためにクラウドネイティブな原則を採用しています。 サービスレベル合意(SLA)に従って高い品質のサービス(QoS)を一貫して保証し、満足なユーザエクスペリエンスを確保し、運用コストを最小化するためには、各マイクロサービスに適切なリソースを供給する必要があります。 しかし、適切なリソースでマイクロサービスを正確にプロビジョニングするのは複雑で、ワークロードの強度やマイクロサービス間の複雑な相互接続など、多くの要因に依存します。 この課題に対処するために、エンドツーエンドのレイテンシ、フロントエンドレベルの要求、リソース利用の関係をキャプチャするモデルを開発する。 次に、開発したモデルを使用して、エンドツーエンドのレイテンシを予測します。 我々のソリューションは、解釈可能性機能を備えた注目型アーキテクチャであるTFT(Temporal Fusion Transformer)を活用している。 予測結果がSLA非準拠を示す場合,KRR(Kernel Ridge Regression)の共変量としてTFTが提供する特徴重要度を用いて,応答変数を所望のレイテンシとして,特徴重要度に関連するパラメータを学習する。 これらの学習されたパラメータは、SLA準拠を保証するために機能に必要な調整を反映します。 マイクロサービスベースのアプリケーションでアプローチのメリットを実証し、デプロイメントのロードマップを提供します。

Modern web services adopt cloud-native principles to leverage the advantages of microservices. To consistently guarantee high Quality of Service (QoS) according to Service Level Agreements (SLAs), ensure satisfactory user experiences, and minimize operational costs, each microservice must be provisioned with the right amount of resources. However, accurately provisioning microservices with adequate resources is complex and depends on many factors, including workload intensity and the complex interconnections between microservices. To address this challenge, we develop a model that captures the relationship between an end-to-end latency, requests at the front-end level, and resource utilization. We then use the developed model to predict the end-to-end latency. Our solution leverages the Temporal Fusion Transformer (TFT), an attention-based architecture equipped with interpretability features. When the prediction results indicate SLA non-compliance, we use the feature importance provided by the TFT as covariates in Kernel Ridge Regression (KRR), with the response variable being the desired latency, to learn the parameters associated with the feature importance. These learned parameters reflect the adjustments required to the features to ensure SLA compliance. We demonstrate the merit of our approach with a microservice-based application and provide a roadmap to deployment.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# 細胞レイアウト生成のための空間拡散

Spatial Diffusion for Cell Layout Generation ( http://arxiv.org/abs/2409.03106v1 )

ライセンス: Link先を確認
Chen Li, Xiaoling Hu, Shahira Abousamra, Meilong Xu, Chao Chen, (参考訳) GANや拡散モデルなどの生成モデルは、トレーニングセットの強化や、さまざまなタスクのパフォーマンス向上に使用されている。 我々は、細胞検出のための生成モデル、すなわち、与えられた病理画像中の細胞の位置と分類に焦点をあてる。 ほとんど見落とされた重要な情報のひとつは、細胞の空間的パターンである。 本稿では,セルレイアウト生成のための空間パターン誘導生成モデルを提案する。 具体的には,空間的特徴によってガイドされ,現実的なセルレイアウトを生成する新しい拡散モデルを提案する。 拡散モデルの空間的特徴として異なる密度モデルについて検討する。 下流タスクでは, 生成したセルレイアウトを用いて, 高品質な病理画像の生成を誘導できることを示す。 これらの画像の増大は、SOTA細胞検出法の性能を大幅に向上させる。 コードはhttps://github.com/superlc1995/Diffusion-cellで入手できる。

Generative models, such as GANs and diffusion models, have been used to augment training sets and boost performances in different tasks. We focus on generative models for cell detection instead, i.e., locating and classifying cells in given pathology images. One important information that has been largely overlooked is the spatial patterns of the cells. In this paper, we propose a spatial-pattern-guided generative model for cell layout generation. Specifically, a novel diffusion model guided by spatial features and generates realistic cell layouts has been proposed. We explore different density models as spatial features for the diffusion model. In downstream tasks, we show that the generated cell layouts can be used to guide the generation of high-quality pathology images. Augmenting with these images can significantly boost the performance of SOTA cell detection methods. The code is available at https://github.com/superlc1995/Diffusion-cell.
翻訳日:2024-09-06 22:55:47 公開日:2024-09-04
# RoboKoop:Koopman演算子を用いたロボットの視覚入力からの効率的な制御条件表現

RoboKoop: Efficient Control Conditioned Representations from Visual Input in Robotics using Koopman Operator ( http://arxiv.org/abs/2409.03107v1 )

ライセンス: Link先を確認
Hemant Kumawat, Biswadeep Chakraborty, Saibal Mukhopadhyay, (参考訳) 高次元観測から複雑な制御タスクを実行できるエージェントを開発することは、基礎となる堅牢なタスク制御ポリシーを必要とし、そのタスクに基礎となる視覚的表現を適用する自律エージェントの中核的な能力である。 既存のポリシーの多くは、多くのトレーニングサンプルを必要とし、この問題を事前訓練されたビジョンモデルに基づいて学習したコントローラを使って、2段階の学習のレンズから処理する。 我々は、この問題をクープマン理論のレンズからアプローチし、エージェントの安定化制御の文脈において、特定の下流タスクに条件付けられたロボットエージェントから視覚表現を学習する。 本研究では,高次元ラテント空間におけるエージェントの視覚データから効率的な線形化視覚表現を学習するコントラストスペクトル・クープマン・エンベディング・ネットワークを導入し,強化学習を用いて抽出した表現の上に線形制御を行う。 提案手法は,時間とともに勾配力学の安定性と制御を向上し,拡張地平線上での学習タスクポリシーの効率と精度を向上させることにより,既存手法よりも大幅に優れる。

Developing agents that can perform complex control tasks from high-dimensional observations is a core ability of autonomous agents that requires underlying robust task control policies and adapting the underlying visual representations to the task. Most existing policies need a lot of training samples and treat this problem from the lens of two-stage learning with a controller learned on top of pre-trained vision models. We approach this problem from the lens of Koopman theory and learn visual representations from robotic agents conditioned on specific downstream tasks in the context of learning stabilizing control for the agent. We introduce a Contrastive Spectral Koopman Embedding network that allows us to learn efficient linearized visual representations from the agent's visual data in a high dimensional latent space and utilizes reinforcement learning to perform off-policy control on top of the extracted representations with a linear controller. Our method enhances stability and control in gradient dynamics over time, significantly outperforming existing approaches by improving efficiency and accuracy in learning task policies over extended horizons.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# テンソルネットワークのためのループシリーズ展開

Loop Series Expansions for Tensor Networks ( http://arxiv.org/abs/2409.03108v1 )

ライセンス: Link先を確認
Glen Evenbly, Nicola Pancotti, Ashley Milsted, Johnnie Gray, Garnet Kin-Lic Chan, (参考訳) ネットワーク内の任意の閉ループからのコントリビューションが十分に弱い場合、BPはテンソルネットワークを概ね収縮するのに有用なツールである。 本書では, ループ列展開を用いてテンソルネットワークの縮約に対するBP近似の精度を, 原理的に正確な結果と任意に収束させることにより, 体系的に向上させる方法について述べる。 より一般的には、複雑性が増大する階層において、コンポーネントネットワークの和としてテンソルネットワークを拡張するためのフレームワークを提供する。 AKLTモデルの基底状態を表すか、ランダムに定義されたテンソルを持つiPEPSの縮約に関するこの提案をベンチマークし、計算コストがわずかに増大する一方、標準BPよりも数桁精度が向上することを示した。 これらの結果から,提案したシリーズ展開は,確立された収縮ルーチンの限界を超える場合のテンソルネットワークを正確に評価するための有用なツールである可能性が示唆された。

Belief propagation (BP) can be a useful tool to approximately contract a tensor network, provided that the contributions from any closed loops in the network are sufficiently weak. In this manuscript we describe how a loop series expansion can be applied to systematically improve the accuracy of a BP approximation to a tensor network contraction, in principle converging arbitrarily close to the exact result. More generally, our result provides a framework for expanding a tensor network as a sum of component networks in a hierarchy of increasing complexity. We benchmark this proposal for the contraction of iPEPS, either representing the ground state of an AKLT model or with randomly defined tensors, where it is shown to improve in accuracy over standard BP by several orders of magnitude whilst incurring only a minor increase in computational cost. These results indicate that the proposed series expansions could be a useful tool to accurately evaluate tensor networks in cases that otherwise exceed the limits of established contraction routines.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# MSTT-199:筋骨格軟部腫瘍切除のためのMRIデータセット

MSTT-199: MRI Dataset for Musculoskeletal Soft Tissue Tumor Segmentation ( http://arxiv.org/abs/2409.03110v1 )

ライセンス: Link先を確認
Tahsin Reasat, Stephen Chenard, Akhil Rekulapelli, Nicholas Chadwick, Joanna Shechtel, Katherine van Schaik, David S. Smith, Joshua Lawrenz, (参考訳) 腫瘍の大きさ, 位置, 診断, 治療に対する反応を評価するためには, 正確な筋骨格軟部腫瘍の分節化が不可欠である。 しかし、これらの腫瘍の分節化には臨床専門知識が必要であり、自動分節化モデルは臨床医と患者の両方にとって貴重な時間を節約できる。 自動モデルのトレーニングには、注釈付き画像の大きなデータセットが必要である。 本研究は,199例の骨格性軟部腫瘍のMR画像データセットの収集について述べる。 このデータセットでセグメンテーションモデルをトレーニングし、公開データセットでベンチマークしました。 当社のモデルは,精巧なチューニングを伴わずに,最先端のサイコロスコア0.79を達成し,キュレートされたデータセットの多様性と有用性を示した。 モデル解析の結果, 解剖学的位置, サイズ, 強度の不均一性などにより, 線維性, 血管腫瘍に異常が認められた。 コードとモデルは、以下のgithubリポジトリ、https://github.com/Reasat/msttで利用可能である。

Accurate musculoskeletal soft tissue tumor segmentation is vital for assessing tumor size, location, diagnosis, and response to treatment, thereby influencing patient outcomes. However, segmentation of these tumors requires clinical expertise, and an automated segmentation model would save valuable time for both clinician and patient. Training an automatic model requires a large dataset of annotated images. In this work, we describe the collection of an MR imaging dataset of 199 musculoskeletal soft tissue tumors from 199 patients. We trained segmentation models on this dataset and then benchmarked them on a publicly available dataset. Our model achieved the state-of-the-art dice score of 0.79 out of the box without any fine tuning, which shows the diversity and utility of our curated dataset. We analyzed the model predictions and found that its performance suffered on fibrous and vascular tumors due to their diverse anatomical location, size, and intensity heterogeneity. The code and models are available in the following github repository, https://github.com/Reasat/mstt
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# 正常とは何か?匿名インターネットトラフィックのビッグデータ観測科学モデル

What is Normal? A Big Data Observational Science Model of Anonymized Internet Traffic ( http://arxiv.org/abs/2409.03111v1 )

ライセンス: Link先を確認
Jeremy Kepner, Hayden Jananthan, Michael Jones, William Arcand, David Bestor, William Bergeron, Daniel Burrill, Aydin Buluc, Chansup Byun, Timothy Davis, Vijay Gadepally, Daniel Grant, Michael Houle, Matthew Hubbell, Piotr Luszczek, Lauren Milechin, Chasen Milner, Guillermo Morales, Andrew Morris, Julie Mullen, Ritesh Patel, Alex Pentland, Sandeep Pisharody, Andrew Prout, Albert Reuther, Antonio Rosa, Gabriel Wachman, Charles Yee, Peter Michaleas, (参考訳) 正常なものを理解することは、ドメインを保護する重要な側面である。 他の領域では、異常をよりよく検出する正常な行動のモデルを開発するために観察科学に多大な投資をしている。 GraphBLASのような高性能グラフライブラリの最近の進歩は、スーパーコンピュータと組み合わせることで、要求される何十兆もの観測の処理を可能にしている。 このアプローチを利用して、匿名化されたインターネットトラフィックの低パラメータ観測モデルを、プライバシーに配慮して合成する。

Understanding what is normal is a key aspect of protecting a domain. Other domains invest heavily in observational science to develop models of normal behavior to better detect anomalies. Recent advances in high performance graph libraries, such as the GraphBLAS, coupled with supercomputers enables processing of the trillions of observations required. We leverage this approach to synthesize low-parameter observational models of anonymized Internet traffic with a high regard for privacy.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# ワイヤバイワイヤ電気自動車を用いた自己駆動アルゴリズムの開発・解析・評価

Developing, Analyzing, and Evaluating Self-Drive Algorithms Using Drive-by-Wire Electric Vehicles ( http://arxiv.org/abs/2409.03114v1 )

ライセンス: Link先を確認
Beñat Froemming-Aldanondo, Tatiana Rastoskueva, Michael Evans, Marcial Machado, Anna Vadella, Rickey Johnson, Luis Escamilla, Milan Jostes, Devson Butani, Ryan Kaddis, Chan-Jin Chung, Joshua Siegel, (参考訳) 信頼性の高い車線追従アルゴリズムは安全かつ効果的な自動運転に不可欠である。 このプロジェクトは主に、V2Xプロジェクトの最も信頼性の高いアルゴリズムを見つけるために、異なるレーン追従プログラムを開発し評価することに焦点を当てた。 アルゴリズムはまずシミュレータ上でテストされ、次にROS(Robot Operating System)を使用した実車に搭載された。 彼らのパフォーマンスは、信頼性、快適さ、スピード、適応性の測定を通じて評価された。 その結果、最も信頼性の高い2つのアプローチは、両方の車線を検知し、教師なし学習を用いてそれらを分離することを示した。 これらのアプローチは様々な駆動シナリオにおいて堅牢であることが証明され、V2Xプロジェクトへの統合に適した候補となった。

Reliable lane-following algorithms are essential for safe and effective autonomous driving. This project was primarily focused on developing and evaluating different lane-following programs to find the most reliable algorithm for a Vehicle to Everything (V2X) project. The algorithms were first tested on a simulator and then with real vehicles equipped with a drive-by-wire system using ROS (Robot Operating System). Their performance was assessed through reliability, comfort, speed, and adaptability metrics. The results show that the two most reliable approaches detect both lane lines and use unsupervised learning to separate them. These approaches proved to be robust in various driving scenarios, making them suitable candidates for integration into the V2X project.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# 言語間差異を考慮した自己教師型音声モデルにおける自己意識の探索

Probing self-attention in self-supervised speech models for cross-linguistic differences ( http://arxiv.org/abs/2409.03115v1 )

ライセンス: Link先を確認
Sai Gopinath, Joselyn Rodriguez, (参考訳) 音声モデルは、新しいトランスフォーマーアーキテクチャによる精度の向上により、注目を集めている。 自動音声認識(ASR)ベンチマークにおけるこの顕著なパフォーマンス向上は注目に値するが、音声関連タスクにおける注意機構の使用についてはまだ不明な点が多い。 例えば、これらのモデルは言語に依存しない(つまり普遍的な)言語表現を学習していると仮定されるが、モデルが言語に依存しないことの意味について詳細な調査は行われていない。 本稿では,1つの自己教師型音声変換器モデル(TERA)の自己認識機構の領域内でこの問題を考察する。 たとえ小さなモデルであっても、学習された注目は、ほぼ完全に対角形からほぼ完全にグローバルなものまで様々である。 トルコ語と英語の注意パターンの顕著な違いを強調し,事前学習中に重要な音韻情報を学ぶことを示す。 また,音素を分類するために,言語間のモデルが主眼を斜めの頭部に頼っていることを示す頭部アブレーション研究も行った。

Speech models have gained traction thanks to increase in accuracy from novel transformer architectures. While this impressive increase in performance across automatic speech recognition (ASR) benchmarks is noteworthy, there is still much that is unknown about the use of attention mechanisms for speech-related tasks. For example, while it is assumed that these models are learning language-independent (i.e., universal) speech representations, there has not yet been an in-depth exploration of what it would mean for the models to be language-independent. In the current paper, we explore this question within the realm of self-attention mechanisms of one small self-supervised speech transformer model (TERA). We find that even with a small model, the attention heads learned are diverse ranging from almost entirely diagonal to almost entirely global regardless of the training language. We highlight some notable differences in attention patterns between Turkish and English and demonstrate that the models do learn important phonological information during pretraining. We also present a head ablation study which shows that models across languages primarily rely on diagonal heads to classify phonemes.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# 計算化学のための創発的人工知能 : 創発的現象を予測するためのロードマップ

Generative artificial intelligence for computational chemistry: a roadmap to predicting emergent phenomena ( http://arxiv.org/abs/2409.03118v1 )

ライセンス: Link先を確認
Pratyush Tiwary, Lukas Herron, Richard John, Suemin Lee, Disha Sanwal, Ruiyu Wang, (参考訳) 最近の生成人工知能(AI)の急増は、計算化学にエキサイティングな可能性をもたらした。 生成AI手法は、化学種全体にわたって分子構造をサンプリングし、力場を発達させ、シミュレーションを高速化する。 このパースペクティブは、生成AIと計算化学の両方の基本的な理論的概念から始まる、構造化された概要を提供する。 次に、オートエンコーダ、生成的敵ネットワーク、強化学習、フローモデル、言語モデルなど、広く使われているジェネレーティブAIメソッドをカバーし、力場開発やタンパク質/RNA構造予測など、さまざまな領域におけるそれらの選択された応用をハイライトする。 重要な焦点は、これらの手法が真に予測される前に直面する課題、特に創発的な化学現象を予測することである。 我々は、シミュレーション手法や理論の最終的な目標は、これまで見たことのない現象を予測することであり、生成AIは、化学に有用であると考えられる前に、これらの同じ基準に従うべきであると信じている。 これらの課題を克服するためには、将来のAIモデルは、特に統計力学から、核となる化学原理を統合する必要があると提案する。

The recent surge in Generative Artificial Intelligence (AI) has introduced exciting possibilities for computational chemistry. Generative AI methods have made significant progress in sampling molecular structures across chemical species, developing force fields, and speeding up simulations. This Perspective offers a structured overview, beginning with the fundamental theoretical concepts in both Generative AI and computational chemistry. It then covers widely used Generative AI methods, including autoencoders, generative adversarial networks, reinforcement learning, flow models and language models, and highlights their selected applications in diverse areas including force field development, and protein/RNA structure prediction. A key focus is on the challenges these methods face before they become truly predictive, particularly in predicting emergent chemical phenomena. We believe that the ultimate goal of a simulation method or theory is to predict phenomena not seen before, and that Generative AI should be subject to these same standards before it is deemed useful for chemistry. We suggest that to overcome these challenges, future AI models need to integrate core chemical principles, especially from statistical mechanics.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# QHDOPT:量子ハミルトニアンDescentを用いた非線形最適化ソフトウェア

QHDOPT: A Software for Nonlinear Optimization with Quantum Hamiltonian Descent ( http://arxiv.org/abs/2409.03121v1 )

ライセンス: Link先を確認
Samuel Kushnir, Jiaqi Leng, Yuxiang Peng, Lei Fan, Xiaodi Wu, (参考訳) 量子ハミルトニアン降下(QHD)アルゴリズムを用いて非線形最適化問題を解くことができる,オープンソースのエンドツーエンドソフトウェア(QHDOPT)を開発した。 QHDOPTはアクセス可能なインターフェースを提供し、様々なサポートされている量子バックエンド(量子ハードウェアマシン)にタスクを自動的にマッピングする。 これらの機能は、量子コンピューティングに関する事前の知識や経験のないユーザでさえ、非線形および非凸最適化タスクに既存の量子デバイスのパワーを利用することができる。 中間的なコンパイル層では、QHDOPTはハミルトン指向プログラミングの効率的なインターフェースであるSimuQを使用して、複数のアルゴリズム仕様を容易にし、互換性のあるクロスハードウェアデプロイメントを保証する。 QHDOPTの詳細なドキュメントはhttps://github.com/jiaqileng/QHDOPT.comで公開されている。

We develop an open-source, end-to-end software (named QHDOPT), which can solve nonlinear optimization problems using the quantum Hamiltonian descent (QHD) algorithm. QHDOPT offers an accessible interface and automatically maps tasks to various supported quantum backends (i.e., quantum hardware machines). These features enable users, even those without prior knowledge or experience in quantum computing, to utilize the power of existing quantum devices for nonlinear and nonconvex optimization tasks. In its intermediate compilation layer, QHDOPT employs SimuQ, an efficient interface for Hamiltonian-oriented programming, to facilitate multiple algorithmic specifications and ensure compatible cross-hardware deployment. The detailed documentation of QHDOPT is available at https://github.com/jiaqileng/QHDOPT.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# 低エネルギー物理からの高エネルギー物理

High Energy Physics from Low Energy Physics ( http://arxiv.org/abs/2409.03123v1 )

ライセンス: Link先を確認
Roland C. Farrell, (参考訳) 物理学において低エネルギーと高エネルギーでの物理学の分離は有用性を持つことが不可欠であり、キャノンボールの軌跡を計算するには量子重力の詳細は必要ない。 しかし、低エネルギーと高エネルギーの物理学は完全に独立ではないため、この論文はそれらが関連する2つの方法を探究する。 1つ目は、低エネルギーおよび高エネルギーでの散乱過程を関連付けるUV/IR対称性である。 このUV/IR対称性は、$S$-行列の幾何学的性質と、対応する実場理論におけるカップリング定数のRGフローに現れる。 低エネルギー核物理学は、このUV/IR対称性をほぼ実現し、核子-核子散乱の有効範囲拡大における形状パラメータの小さいことの説明を与え、中性子と陽子の間の相互作用を組織化する新しい方法を生み出した。 2つ目は、格子ゲージ理論をシミュレートするための量子コンピュータの利用である。 量子シミュレーションは量子力学の規則の普遍性に依存しており、15ミリケルビンの(低エネルギーの)トランモン量子ビットを(高エネルギーの)1TeVクォークとして記述することができる。 この論文は、量子コンピュータ上の1次元格子量子色力学の最初のシミュレーションを示し、ベータデカイのリアルタイムシミュレーションで頂点に達した。 量子コンピュータの100以上の量子ビット上での格子ゲージ理論の最初のシミュレーションの結果も示す。 この量子シミュレーションの論文で開発された手法は '`physics-aware' であり、研究中のシステムの長さスケールにおける対称性と階層によって導かれる。 これらの物理学的手法がなければ、格子ゲージ理論の100以上の量子ビットシミュレーションは、現在利用可能なノイズの多い量子コンピュータでは不可能である。

The separation between physics at low and high energies is essential for physics to have any utility; the details of quantum gravity are not necessary to calculate the trajectory of a cannon ball. However, physics at low and high energies are not completely independent, and this thesis explores two ways that they are related. The first is through a UV/IR symmetry that relates scattering processes at low and high energies. This UV/IR symmetry manifests in geometrical properties of the $S$-matrix, and of the RG flow of the coupling constants in the corresponding effective field theory. Low energy nuclear physics nearly realizes this UV/IR symmetry, providing an explanation for the smallness of shape parameters in the effective range expansion of nucleon-nucleon scattering, and inspiring a new way to organize the interactions between neutrons and protons. The second is through the use of quantum computers to simulate lattice gauge theories. Quantum simulations rely on the universality of the rules of quantum mechanics, which can be applied equally well to describe a (low energy) transmon qubit at 15 milli-Kelvin as a (high energy) 1 TeV quark. This thesis presents the first simulations of one dimensional lattice quantum chromodynamics on a quantum computer, culminating in a real-time simulation of beta-decay. Results from the first simulations of a lattice gauge theory on 100+ qubits of a quantum computer are also presented. The methods developed in this thesis for quantum simulation are ``physics-aware", and are guided by the symmetries and hierarchies in length scales of the systems being studied. Without these physics-aware methods, 100+ qubit simulations of lattice gauge theories would not have been possible on the noisy quantum computers that are presently available.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# ネットワークにおける公正情報アクセス改善のための高速アルゴリズム

Fast algorithms to improve fair information access in networks ( http://arxiv.org/abs/2409.03127v1 )

ライセンス: Link先を確認
Dennis Robert Windham, Caroline J. Wendt, Alex Crane, Sorelle A. Friedler, Blair D. Sullivan, Aaron Clauset, (参考訳) 情報がペア共有によってネットワーク全体に広まると、ネットワークの構造的不均一性から情報アクセスの大きな格差が発生する。 情報アクセスの公平性を向上させるアルゴリズムは、情報拡散によりシードする新しいノードを順次選択することにより、情報へのノードの最小アクセスを最大化する。 しかし、既存のアルゴリズムは計算コストが高い。 本稿では,ソーシャルネットワークにおける情報アクセスを改善するために,新しい10種類のスケーラブルアルゴリズムを開発し,評価する。 さらに,ネットワーク構造の特徴から,情報アクセスギャップを最小化するアルゴリズムの性能を事前に予測できる程度について検討した。 我々の新しいスケーラブルなアルゴリズムは、最先端のアルゴリズムと桁違いの速さで競合する。 我々は,高速アルゴリズムのどれが特定のネットワークに最適であるかを学習し,保持データに対する最先端のパフォーマンスよりも平均20%低い効率で,75~130倍高速なメタラーナアプローチを提案する。 さらに、ネットワークの約20%では、メタラーナーのパフォーマンスは最先端よりも高い。

When information spreads across a network via pairwise sharing, large disparities in information access can arise from the network's structural heterogeneity. Algorithms to improve the fairness of information access seek to maximize the minimum access of a node to information by sequentially selecting new nodes to seed with the spreading information. However, existing algorithms are computationally expensive. Here, we develop and evaluate a set of 10 new scalable algorithms to improve information access in social networks; in order to compare them to the existing state-of-the-art, we introduce both a new performance metric and a new benchmark corpus of networks. Additionally, we investigate the degree to which algorithm performance on minimizing information access gaps can be predicted ahead of time from features of a network's structure. We find that while no algorithm is strictly superior to all others across networks, our new scalable algorithms are competitive with the state-of-the-art and orders of magnitude faster. We introduce a meta-learner approach that learns which of the fast algorithms is best for a specific network and is on average only 20% less effective than the state-of-the-art performance on held-out data, while about 75-130 times faster. Furthermore, on about 20% of networks the meta-learner's performance exceeds the state-of-the-art.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# より良い社会的成果のためのサブシディデザイン

Subsidy design for better social outcomes ( http://arxiv.org/abs/2409.03129v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Matteo Pozzi, Dravyansh Sharma, (参考訳) マルチエージェントシステムにおける合理的プレイヤーの利己的行動の影響を克服することはゲーム理論における根本的な問題である。 中央のエージェントからの介入がなければ、戦略的なユーザは個人のユーティリティを最大限にするために行動を起こす。 最近の研究(Lin et al 2021)は、合理的エージェントの別の望ましくない行動を調査し、形式化した。 中央プランナーは、補助金を注入してシステムに関連するコストを低減し、システム性能の純利を得ることにより、これらの問題を著しく軽減することができる。 重要なことは、プランナーがこの補助金を効果的に割り当てる方法を決定する必要がある。 我々は、社会的利益を完璧に最適化する補助金の設計について、アナーキー価格の最小化や情報回避行動の防止の観点から、標準的な複雑性理論の仮定の下で計算的に困難であることを正式に示す。 肯定的な側面から、同じドメインから来る繰り返しゲームにおいて、補助金の優れた価値を確実に学習できることが示される。 このデータ駆動補助設計アプローチは、多項式的に多くのゲームから学習することで、目に見えないゲームの計算的に難しい問題を解くことを避ける。 また,オンラインゲームのオンラインシーケンスを考慮すれば,コスト行列の軽度な仮定の下で,最適助成金を学習できることも示している。 本研究は2つの異なるゲームに焦点を当てる: よく研究されている公正なコスト共有ゲームのベイズ拡張と、エンジニアリング応用によるコンポーネントメンテナンスゲームである。

Overcoming the impact of selfish behavior of rational players in multiagent systems is a fundamental problem in game theory. Without any intervention from a central agent, strategic users take actions in order to maximize their personal utility, which can lead to extremely inefficient overall system performance, often indicated by a high Price of Anarchy. Recent work (Lin et al. 2021) investigated and formalized yet another undesirable behavior of rational agents, that of avoiding freely available information about the game for selfish reasons, leading to worse social outcomes. A central planner can significantly mitigate these issues by injecting a subsidy to reduce certain costs associated with the system and obtain net gains in the system performance. Crucially, the planner needs to determine how to allocate this subsidy effectively. We formally show that designing subsidies that perfectly optimize the social good, in terms of minimizing the Price of Anarchy or preventing the information avoidance behavior, is computationally hard under standard complexity theoretic assumptions. On the positive side, we show that we can learn provably good values of subsidy in repeated games coming from the same domain. This data-driven subsidy design approach avoids solving computationally hard problems for unseen games by learning over polynomially many games. We also show that optimal subsidy can be learned with no-regret given an online sequence of games, under mild assumptions on the cost matrix. Our study focuses on two distinct games: a Bayesian extension of the well-studied fair cost-sharing game, and a component maintenance game with engineering applications.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# それは急速にエスカレートした:Single-Turn Crescendo Attack (STCA)

Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA) ( http://arxiv.org/abs/2409.03131v1 )

ライセンス: Link先を確認
Alan Aqrawi, (参考訳) 本稿では,大規模言語モデルに対する敵対的攻撃(LLM: Single-Turn Crescendo Attack,STCA: Single-Turn Crescendo Attack)に対する新たなアプローチについて検討する。 STCAは、マーク・ルシノヴィッチ、アフメド・セイラム、ロネン・エルダンが設立したマルチターン・クレシデンド攻撃に基づいている。 従来の多ターン敵戦略は、LSMから有害または論争的な反応を引き出すために、文脈を徐々にエスカレートする。 しかし,本研究では,エスカレーションを1つの相互作用に凝縮するより効率的な手法を提案する。 拡張ダイアログをシミュレートするプロンプトを慎重に作成することで、攻撃は典型的なコンテンツモデレーションシステムをバイパスし、通常はフィルタリングされる応答を生成する。 私はいくつかのケーススタディを通してこのテクニックを実演します。 その結果、現在のLLMの脆弱性を強調し、より堅牢なセーフガードの必要性を浮き彫りにした。 この研究は、責任あるAI(RAI)の安全性と敵対的なテストに関する幅広い議論に寄与し、研究者や開発者にとって洞察と実践的な例を提供する。 この手法は文学では未解明であり、この分野に新しい貢献をしている。

This paper explores a novel approach to adversarial attacks on large language models (LLM): the Single-Turn Crescendo Attack (STCA). The STCA builds upon the multi-turn crescendo attack established by Mark Russinovich, Ahmed Salem, Ronen Eldan. Traditional multi-turn adversarial strategies gradually escalate the context to elicit harmful or controversial responses from LLMs. However, this paper introduces a more efficient method where the escalation is condensed into a single interaction. By carefully crafting the prompt to simulate an extended dialogue, the attack bypasses typical content moderation systems, leading to the generation of responses that would normally be filtered out. I demonstrate this technique through a few case studies. The results highlight vulnerabilities in current LLMs and underscore the need for more robust safeguards. This work contributes to the broader discourse on responsible AI (RAI) safety and adversarial testing, providing insights and practical examples for researchers and developers. This method is unexplored in the literature, making it a novel contribution to the field.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-04
# データ中心型アンチスプーフィングに向けて:物理データ合成によるクロスドメイン一般化の改善

Towards Data-Centric Face Anti-Spoofing: Improving Cross-domain Generalization via Physics-based Data Synthesis ( http://arxiv.org/abs/2409.03501v1 )

ライセンス: Link先を確認
Rizhao Cai, Cecelia Soh, Zitong Yu, Haoliang Li, Wenhan Yang, Alex Kot, (参考訳) Face Anti-Spoofing (FAS) 研究は、トレーニングデータとテストデータの間にドメインギャップがあるクロスドメイン問題によって難題となっている。 最近のFAS研究は主にモデル中心のものであり、ドメイン間パフォーマンスを改善するためのドメイン一般化アルゴリズムの開発に重点を置いているが、顔の反偽造のためのデータ中心の研究、データ品質と量からの一般化の改善は無視されている。 したがって、本研究は、データの観点から総合的な調査を行い、FASモデルのクロスドメイン一般化を改善することで、データ中心のFASから開始する。 より具体的には,まず,印刷ノイズ,色歪み,moir\'eパターン, \textit{etc} などのアーティファクトのデータを合成することにより,データ多様性を向上させるタスク固有のFASデータ拡張(FAS-Aug)を提案する。 実験の結果,FASモデルを用いたトレーニングにおいて,従来の画像拡張を超越し,ドメイン間性能の向上が期待できることがわかった。 しかしながら,FAS-Augを用いた場合,環境不変ではない拡張アーティファクトに依存する可能性があり,否定的な効果が生じる可能性がある。 そこで我々は,特定の種類のアーティファクトをモデルが依存することを防止し,一般化性能を向上させるために,SARE(Spowing Attack Risk Equalization)を提案する。 最後に、最新のVision Transformerバックボーンを用いたFAS-AugとSAREは、FASクロスドメインの一般化プロトコル上で最先端のパフォーマンスを実現することができる。 実装はhttps://github.com/RizhaoCai/FAS_Aug.comで公開されている。

Face Anti-Spoofing (FAS) research is challenged by the cross-domain problem, where there is a domain gap between the training and testing data. While recent FAS works are mainly model-centric, focusing on developing domain generalization algorithms for improving cross-domain performance, data-centric research for face anti-spoofing, improving generalization from data quality and quantity, is largely ignored. Therefore, our work starts with data-centric FAS by conducting a comprehensive investigation from the data perspective for improving cross-domain generalization of FAS models. More specifically, at first, based on physical procedures of capturing and recapturing, we propose task-specific FAS data augmentation (FAS-Aug), which increases data diversity by synthesizing data of artifacts, such as printing noise, color distortion, moir\'e pattern, \textit{etc}. Our experiments show that using our FAS augmentation can surpass traditional image augmentation in training FAS models to achieve better cross-domain performance. Nevertheless, we observe that models may rely on the augmented artifacts, which are not environment-invariant, and using FAS-Aug may have a negative effect. As such, we propose Spoofing Attack Risk Equalization (SARE) to prevent models from relying on certain types of artifacts and improve the generalization performance. Last but not least, our proposed FAS-Aug and SARE with recent Vision Transformer backbones can achieve state-of-the-art performance on the FAS cross-domain generalization protocols. The implementation is available at https://github.com/RizhaoCai/FAS_Aug.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-04
# 半スーパービジョン領域一般化のためのドメインガイド重み変調

Domain-Guided Weight Modulation for Semi-Supervised Domain Generalization ( http://arxiv.org/abs/2409.03509v1 )

ライセンス: Link先を確認
Chamuditha Jayanaga Galappaththige, Zachary Izzo, Xilin He, Honglu Zhou, Muhammad Haris Khan, (参考訳) 必然的に、いくつかのラベルを活用しながら、ドメインデータを見落とさずに一般化できるディープラーニングモデルは、開発コストが低いため、非常に実用的に重要である。 そこで本研究では,少数のラベル付きデータと比較的少数のラベル付きデータを用いて,ドメイン一般化可能なモデルを学習することを目的とする,半教師付きドメイン一般化(SSDG)の課題について検討する。 ドメイン一般化(DG)法はSSDG設定下でのサブパー性能を示すのに対し、半教師付き学習(SSL)法は比較的優れた性能を示すが、完全教師付きDG法と比較してかなり劣る。 SSDGの新たな課題に対処するために,様々なドメインシフトの下で正確な擬似ラベルの生成を容易にする手法を提案する。 これは、各ソースドメインに対応するトレーニング中に、分類器にドメインレベルの特殊性を保持することで達成される。 具体的には、まずハエでドメインレベルの情報ベクトルを作成し、次に、分類器の重みを調節するためのドメイン認識マスクを学習する。 本手法が擬似ラベルとモデルトレーニングに与える影響を数学的に解釈する。 本手法はプラグアンドプレイであり,SSDGの異なるSSLベースラインに容易に適用可能である。 2つの異なるSSDG設定における6つの挑戦的データセットに対する大規模な実験は、我々の手法がSSLベースのSSDGベースラインに対して可視的な利得を提供することを示している。

Unarguably, deep learning models capable of generalizing to unseen domain data while leveraging a few labels are of great practical significance due to low developmental costs. In search of this endeavor, we study the challenging problem of semi-supervised domain generalization (SSDG), where the goal is to learn a domain-generalizable model while using only a small fraction of labeled data and a relatively large fraction of unlabeled data. Domain generalization (DG) methods show subpar performance under the SSDG setting, whereas semi-supervised learning (SSL) methods demonstrate relatively better performance, however, they are considerably poor compared to the fully-supervised DG methods. Towards handling this new, but challenging problem of SSDG, we propose a novel method that can facilitate the generation of accurate pseudo-labels under various domain shifts. This is accomplished by retaining the domain-level specialism in the classifier during training corresponding to each source domain. Specifically, we first create domain-level information vectors on the fly which are then utilized to learn a domain-aware mask for modulating the classifier's weights. We provide a mathematical interpretation for the effect of this modulation procedure on both pseudo-labeling and model training. Our method is plug-and-play and can be readily applied to different SSL baselines for SSDG. Extensive experiments on six challenging datasets in two different SSDG settings show that our method provides visible gains over the various strong SSL-based SSDG baselines.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-04
# ニューラルアモート化ベイズアクターを用いた逆意思決定

Inverse decision-making using neural amortized Bayesian actors ( http://arxiv.org/abs/2409.03710v1 )

ライセンス: Link先を確認
Dominik Straub, Tobias F. Niehues, Jan Peters, Constantin A. Rothkopf, (参考訳) ベイジアン・オブザーバとアクター・モデルは、認知科学や神経科学の多くの分野において、知覚、感覚運動制御など多くの行動現象の規範的な説明を提供してきた。 行動の多様性とバイアスは、知覚や運動の不確実性、事前の信念、行動コストなど、さまざまな解釈可能な実体に起因している。 しかし、これらのモデルを連続的な行動を伴うより複雑なタスクに拡張する場合、ベイズ決定問題の解法はしばしば解析的に難解である。 さらに、振る舞いデータからパラメータを推測するためにそのようなモデルを反転させることは、計算的にさらに困難である。 したがって、研究者は通常、ガウス分布や二次コスト関数のような容易に抽出可能な成分にモデルを制約する。 これらの制限を克服するために、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。 事前トレーニングされたニューラルネットワークを使用することで、ベイジアンアクターモデルのパラメータの勾配に基づくベイジアン推定を実行することができる。 本研究では, 推定された後続分布が, 存在する解析解を用いて得られた分布と密接な相関関係にあることを示す。 解析解が得られない場合、基底真理に近い後続分布を復元する。 そして、より複雑なコスト関数において、先行とコストの間の識別可能性の問題が発生することを示した。 最後に,本手法を実証データに適用し,行動パターンの系統的個人差を説明する。

Bayesian observer and actor models have provided normative explanations for many behavioral phenomena in perception, sensorimotor control, and other areas of cognitive science and neuroscience. They attribute behavioral variability and biases to different interpretable entities such as perceptual and motor uncertainty, prior beliefs, and behavioral costs. However, when extending these models to more complex tasks with continuous actions, solving the Bayesian decision-making problem is often analytically intractable. Moreover, inverting such models to perform inference over their parameters given behavioral data is computationally even more difficult. Therefore, researchers typically constrain their models to easily tractable components, such as Gaussian distributions or quadratic cost functions, or resort to numerical methods. To overcome these limitations, we amortize the Bayesian actor using a neural network trained on a wide range of different parameter settings in an unsupervised fashion. Using the pre-trained neural network enables performing gradient-based Bayesian inference of the Bayesian actor model's parameters. We show on synthetic data that the inferred posterior distributions are in close alignment with those obtained using analytical solutions where they exist. Where no analytical solution is available, we recover posterior distributions close to the ground truth. We then show that identifiability problems between priors and costs can arise in more complex cost functions. Finally, we apply our method to empirical data and show that it explains systematic individual differences of behavioral patterns.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-04
# Path-SAM2: Transfer SAM2 for digital pathology semantic segmentation

Path-SAM2: Transfer SAM2 for digital pathology semantic segmentation ( http://arxiv.org/abs/2408.03651v2 )

ライセンス: Link先を確認
Mingya Zhang, Liang Wang, Zhihao Chen, Yiyuan Ge, Xianping Tao, (参考訳) 病理学における意味的セグメンテーションの課題は、組織病変の病態を決定するために医師を支援するのに欠かせない役割を担っている。 Segment Anything Model (SAM) の提案により、画像セグメンテーションの分野では、多くの基礎モデルが急速に発展してきた。 近年、SAM2は自然画像と医用画像のセグメンテーションの両方において広く注目を集めている。 SAMと比較すると,セグメンテーション精度と一般化性能は大幅に向上した。 SAMに基づく基礎モデルと比較したところ,病理像のセマンティックセグメンテーションにおけるそれらの性能はほとんど満足できないことがわかった。 本稿では,病的セマンティックセグメンテーションの課題に対応するためにSAM2モデルを初めて適用したPath-SAM2を提案する。 病理組織学における最大の事前学習型視覚エンコーダ(UNI)とオリジナルのSAM2エンコーダを統合し,病理学に基づく事前知識を付加する。 さらに,手動のプロンプト処理を置き換えるために,学習可能なKAN分類モジュールを導入する。 Path-SAM2は3つのアデノマ病的データセットにおいて最先端のパフォーマンスを達成しており,本研究はSAM2を画像分割タスクに適応させる大きな可能性を示している。 https://github.com/simzhangbest/SAM2PATH

The semantic segmentation task in pathology plays an indispensable role in assisting physicians in determining the condition of tissue lesions. With the proposal of Segment Anything Model (SAM), more and more foundation models have seen rapid development in the field of image segmentation. Recently, SAM2 has garnered widespread attention in both natural image and medical image segmentation. Compared to SAM, it has significantly improved in terms of segmentation accuracy and generalization performance. We compared the foundational models based on SAM and found that their performance in semantic segmentation of pathological images was hardly satisfactory. In this paper, we propose Path-SAM2, which for the first time adapts the SAM2 model to cater to the task of pathological semantic segmentation. We integrate the largest pretrained vision encoder for histopathology (UNI) with the original SAM2 encoder, adding more pathology-based prior knowledge. Additionally, we introduce a learnable Kolmogorov-Arnold Networks (KAN) classification module to replace the manual prompt process. In three adenoma pathological datasets, Path-SAM2 has achieved state-of-the-art performance.This study demonstrates the great potential of adapting SAM2 to pathology image segmentation tasks. We plan to release the code and model weights for this paper at: https://github.com/simzhangbest/SAM2PATH
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# 全プライバシーレジームにおける局所的プライベートヒストグラム

Locally Private Histograms in All Privacy Regimes ( http://arxiv.org/abs/2408.04888v2 )

ライセンス: Link先を確認
Clément L. Canonne, Abigail Gentle, (参考訳) 周波数推定、すなわちヒストグラムは、データ分析のワークホースであり、そのように差分プライバシーの下で徹底的に研究されている。 特に、プライバシのemph{local}モデルにおけるヒストグラムの計算は、実りある最近の作業の焦点であり、時間や通信効率といった他の考慮事項のバランスを保ちながら、高いプライバシ(小さな$\varepsilon$)体制でオーダー最適化の$\ell_\infty$エラーを達成する様々なアルゴリズムが提案されている。 しかし、私たちの知る限りでは、実際には関連性が高まっているにも関わらず、中小または低小の政権(最大$\varepsilon$)に関しては、この絵は明らかになっていない。 本稿では、この中~下層のプライバシー体制において、局所的な私的ヒストグラムと、それに関連する分布学習タスクを調査し、$\ell_\infty$エラーを達成可能なほぼ28(そして多少の予期せぬ)境界を確立する。 実験結果の直接的な要約として,従来のアルゴリズムと精度が一致するが,メッセージや通信の複雑さが著しく向上する,差分プライバシーの「emph{shuffle}」モデルにおけるヒストグラムのプロトコルを得る。 局所的な私的ヒストグラム問題において, 基板間の境界を改良した新しい解析結果から, 理論的知見が得られた。 我々は、すべてのプライバシー体制における既存のアルゴリズムを実証的に比較し、最悪の状況を超えてそれらの典型的なパフォーマンスと振る舞いを評価することによって、我々の理論的な知見を裏付ける。

Frequency estimation, a.k.a. histograms, is a workhorse of data analysis, and as such has been thoroughly studied under differentially privacy. In particular, computing histograms in the \emph{local} model of privacy has been the focus of a fruitful recent line of work, and various algorithms have been proposed, achieving the order-optimal $\ell_\infty$ error in the high-privacy (small $\varepsilon$) regime while balancing other considerations such as time- and communication-efficiency. However, to the best of our knowledge, the picture is much less clear when it comes to the medium- or low-privacy regime (large $\varepsilon$), despite its increased relevance in practice. In this paper, we investigate locally private histograms, and the very related distribution learning task, in this medium-to-low privacy regime, and establish near-tight (and somewhat unexpected) bounds on the $\ell_\infty$ error achievable. As a direct corollary of our results, we obtain a protocol for histograms in the \emph{shuffle} model of differential privacy, with accuracy matching previous algorithms but significantly better message and communication complexity. Our theoretical findings emerge from a novel analysis, which appears to improve bounds across the board for the locally private histogram problem. We back our theoretical findings by an empirical comparison of existing algorithms in all privacy regimes, to assess their typical performance and behaviour beyond the worst-case setting.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# 暗号マイグレーション問題の定式化

Formalizing the Cryptographic Migration Problem ( http://arxiv.org/abs/2408.05997v2 )

ライセンス: Link先を確認
Daniel Loebenberger, Stefan-Lukas Gazdag, Daniel Herzinger, Eduard Hirsch, Christian Näther, Jan-Philipp Steghöfer, (参考訳) 量子コンピューティングの進歩に伴い、量子後暗号への移行は、現代のシステムのセキュリティを維持するためにますます重要になっている。 本稿では,暗号マイグレーション問題の形式的定義を紹介し,その複雑さを適切な有向グラフモデルを用いて検討する。 得られたマイグレーショングラフの特徴を解析し、トレードオフを議論する。 組合せ論,確率論,組合せ解析の古典的な数学的結果を用いて,<random'の大規模暗号ITインフラの移行の課題を評価する。 我々のモデルに従う十分な大規模なマイグレーションプロジェクトは、多くの依存的な(比較的容易な)マイグレーションステップや、少なくとも1つの複雑なマイグレーションステップのため、本質的に複雑であることを示す。 このことは、適切な意味での暗号マイグレーションが一般的に難しいことを証明している。 さらに,実世界のマイグレーションプロジェクトをモデル化しようとする際に生じる課題について,実際の適用性に関して,提案したモデルを分析した。

With the advancements in quantum computing, transitioning to post-quantum cryptography is becoming increasingly critical to maintain the security of modern systems. This paper introduces a formal definition of the cryptographic migration problem and explores its complexities using a suitable directed graph model. Characteristics of the resulting migration graphs are analyzed and trade-offs discussed. By using classical mathematical results from combinatorics, probability theory and combinatorial analysis, we assess the challenges of migrating ``random'' large cryptographic IT-infrastructures. We show that any sufficiently large migration project that follows our model has an intrinsic complexity, either due to many dependent (comparatively easy) migration steps or due to at least one complicated migration step. This proves that in a suitable sense cryptographic migration is hard in general. Furthermore, we analyze the proposed model with respect to practical applicability and explain the difficulties that emerge when we try to model real-world migration projects.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# Segment Anything Model 2を用いたCTスキャンにおける腹部臓器のゼロショット3次元分割 : 3次元画像診断におけるビデオ追跡機能の適用

Zero-shot 3D Segmentation of Abdominal Organs in CT Scans Using Segment Anything Model 2: Adapting Video Tracking Capabilities for 3D Medical Imaging ( http://arxiv.org/abs/2408.06170v2 )

ライセンス: Link先を確認
Yosuke Yamagishi, Shouhei Hanaoka, Tomohiro Kikuchi, Takahiro Nakao, Yuta Nakamura, Yukihiro Nomura, Soichiro Miki, Takeharu Yoshikawa, Osamu Abe, (参考訳) 目的:CTスキャンにおける腹部臓器の3次元分割におけるSegment Anything Model 2 (SAM2) のゼロショット性能を評価するとともに,迅速な設定がセグメンテーション結果に及ぼす影響について検討する。 材料と方法:8施設のTotalSegmentator CTデータセット(n = 123)のサブセットを用いて,SAM2の腹腔内臓器の分画能力を評価した。 各臓器の3種類のz座標レベル(耳道,中,頭蓋,頭蓋)からセグメンテーションを開始した。 The Dice similarity coefficient (DSC) was measured using the Dice similarity coefficient。 また,セグメント化過程から特定の領域を明示的に排除する「負のプロンプト」の精度への影響を解析した。 さらに,臓器の体積を分析し,セグメンテーション性能の文脈化を行った。 結果: 肝 0.821(0.898), 左腎 0.870(0.921), 右腎 0.862(0.935), 脾 0.891(0.932), 胆嚢0.531(0.590),膵0.361(0.359),副腎,右0.203(0.109),左0.308(0.231)であった。 セグメンテーションの初期スライスと負のプロンプトの使用は結果に大きな影響を及ぼした。 入力から陰性のプロンプトを除去することにより,6臓器に対してDSCは有意に低下した。 ボリュームサイズとDSCとの間には正の正の相関が認められた。 結語:SAM 2は腹部CT検査,特に境界が明瞭な大臓器において,腹腔内臓器の分画において有望なゼロショット性能を示した。 性能は入力負のプロンプトと初期スライス選択に大きく影響され、これらの因子を効果的セグメンテーションに最適化することの重要性を強調した。

Purpose: To evaluate the zero-shot performance of Segment Anything Model 2 (SAM 2) in 3D segmentation of abdominal organs in CT scans, and to investigate the effects of prompt settings on segmentation results. Materials and Methods: Using a subset of the TotalSegmentator CT dataset (n = 123) from eight institutions, we assessed SAM 2's ability to segment eight abdominal organs. Segmentation was initiated from three different z-coordinate levels (caudal, mid, and cranial levels) of each organ. Performance was measured using the Dice similarity coefficient (DSC). We also analyzed the impact of "negative prompts," which explicitly exclude certain regions from the segmentation process, on accuracy. Additionally, we analyzed organ volumes to contextualize the segmentation performance. Results: As a zero-shot approach, larger organs with clear boundaries demonstrated high segmentation performance, with mean(median) DSCs as follows: liver 0.821(0.898), left kidney 0.870(0.921), right kidney 0.862(0.935), and spleen 0.891(0.932). Smaller organs showed lower performance: gallbladder 0.531(0.590), pancreas 0.361(0.359), and adrenal glands, right 0.203(0.109), left 0.308(0.231). The initial slice for segmentation and the use of negative prompts significantly influenced the results. By removing negative prompts from the input, the DSCs significantly decreased for six organs. Moderate positive correlations were observed between volume sizes and DSCs. Conclusion: SAM 2 demonstrated promising zero-shot performance in segmenting certain abdominal organs in CT scans, particularly larger organs with clear boundaries. Performance was significantly influenced by input negative prompts and initial slice selection, highlighting the importance of optimizing these factors for effective segmentation.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# 分散ヘルスインテリジェンスネットワーク(DHIN)

Decentralized Health Intelligence Network (DHIN) ( http://arxiv.org/abs/2408.06240v4 )

ライセンス: Link先を確認
Abraham Nash, (参考訳) 分散ヘルスインテリジェンスネットワーク(DHIN)は、医療データ主権とAI利用の課題に取り組むために、分散インテリジェンスネットワーク(DIN)フレームワークを拡張している。 DINの中核的な原則に基づいて、DHINは、提供者や機関間のデータの断片化に取り組むために、医療固有のコンポーネントを導入し、医療提供のための主権的なアーキテクチャを確立している。 多様な健康データソースにアクセスするための障壁を克服することで、効果的なAI利用を促進する。 この包括的なフレームワークは下記の通りである。 1)個人的健康記録(PHR)と組み合わされた自己主権のアイデンティティアーキテクチャは、DINの個人データストアの概念を拡張して、健康データの主権を確保する。 2)医療データに適した分散型AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルな連邦学習(FL)プロトコル。 3) 医療AI開発への参加を促すため、DINから適応したスケーラブルで信頼性のない報酬メカニズム。 DHINは不変レコードを持つパブリックブロックチェーン上で動作し、すべてのエンティティがヘルスデータへのアクセスを制御したり、金銭的利益を決定できないことを保証します。 効果的なAIトレーニングをサポートし、患者が健康データをコントロールし、経済的に利益を享受し、分散されたエコシステムに貢献できるようにする。 DHINと異なり、患者はFLプロトコルをオプトインするためのインセンティブとしてデジタルウォレットの報酬を受け取っており、分散保険ソリューションへの資金提供を長期計画している。 このアプローチは、個人のニーズに適応し、既存のシステムを補完し、普遍的なカバレッジを再定義する、新たな自己完結型ヘルスケアモデルを導入し、DIN原則が患者の力を借りながら、医療データ管理とAI利用をいかに変えるかを示している。

Decentralized Health Intelligence Network (DHIN) extends the Decentralized Intelligence Network (DIN) framework to address challenges in healthcare data sovereignty and AI utilization. Building upon DIN's core principles, DHIN introduces healthcare-specific components to tackle data fragmentation across providers and institutions, establishing a sovereign architecture for healthcare provision. It facilitates effective AI utilization by overcoming barriers to accessing diverse health data sources. This comprehensive framework leverages: 1) self-sovereign identity architecture coupled with a personal health record (PHR), extending DIN's personal data stores concept to ensure health data sovereignty; 2) a scalable federated learning (FL) protocol implemented on a public blockchain for decentralized AI training in healthcare, tailored for medical data; and 3) a scalable, trustless rewards mechanism adapted from DIN to incentivize participation in healthcare AI development. DHIN operates on a public blockchain with an immutable record, ensuring that no entity can control access to health data or determine financial benefits. It supports effective AI training while allowing patients to maintain control over their health data, benefit financially, and contribute to a decentralized ecosystem. Unique to DHIN, patients receive rewards in digital wallets as an incentive to opt into the FL protocol, with a long-term roadmap to fund decentralized insurance solutions. This approach introduces a novel, self-financed healthcare model that adapts to individual needs, complements existing systems, and redefines universal coverage, showcasing how DIN principles can transform healthcare data management and AI utilization while empowering patients.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment ( http://arxiv.org/abs/2408.06266v4 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri, (参考訳) 大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使って整列される。 モデル、ペアデータ、および目的間の相互作用は複雑な手順を作り、時にサブパー結果を生成する。 私たちはこれを研究し、それを見つけます 二 嗜好データにより、基礎となる応答が対照的な場合に、より良い学習信号が得られること。 (ii)アライメントの目的は、トレーニング中にモデルに対するさらなるコントロールを指定すると、パフォーマンスが向上する。 これらの知見に基づき、よりコントラスト的な選好ペアを生み出すデータ生成手法であるContrastive Learning from AI Revisions (CLAIR)と、制御可能でより安定したアライメント目的であるAnchored Preference Optimization (APO)を紹介する。 我々はLlama-3-8B-Instructを、様々な類似したデータセットとアライメント目標を用いて調整し、MixEval-Hardスコアを測定する。 CLAIRの選好はすべてのデータセットの中で最強のパフォーマンスをもたらし、APOは一貫してコントロール可能な目標よりも優れています。 我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。 私たちのコードはhttps://github.com/ContextualAI/CLAIR_and_APO.orgで公開されています。

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# クロスモーダルコラボレーションによるロバスト半監督型マルチモーダル医用画像分割

Robust Semi-supervised Multimodal Medical Image Segmentation via Cross Modality Collaboration ( http://arxiv.org/abs/2408.07341v2 )

ライセンス: Link先を確認
Xiaogen Zhou, Yiyou Sun, Min Deng, Winnie Chiu Wing Chu, Qi Dou, (参考訳) マルチモーダル学習は、異なるモーダルから派生した補完情報を活用し、医用画像セグメンテーションの性能を向上させる。 しかし,従来のマルチモーダル学習手法は,精度の高いセグメンテーション性能を実現するために,様々なモダリティからの十分な注釈付きデータに大きく依存している。 この依存は、そのようなデータの入手が限られているため、臨床環境においてしばしば課題となる。 さらに、異なる画像モダリティ間の固有の解剖学的ミスアライメントは、セグメンテーション性能を高めるためにさらに努力を複雑にする。 この問題に対処するために,ラベル付きデータが少なく,不整合性も少ない,半教師付きマルチモーダルセグメンテーションフレームワークを提案する。 本フレームワークでは,各モダリティに固有のモダリティ非依存の知識を蒸留するために,新しいクロスモーダル協調戦略を採用し,この情報を統合融合層に統合して特徴量アマルガメーションを実現する。 チャネルワイドなセマンティックな一貫性の喪失により、我々のフレームワークは、モダリティを横断する機能的な視点から、モダリティに依存しない情報のアライメントを保証し、マルチモーダルなシナリオにおけるミスアライメントを防ぎます。 さらに,本フレームワークは,半教師付きセグメンテーションタスクにおいて,非ラベルデータに対する解剖学的予測アライメントを容易にし,解剖学的構造を制御するためのコントラスト的一貫した学習を効果的に統合する。 本手法は, 心臓, 腹部多臓器, 甲状腺関連眼窩病の3つの課題にまたがる他のマルチモーダル法と比較して, 競合性能が向上する。 また、ラベル付きデータの不足やモダリティの不一致といったシナリオにおいて、顕著な堅牢性を示す。

Multimodal learning leverages complementary information derived from different modalities, thereby enhancing performance in medical image segmentation. However, prevailing multimodal learning methods heavily rely on extensive well-annotated data from various modalities to achieve accurate segmentation performance. This dependence often poses a challenge in clinical settings due to limited availability of such data. Moreover, the inherent anatomical misalignment between different imaging modalities further complicates the endeavor to enhance segmentation performance. To address this problem, we propose a novel semi-supervised multimodal segmentation framework that is robust to scarce labeled data and misaligned modalities. Our framework employs a novel cross modality collaboration strategy to distill modality-independent knowledge, which is inherently associated with each modality, and integrates this information into a unified fusion layer for feature amalgamation. With a channel-wise semantic consistency loss, our framework ensures alignment of modality-independent information from a feature-wise perspective across modalities, thereby fortifying it against misalignments in multimodal scenarios. Furthermore, our framework effectively integrates contrastive consistent learning to regulate anatomical structures, facilitating anatomical-wise prediction alignment on unlabeled data in semi-supervised segmentation tasks. Our method achieves competitive performance compared to other multimodal methods across three tasks: cardiac, abdominal multi-organ, and thyroid-associated orbitopathy segmentations. It also demonstrates outstanding robustness in scenarios involving scarce labeled data and misaligned modalities.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# LADDER: 言語駆動スライス発見とエラー修正

LADDER: Language Driven Slice Discovery and Error Rectification ( http://arxiv.org/abs/2408.07832v3 )

ライセンス: Link先を確認
Shantanu Ghosh, Rayan Syed, Chenyu Wang, Clare B. Poynton, Kayhan Batmanghelich, (参考訳) エラースライス発見は構造化パターンとモデルエラーを関連付ける。 既存の方法では、類似したパターンでエラー発生サンプルをクラスタリングしたり、各サンプルに個別属性を割り当てて、ポストホック分析を行う。 これらの手法は、再重み付けや再バランスによる解釈可能性や緩和を容易にすることを目的としているが、不完全な属性や欠落によるエラーパターンの完全な複雑さを捉えることはできない。 既存のアプローチとは対照的に,本稿では,Large Language Model (LLM) の推論機能を用いて,複雑なエラーパターンを分析し,検証可能な仮説を生成する。 本稿では,Language-Driven slice Discovery and Error Rectificationを提案する。 まず最初に、モデルの表現を言語対応の機能空間(eg CLIP)に投影し、元のモデル機能空間におけるセマンティクスを保存する。 これにより、モデルのエラーをハイライトする文の正確な検索が保証される。 次に、LLMは文を利用し、誤りスライスを発見するために仮説を生成する。 最後に、仮説を用いてグループバランスデータセットを作成することにより、分類ヘッドを微調整することで誤差を軽減する。 私たちのメソッド全体は、明示的にも外部タグ付けモデルを通しても、属性アノテーションを一切必要としません。 画像分類データセットを用いて,本手法の有効性を検証した。 コードは利用可能である(https://github.com/batmanlab/Ladder)。

Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model's representation into a language-aligned feature space (eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model's errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets. The code is available (https://github.com/batmanlab/Ladder).
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# アダマール行列探索のための量子近似最適化法

A Quantum Approximate Optimization Method For Finding Hadamard Matrices ( http://arxiv.org/abs/2408.07964v2 )

ライセンス: Link先を確認
Andriyan Bayu Suksmono, (参考訳) 量子コンピュータを用いて特定の順序のアダマール行列を見つけることは、実用的な量子優位性の実証につながる。 量子アニールを用いた初期の試みは、現在の量子資源の限界と、その高次相互作用項を実装する能力によって妨げられ、これは$M$オーダー行列の場合、O(M^2)によって増加する。 本稿では,量子コンピュータ上でのハダマール行列探索アルゴリズムを実装した新しい量子ビット効率法を提案する。 量子近似最適化アルゴリズム(QAOA)を用いてこれを実現する。 ゲートベース量子コンピュータ上で実装される高次相互作用項は、補助量子ビットを必要としないため、提案手法は必要量子ビット数をO(M)に削減する。 本稿では,本手法の定式化,対応する量子回路の構成,および量子シミュレータと実ゲート型量子コンピュータの両方の実験結果について述べる。 実験の結果、バウマート・ハル型アダマール行列は132個にも達した。 これらの結果は、これまで知られていなかったアダマール行列を発見するためのさらなる努力を動機付け、最終的に実用的な量子的優位性を実証する見通しである。

Finding a Hadamard matrix of a specific order using a quantum computer can lead to a demonstration of practical quantum advantage. Earlier efforts using a quantum annealer were impeded by the limitations of the present quantum resource and its capability to implement high order interaction terms, which for an $M$-order matrix will grow by O(M^2). In this paper, we propose a novel qubit-efficient method by implementing the Hadamard matrix searching algorithm on a universal quantum computer. We achieve this by employing the Quantum Approximate Optimization Algorithm (QAOA). Since high order interaction terms that are implemented on a gate-based quantum computer do not need ancillary qubits, the proposed method reduces the required number of qubits into O(M). We present the formulation of the method, construction of corresponding quantum circuits, and experiment results in both a quantum simulator and a real gate-based quantum computer. The experiments successfully found the Baumert-Hall type Hadamard matrices up to 132. These results motivate further efforts to discover previously unknown Hadamard matrices and a prospect to ultimately demonstrate practical quantum advantages
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# プレプロセッシングと圧縮:内在次元を通した画像領域における隠れ表現再構成の理解

Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension ( http://arxiv.org/abs/2408.08381v2 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski, (参考訳) 近年,ニューラルネットワークの隠蔽表現の内在次元(ID)などの幾何学的特性が層を通してどのように変化するか,一般化能力などの重要なモデル行動を予測する方法が注目されている。 しかし、このような行動が自然画像や医用画像などのネットワークのトレーニングデータの領域によって大きく変化するという証拠が浮上し始めた。 ここでは,ネットワークの学習した表現のIDが階層を通してどのように変化するのかを,本質的には,ネットワークが予測に使用する入力データの情報内容を連続的に洗練するかを特徴付けることによって,この調査をさらに進める。 6つのネットワークアーキテクチャにまたがる11の自然画像と医療画像のデータセットを分析し、ネットワークを通してのIDの変化が、自然画像と医療画像のモデルとで顕著に異なることを発見した。 具体的には、医用画像モデルは、ネットワークの初期に表現IDがピークに達し、これらの領域の下流タスクに一般的に使用される画像特徴とそれらの抽象性の違いが示唆される。 さらに,このピーク表現IDと入力空間内のデータのIDとの強い相関関係を見出した。 全体として、本研究は、隠れ表現情報の内容に関する自然画像領域と非自然画像領域のネットワーク行動の顕著な相違を強調し、ネットワークの学習した特徴がトレーニングデータによってどのように形成されるかについて、さらなる知見を提供する。

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network's hidden representations change through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network's training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network's learned representations changes through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that how ID changes through the network differs noticeably between natural and medical image models. Specifically, medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model's learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network's learned features are shaped by its training data.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# $\textit{MMJ-Bench}$: 視覚言語モデルに対するジェイルブレイク攻撃と防御に関する総合的研究

$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models ( http://arxiv.org/abs/2408.08464v2 )

ライセンス: Link先を確認
Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang, (参考訳) ディープラーニングの進歩に伴い、Large Language Models (LLMs) とそのマルチモーダルモデルであるVision-Language Models (VLMs) は多くの実世界のタスクにおいて例外的なパフォーマンスを示している。 しかしながら、VLMはジェイルブレイク攻撃のような重大なセキュリティ上の問題に直面しており、攻撃者は有害な応答を誘発するためにモデルの安全アライメントを回避しようとする。 VLMに対するジェイルブレイク攻撃の脅威は、LLMの固有の脆弱性とVLMが処理する複数の情報チャネルの両方から生じる。 様々な攻撃や防御が提案されているが、それぞれの手法が異なるデータセットやメトリクスで評価され、各手法の有効性を比較することは不可能であるため、統一的かつ包括的な評価には顕著なギャップがある。 このギャップに対処するために、VLMのジェイルブレイク攻撃と防御技術を評価する統一パイプラインである \textit{MMJ-Bench} を導入する。 広範囲にわたる実験を通じて,SoTA VLMに対する様々な攻撃方法の有効性を評価し,防御機構が通常の作業に対する防御効果とモデル実用性に与える影響を評価する。 総合的な評価は,統一的かつ体系的な評価フレームワークと,VLMジェイルブレイク研究のための最初の公開ベンチマークを提供することによって,この分野に寄与する。 また、今後の研究の方向性を浮き彫りにした洞察力のある調査結果をいくつか紹介する。

As deep learning advances, Large Language Models (LLMs) and their multimodal counterparts, Vision-Language Models (VLMs), have shown exceptional performance in many real-world tasks. However, VLMs face significant security challenges, such as jailbreak attacks, where attackers attempt to bypass the model's safety alignment to elicit harmful responses. The threat of jailbreak attacks on VLMs arises from both the inherent vulnerabilities of LLMs and the multiple information channels that VLMs process. While various attacks and defenses have been proposed, there is a notable gap in unified and comprehensive evaluations, as each method is evaluated on different dataset and metrics, making it impossible to compare the effectiveness of each method. To address this gap, we introduce \textit{MMJ-Bench}, a unified pipeline for evaluating jailbreak attacks and defense techniques for VLMs. Through extensive experiments, we assess the effectiveness of various attack methods against SoTA VLMs and evaluate the impact of defense mechanisms on both defense effectiveness and model utility for normal tasks. Our comprehensive evaluation contribute to the field by offering a unified and systematic evaluation framework and the first public-available benchmark for VLM jailbreak research. We also demonstrate several insightful findings that highlights directions for future studies.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# 多発性タスク学習による頭蓋内出血予後の検討

Multi-task Learning Approach for Intracranial Hemorrhage Prognosis ( http://arxiv.org/abs/2408.08784v2 )

ライセンス: Link先を確認
Miriam Cobo, Amaia Pérez del Barrio, Pablo Menéndez Fernández-Miranda, Pablo Sanz Bellón, Lara Lloret Iglesias, Wilson Silva, (参考訳) 頭蓋内出血(ICH)後の予後は,画像と表層データとの複雑な相互作用によって左右される。 迅速かつ信頼性の高い予後は、効果的な患者層化と情報的治療決定に不可欠である。 本研究は,画像に基づく予後の向上を目的として,予後と臨床および人口統計学の最も高い相関関係を示す頑健な特徴表現を学習することを目的とする。 本手法は,画像に埋め込まれた有意な予後データを学習するためにモデルを補強することにより,臨床上の意思決定を模倣する。 本稿では,Glasgow Coma Scale と Age の3次元マルチタスク画像モデルを提案する。 提案手法は現状のベースライン画像モデルより優れており,CTスキャンのみを入力として用いた4名の脳神経科医と比較してICH予後に優れていた。 さらに、解釈可能性の正当性マップを用いて、我々のモデルを検証した。 コードはhttps://github.com/MiriamCobo/MultitaskLearning_ICH_Prognosis.gitで公開されている。

Prognosis after intracranial hemorrhage (ICH) is influenced by a complex interplay between imaging and tabular data. Rapid and reliable prognosis are crucial for effective patient stratification and informed treatment decision-making. In this study, we aim to enhance image-based prognosis by learning a robust feature representation shared between prognosis and the clinical and demographic variables most highly correlated with it. Our approach mimics clinical decision-making by reinforcing the model to learn valuable prognostic data embedded in the image. We propose a 3D multi-task image model to predict prognosis, Glasgow Coma Scale and age, improving accuracy and interpretability. Our method outperforms current state-of-the-art baseline image models, and demonstrates superior performance in ICH prognosis compared to four board-certified neuroradiologists using only CT scans as input. We further validate our model with interpretability saliency maps. Code is available at https://github.com/MiriamCobo/MultitaskLearning_ICH_Prognosis.git.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# $\ell_2$期待校正誤差に対する信頼区間

A Confidence Interval for the $\ell_2$ Expected Calibration Error ( http://arxiv.org/abs/2408.08998v2 )

ライセンス: Link先を確認
Yan Sun, Pratik Chaudhari, Ian J. Barnett, Edgar Dobriban, (参考訳) 機械学習の最近の進歩により、様々な応用における予測精度が大幅に向上した。 しかし、確率的予測の校正を保証することは重要な課題である。 モデルキャリブレーションを強化する努力にもかかわらず、モデルキャリブレーションの厳密な統計的評価はいまだに調査されていない。 本研究では,$\ell_2$ expecteded Calibration Error (ECE) の信頼区間を開発する。 信頼性キャリブレーションの一般的な概念と完全キャリブレーションの両方を含む,トップ1からk$のキャリブレーションを考える。 ECEの縮退推定器では、漸近正規性を示すが、校正されたモデルと誤校正されたモデルに対して異なる収束率と漸近分散を示す。 本研究では,ECEに対する漸近的に有効な信頼区間を構築する手法を開発した。 提案手法は, 再サンプリング法と比較し, 有効信頼区間を短い長さで生成することを示した。

Recent advances in machine learning have significantly improved prediction accuracy in various applications. However, ensuring the calibration of probabilistic predictions remains a significant challenge. Despite efforts to enhance model calibration, the rigorous statistical evaluation of model calibration remains less explored. In this work, we develop confidence intervals the $\ell_2$ Expected Calibration Error (ECE). We consider top-1-to-$k$ calibration, which includes both the popular notion of confidence calibration as well as full calibration. For a debiased estimator of the ECE, we show asymptotic normality, but with different convergence rates and asymptotic variances for calibrated and miscalibrated models. We develop methods to construct asymptotically valid confidence intervals for the ECE, accounting for this behavior as well as non-negativity. Our theoretical findings are supported through extensive experiments, showing that our methods produce valid confidence intervals with shorter lengths compared to those obtained by resampling-based methods.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# SDEに基づく乗算雑音除去

SDE-based Multiplicative Noise Removal ( http://arxiv.org/abs/2408.10283v2 )

ライセンス: Link先を確認
An Vuong, Thinh Nguyen, (参考訳) 乗法ノイズ(英: multiplicative noise)またはスペックルノイズ(英: speckle noise)またはペッパーノイズ(英: pepper noise)は、合成開口レーダー(SAR)、レーザー、光学レンズによって生成された画像に影響を与える。 熱過程や外部要因から生じる添加音とは異なり、乗法ノイズは拡散反射のゆらぎから生じる。 これらのゆらぎは、異なる大きさの信号が結合された同じ信号の複数のコピーをもたらす。 その結果、乗法ノイズの除去や除去は、加法ノイズ除去に使用されるものとは異なる手法を必要とする。 本稿では,確率微分方程式に基づく拡散モデルを用いて乗法雑音に対処する手法を提案する。 対数領域における幾何学的ブラウン運動過程として乗法ノイズを効果的にモデル化できることを実証する。 Fokker-Planck方程式を用いることで、画像復調のための対応する逆過程を導出する。 提案手法を検証するため,従来の信号処理手法とCNNに基づくノイズ除去モデルとの比較を行った。 提案手法は,PSNRやSSIMといった従来のメトリクスの競合性能を維持しつつ,FIDやLPIPSなどの知覚に基づくメトリクスの既存の手法よりも優れていた。

Multiplicative noise, also known as speckle or pepper noise, commonly affects images produced by synthetic aperture radar (SAR), lasers, or optical lenses. Unlike additive noise, which typically arises from thermal processes or external factors, multiplicative noise is inherent to the system, originating from the fluctuation in diffuse reflections. These fluctuations result in multiple copies of the same signal with varying magnitudes being combined. Consequently, despeckling, or removing multiplicative noise, necessitates different techniques compared to those used for additive noise removal. In this paper, we propose a novel approach using Stochastic Differential Equations based diffusion models to address multiplicative noise. We demonstrate that multiplicative noise can be effectively modeled as a Geometric Brownian Motion process in the logarithmic domain. Utilizing the Fokker-Planck equation, we derive the corresponding reverse process for image denoising. To validate our method, we conduct extensive experiments on two different datasets, comparing our approach to both classical signal processing techniques and contemporary CNN-based noise removal models. Our results indicate that the proposed method significantly outperforms existing methods on perception-based metrics such as FID and LPIPS, while maintaining competitive performance on traditional metrics like PSNR and SSIM.
翻訳日:2024-09-06 19:18:56 公開日:2024-09-04
# Genesis: システム生物学研究の自動化に向けて

Genesis: Towards the Automation of Systems Biology Research ( http://arxiv.org/abs/2408.10689v2 )

ライセンス: Link先を確認
Ievgeniia A. Tiukova, Daniel Brunnsåker, Erik Y. Bjurström, Alexander H. Gower, Filip Kronström, Gabriel K. Reder, Ronald S. Reiserer, Konstantin Korovin, Larisa B. Soldatova, John P. Wikswo, Ross D. King, (参考訳) AIを科学に適用する最先端は、科学研究のクローズループ自動化である。 われわれは以前,「アダム」(酵母機能生物学)と「イーブ」(初期医薬品デザイン)の2人のロボット科学者を開発した。 私たちは今、次世代のロボット科学者Genesisを開発している。 Genesisでは、人間の科学者よりも明らかに速く、低コストで、科学の分野を研究できることを実証することを目指している。 ここでは、Genesisプロジェクトの進捗状況を報告する。 Genesisは、何千もの相互作用する因果成分でシステム生物学モデルを自動的に改善するように設計されている。 ジェネシスが完成すれば、1日当たり1000回の仮説に基づくクローズドループサイクルを並列に開始し実行することができる。 ここでは、Genesisのコアハードウェアについて説明する: 1000のコンピュータ制御された$\mu$-bioreactors。 統合されたMass Spectrometryプラットフォームのために、我々はAutonoMSを開発した。 我々はまた、ソフトウェアエージェントが大量の構造化ドメイン情報にアクセスできるように設計されたデータベースシステムGenesis-DBを開発した。 我々は, RIMBO (Revisions for Improvements of Models in Biology Ontology) を開発した。 我々は,2つのリレーショナル学習バイオインフォマティクスプロジェクトによって,このインフラの有用性を実証した。 最後に,LGEM+をゲノム規模メタボリックモデルの自動誘導的改善のための関係学習システムとして記述する。

The cutting edge of applying AI to science is the closed-loop automation of scientific research: robot scientists. We have previously developed two robot scientists: `Adam' (for yeast functional biology), and `Eve' (for early-stage drug design)). We are now developing a next generation robot scientist Genesis. With Genesis we aim to demonstrate that an area of science can be investigated using robot scientists unambiguously faster, and at lower cost, than with human scientists. Here we report progress on the Genesis project. Genesis is designed to automatically improve system biology models with thousands of interacting causal components. When complete Genesis will be able to initiate and execute in parallel one thousand hypothesis-led closed-loop cycles of experiment per-day. Here we describe the core Genesis hardware: the one thousand computer-controlled $\mu$-bioreactors. For the integrated Mass Spectrometry platform we have developed AutonoMS, a system to automatically run, process, and analyse high-throughput experiments. We have also developed Genesis-DB, a database system designed to enable software agents access to large quantities of structured domain information. We have developed RIMBO (Revisions for Improvements of Models in Biology Ontology) to describe the planned hundreds of thousands of changes to the models. We have demonstrated the utility of this infrastructure by developed two relational learning bioinformatic projects. Finally, we describe LGEM+ a relational learning system for the automated abductive improvement of genome-scale metabolic models.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# CHOTA: 細胞追跡のための高次精度メトリクス

CHOTA: A Higher Order Accuracy Metric for Cell Tracking ( http://arxiv.org/abs/2408.11571v2 )

ライセンス: Link先を確認
Timo Kaiser, Vladimir Ulman, Bodo Rosenhahn, (参考訳) 細胞追跡結果の評価は, 追跡法の開発を主導し, 生体医学的研究に大きな影響を及ぼす。 これは評価指標によって定量的に達成される。 残念なことに、現在の測定基準は局所的な正確さを好んでおり、世界のコヒーレンスに弱い報酬を与えており、高いレベルの生物学的分析を妨げている。 また,グローバルコヒーレンスを育成するために,セル特異的な高次追跡精度 (CHOTA metric) を提案し,セル検出と局所的関連性,グローバルコヒーレンス,および系統追跡のすべての側面について評価を行った。 そこで我々は,全細胞系統を包含する「軌道」という用語を新たに定義し,一般的な複数物体追跡から確立されたHOTA尺度に含めることにより,これを実現した。 さらに、我々の新しいCHOTA測定値と比較し、その利点を示すため、同時代の細胞追跡指標を詳細に調査する。 すべてのメトリクスは、最先端のリアルタイムセル追跡結果と、特定のトラッキングエラーをシミュレートする合成結果に基づいて、広範囲に評価される。 CHOTAはすべてのトラッキングエラーに敏感であり,細胞の全系統を再構築する手法が生物学的に関連していることを示す。 セルトラッキングで現在使用されているメトリクスに対して、堅牢で包括的な代替手段が導入されている。 Pythonコードはhttps://github.com/CellTrackingChallenge/py-ctcmetricsで入手できる。

The evaluation of cell tracking results steers the development of tracking methods, significantly impacting biomedical research. This is quantitatively achieved by means of evaluation metrics. Unfortunately, current metrics favor local correctness and weakly reward global coherence, impeding high-level biological analysis. To also foster global coherence, we propose the CHOTA metric (Cell-specific Higher Order Tracking Accuracy) which unifies the evaluation of all relevant aspects of cell tracking: cell detections and local associations, global coherence, and lineage tracking. We achieve this by introducing a new definition of the term 'trajectory' that includes the entire cell lineage and by including this into the well-established HOTA metric from general multiple object tracking. Furthermore, we provide a detailed survey of contemporary cell tracking metrics to compare our novel CHOTA metric and to show its advantages. All metrics are extensively evaluated on state-of-the-art real-data cell tracking results and synthetic results that simulate specific tracking errors. We show that CHOTA is sensitive to all tracking errors and gives a good indication of the biologically relevant capability of a method to reconstruct the full lineage of cells. It introduces a robust and comprehensive alternative to the currently used metrics in cell tracking. Python code is available at https://github.com/CellTrackingChallenge/py-ctcmetrics .
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# アダプティブドラフト長を用いた並列投機デコード

Parallel Speculative Decoding with Adaptive Draft Length ( http://arxiv.org/abs/2408.11850v2 )

ライセンス: Link先を確認
Tianyu Liu, Yun Li, Qitan Lv, Kai Liu, Jianchen Zhu, Winston Hu, (参考訳) 投機的復号(SD)では、まず複数の \textit{draft} トークンを提供するために追加のドラフトモデルを使用し、次に元のターゲットモデルがこれらのトークンを並列に検証する。 しかし、既存のSDメソッドは、相互待ちの問題、すなわち、ドラフトモデルが \textit{guessing} トークンであるときにターゲットモデルが立ち往生する、という問題に悩まされる。 この問題は、ドラフトモデルとターゲットモデルの非同期実行によって直接発生し、投機的復号における固定されたドラフト長により悪化する。 これらの課題に対処するために、概念的に単純で柔軟な、投機的復号化を促進するための一般的なフレームワーク、すなわち \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL)を提案する。 具体的には、ドラフトフェーズ中に事前に最初のドラフトトークンを検証するために \textit{pre-verify} と、検証フェーズ中により多くのドラフトトークンを生成するために \textit{post-verify} を提案する。 PEARLは2つの戦略を適用してドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成し、相互待ち問題を効果的に軽減する。 さらに、理論上、PEARL の平均許容トークンが既存の \textit{draft-then-verify} よりも大きいことを証明している。 各種テキスト生成ベンチマークの実験では、自動回帰復号法とバニラ投機復号法と比較して、より優れたスピードアップ性能を実現した。

Speculative decoding (SD), where an extra draft model is employed to provide multiple \textit{draft} tokens first and then the original target model verifies these tokens in parallel, has shown great power for LLM inference acceleration. However, existing SD methods suffer from the mutual waiting problem, i.e., the target model gets stuck when the draft model is \textit{guessing} tokens, and vice versa. This problem is directly incurred by the asynchronous execution of the draft model and the target model, and is exacerbated due to the fixed draft length in speculative decoding. To address these challenges, we propose a conceptually simple, flexible, and general framework to boost speculative decoding, namely \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL). Specifically, PEARL proposes \textit{pre-verify} to verify the first draft token in advance during the drafting phase, and \textit{post-verify} to generate more draft tokens during the verification phase. PEARL parallels the drafting phase and the verification phase via applying the two strategies, and achieves adaptive draft length for different scenarios, which effectively alleviates the mutual waiting problem. Moreover, we theoretically demonstrate that the mean accepted tokens of PEARL is more than existing \textit{draft-then-verify} works. Experiments on various text generation benchmarks demonstrate the effectiveness of our \name, leading to a superior speedup performance up to \textbf{3.79$\times$} and \textbf{1.52$\times$}, compared to auto-regressive decoding and vanilla speculative decoding, respectively.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# 古典的オルンシュタイン-ウレンベック過程としての第三量子マスター方程式

Third-Quantized Master Equations as a classical Ornstein-Uhlenbeck Process ( http://arxiv.org/abs/2408.11893v2 )

ライセンス: Link先を確認
Léonce Dupays, (参考訳) 第3の量子化は開量子系において、2次リンドブレディアンを正規形式に変換する超作用素基底を構成するために用いられる。 そこから、固有値や固有ベクトルを含むリンドブラディアンのスペクトル特性に従う。 しかし、三次量子化と半古典的表現の結びつきは通常、開量子系の力学を得るために使われる。 我々は、第3量子化と$Q$表現の間のこのギャップを、マスター方程式を超作用素コヒーレントな状態基底に投影することによって埋める第3量子化の新しい基底を導入する。 運動方程式は多次元複素Ornstein-Uhlenbeck過程に還元される。

Third quantization is used in open quantum systems to construct a superoperator basis in which quadratic Lindbladians can be turned into a normal form. From it follows the spectral properties of the Lindbladian, including eigenvalues and eigenvectors. However, the connection between third quantization and the semiclassical representations usually employed to obtain the dynamics of open quantum systems remains opaque. We introduce a new basis for third quantization that bridges this gap between third quantization and the $Q$ representation by projecting the master equation onto a superoperator coherent state basis. The equation of motion reduces to a multidimensional complex Ornstein-Uhlenbeck process.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# CT-AGRG : 3次元胸部CTボリュームから自動異常ガイド作成

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes ( http://arxiv.org/abs/2408.11965v2 )

ライセンス: Link先を確認
Theo Di Piazza, (参考訳) CT(Computerd tomography)スキャンの急激な増加と,その時間を要する手作業による分析は,臨床現場での堅牢な自動解析技術の必要性を突発的に生み出している。 これらは、放射線学者を支援し、成長するワークロードの管理を支援することを目的としている。 既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。 このガイドなしのアプローチは、しばしば反復的な内容や不完全な報告をもたらし、異常固有の記述の優先順位付けに失敗する。 本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。 パブリックデータセットの評価は、レポートの品質と臨床関連性を大幅に改善したことを示している。 我々はその効果を実証するためにアブレーション研究を行うことで研究を拡大する。

The rapid increase of computed tomography (CT) scans and their time-consuming manual analysis have created an urgent need for robust automated analysis techniques in clinical settings. These aim to assist radiologists and help them managing their growing workload. Existing methods typically generate entire reports directly from 3D CT images, without explicitly focusing on observed abnormalities. This unguided approach often results in repetitive content or incomplete reports, failing to prioritize anomaly-specific descriptions. We propose a new anomaly-guided report generation model, which first predicts abnormalities and then generates targeted descriptions for each. Evaluation on a public dataset demonstrates significant improvements in report quality and clinical relevance. We extend our work by conducting an ablation study to demonstrate its effectiveness.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# グラフ検索の信頼性向上

Graph Retrieval Augmented Trustworthiness Reasoning ( http://arxiv.org/abs/2408.12333v2 )

ライセンス: Link先を確認
Ying Zhu, Shengchang Li, Ziqian Kong, Peilan Xu, (参考訳) 不完全な情報を持つマルチプレイヤーゲームにおいて、信頼できる推論は不可欠であり、エージェントは潜在的な同盟者や敵を識別し、推論と意思決定のプロセスを強化する。 事前訓練されたモデルに依存する従来のアプローチでは、広範囲なドメイン固有データと相当な報奨フィードバックが必要であり、リアルタイム適応性の欠如により、動的環境での有効性が損なわれている。 本稿では,エージェントの信頼性向上にRAG(Retrieval-Augmented Generation)技術を活用するGRATR(Graph Retrieval Augmented Reasoning)フレームワークを提案する。 GRATRは、動的信頼性グラフを構築し、明快な情報でリアルタイムで更新し、関連する信頼データを取得して、Large Language Models(LLMs)の推論能力を増強する。 我々は,マルチプレイヤーゲーム"Werewolf"の実験を通じて,GRATRとNative RAGとRerank RAGを併用したベースラインLLMとLLMを比較し,本手法の有効性を検証した。 その結果, GRATR は勝利率を 30 % 以上上回り, 高い推算性能を示した。 さらに、GRATRは、アイデンティティや目的記憶といったLCM幻覚を効果的に緩和し、重要な点として、信頼性グラフを用いることで、推論プロセスをより透明でトレース可能にする。

Trustworthiness reasoning is crucial in multiplayer games with incomplete information, enabling agents to identify potential allies and adversaries, thereby enhancing reasoning and decision-making processes. Traditional approaches relying on pre-trained models necessitate extensive domain-specific data and considerable reward feedback, with their lack of real-time adaptability hindering their effectiveness in dynamic environments. In this paper, we introduce the Graph Retrieval Augmented Reasoning (GRATR) framework, leveraging the Retrieval-Augmented Generation (RAG) technique to bolster trustworthiness reasoning in agents. GRATR constructs a dynamic trustworthiness graph, updating it in real-time with evidential information, and retrieves relevant trust data to augment the reasoning capabilities of Large Language Models (LLMs). We validate our approach through experiments on the multiplayer game "Werewolf," comparing GRATR against baseline LLM and LLM enhanced with Native RAG and Rerank RAG. Our results demonstrate that GRATR surpasses the baseline methods by over 30\% in winning rate, with superior reasoning performance. Moreover, GRATR effectively mitigates LLM hallucinations, such as identity and objective amnesia, and crucially, it renders the reasoning process more transparent and traceable through the use of the trustworthiness graph.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# 動的PDB:タンパク質構造における動的挙動と物性の統合による新しいデータセットとSE(3)モデル拡張

Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures ( http://arxiv.org/abs/2408.12413v2 )

ライセンス: Link先を確認
Ce Liu, Jun Wang, Zhiqiang Cai, Yingxu Wang, Huizhen Kuang, Kaihui Cheng, Liwei Zhang, Qingkun Su, Yining Tang, Fenglei Cao, Limei Han, Siyu Zhu, Yuan Qi, (参考訳) 静的なタンパク質の構造の収集と予測が著しく進歩したにもかかわらず、その最も重要な特徴の一つであるタンパク質の動的挙動は、以前の研究でほとんど見落とされた。 この監視は、動的タンパク質データセットの可用性、多様性、不均一性に起因している。 このギャップに対処するために、動的データと追加の物理特性を統合することにより、PDB(Protein Data Bank)のような既存の高名な静的3Dタンパク質構造データベースを強化することを提案する。 具体的には、約12.6Kのタンパク質を含む大規模データセットであるDynamic PDBを導入し、1マイクロ秒間の全原子分子動力学シミュレーションを行い、コンフォメーション変化を捉える。 さらに、原子速度と力、タンパク質の電位および運動エネルギー、シミュレーション環境の温度など、シミュレーションを通して1ピコ秒間隔で記録された、総合的な物理特性スイートを提供する。 本研究は, 軌道予測の課題に対して, 提案したデータセット上での最先端手法の評価を行う。 タンパク質力学および関連モデル設計の研究において、よりリッチな物理特性を統合することの価値を実証するために、我々はSE(3)拡散モデルに基づくアプローチを行い、これらの物理特性を軌道予測プロセスに組み込む。 予備的な結果から, このSE(3)モデルの直接拡張は, 提案された物理特性を考慮すると, MAE および RMSD によって測定された精度が向上することが示された。 https://fudan-generative-vision.github.io/dynamicPDB/

Despite significant progress in static protein structure collection and prediction, the dynamic behavior of proteins, one of their most vital characteristics, has been largely overlooked in prior research. This oversight can be attributed to the limited availability, diversity, and heterogeneity of dynamic protein datasets. To address this gap, we propose to enhance existing prestigious static 3D protein structural databases, such as the Protein Data Bank (PDB), by integrating dynamic data and additional physical properties. Specifically, we introduce a large-scale dataset, Dynamic PDB, encompassing approximately 12.6K proteins, each subjected to all-atom molecular dynamics (MD) simulations lasting 1 microsecond to capture conformational changes. Furthermore, we provide a comprehensive suite of physical properties, including atomic velocities and forces, potential and kinetic energies of proteins, and the temperature of the simulation environment, recorded at 1 picosecond intervals throughout the simulations. For benchmarking purposes, we evaluate state-of-the-art methods on the proposed dataset for the task of trajectory prediction. To demonstrate the value of integrating richer physical properties in the study of protein dynamics and related model design, we base our approach on the SE(3) diffusion model and incorporate these physical properties into the trajectory prediction process. Preliminary results indicate that this straightforward extension of the SE(3) model yields improved accuracy, as measured by MAE and RMSD, when the proposed physical properties are taken into consideration. https://fudan-generative-vision.github.io/dynamicPDB/ .
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# インスタンス知識と深度知識によって強化されたマップフリーな視覚的再局在

Map-Free Visual Relocalization Enhanced by Instance Knowledge and Depth Knowledge ( http://arxiv.org/abs/2408.13085v2 )

ライセンス: Link先を確認
Mingyu Xiao, Runze Chen, Haiyong Luo, Fang Zhao, Juan Wang, Xuepeng Ma, (参考訳) 地図のない再ローカライズ技術は、自律ナビゲーションや拡張現実のアプリケーションには不可欠だが、事前に構築された地図に依存することは現実的ではないことが多い。 マッチング方法の制限や、単眼画像のスケールの欠如により、大きな課題に直面している。 これらの問題は、実際のシナリオでかなりの回転誤差とメートル法誤差、さらにはローカライゼーション障害につながる。 大きな一致誤差は全体の再局在過程に大きな影響を与え、回転精度と翻訳精度の両方に影響を及ぼす。 カメラ自体固有の制限のため、単一の画像からメートル法スケールを復元することが重要であり、これは翻訳エラーに大きな影響を及ぼす。 これらの課題に対処するために,事例知識と深度知識によって強化された地図のない再局在化手法を提案する。 インスタンスベースのマッチング情報を利用して、グローバルなマッチング結果を改善することにより、異なるオブジェクト間のミスマッチの可能性を大幅に低減する。 インスタンス知識の堅牢さは、特徴点マッチングモデルが関連する領域に集中し、マッチング精度を高めるのに役立つ。 さらに,1つの画像から推定した距離深度を用いて,距離誤差を低減し,スケール回復精度を向上させる。 大規模な翻訳誤差と回転誤差を緩和する手法を統合することにより,地図のない再ローカライゼーション手法において優れた性能を示す。

Map-free relocalization technology is crucial for applications in autonomous navigation and augmented reality, but relying on pre-built maps is often impractical. It faces significant challenges due to limitations in matching methods and the inherent lack of scale in monocular images. These issues lead to substantial rotational and metric errors and even localization failures in real-world scenarios. Large matching errors significantly impact the overall relocalization process, affecting both rotational and translational accuracy. Due to the inherent limitations of the camera itself, recovering the metric scale from a single image is crucial, as this significantly impacts the translation error. To address these challenges, we propose a map-free relocalization method enhanced by instance knowledge and depth knowledge. By leveraging instance-based matching information to improve global matching results, our method significantly reduces the possibility of mismatching across different objects. The robustness of instance knowledge across the scene helps the feature point matching model focus on relevant regions and enhance matching accuracy. Additionally, we use estimated metric depth from a single image to reduce metric errors and improve scale recovery accuracy. By integrating methods dedicated to mitigating large translational and rotational errors, our approach demonstrates superior performance in map-free relocalization techniques.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# 多目的強化学習における閾値レキソグラフィ

Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning ( http://arxiv.org/abs/2408.13493v2 )

ライセンス: Link先を確認
Alperen Tercan, Vinayak S. Prabhu, (参考訳) 語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。 既存の強化学習では、語彙的タスクに直接対処する作業が不足している。 ベルマン方程式はそれらに適用できないため、いくつかの提案されたアプローチは、理論的な保証なしにヒューリスティックであるとみなされた。 さらに、これらの従来のアプローチの実践的適用性も、目標状態に到達できないなど、さまざまな問題に悩まされている。 これらの問題のいくつかは以前にも知られていたが、本研究ではさらなる欠点を調査し、多くの場合、実用的なパフォーマンスを改善するための修正を提案する。 また,Lexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。 最後に,ベンチマーク問題に対する提案アルゴリズムの実証を行った。

Lexicographic multi-objective problems, which impose a lexicographic importance order over the objectives, arise in many real-life scenarios. Existing Reinforcement Learning work directly addressing lexicographic tasks has been scarce. The few proposed approaches were all noted to be heuristics without theoretical guarantees as the Bellman equation is not applicable to them. Additionally, the practical applicability of these prior approaches also suffers from various issues such as not being able to reach the goal state. While some of these issues have been known before, in this work we investigate further shortcomings, and propose fixes for improving practical performance in many cases. We also present a policy optimization approach using our Lexicographic Projection Optimization (LPO) algorithm that has the potential to address these theoretical and practical concerns. Finally, we demonstrate our proposed algorithms on benchmark problems.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# 目に見えないクラスから点雲再構成のための局所パターンのモジュラー化学習

Learning Local Pattern Modularization for Point Cloud Reconstruction from Unseen Classes ( http://arxiv.org/abs/2408.14279v2 )

ライセンス: Link先を確認
Chao Chen, Yu-Shen Liu, Zhizhong Han, (参考訳) 単一の2D画像から見えないクラスの3D点雲を再構築することは困難である。 オブジェクト中心座標系の代わりに、現在の手法は、ビューア中心座標系において見えないクラスから3次元形状を再構成するために、目に見えないクラスで学んだグローバル事前を一般化した。 しかし、再建精度と解釈性は依然として改善が望まれている。 そこで本研究では, 局所パターンのモジュラー化を学習し, 3次元形状を立体的に再構築する手法を提案する。 我々の洞察は、クラスに依存しない局所的な事前学習を、オブジェクト指向座標系において容易に一般化することである。 具体的には、ローカルな事前学習は、ローカルなパターンのモジュール化を学習し、カスタマイズするプロセスを通じて行われる。 この過程で我々はまず,各クラスにまたがる形状の任意の領域を表すために,オブジェクト中心座標系の基本となる局所領域のパターン集合を学習する。 そして、学習した局所パターンを用いて、初期再構成された形状で各領域をモジュール化する。 これに基づいて、より詳細な情報で再構成をすることで、入力画像を用いて局所パターンのモジュール化をカスタマイズする。 本手法では,多数のパターンや,セグメンテーション監視やカメラポーズなどの追加情報を必要とすることなく,オブジェクト中心座標系における未知のクラスから高忠実度点雲を再構成することができる。 広範に用いられているベンチマーク実験の結果,本手法は未知のクラスからの形状に対する最先端の復元精度を達成できることが示唆された。 コードはhttps://github.com/chenchao15/Unseen.comから入手できる。

It is challenging to reconstruct 3D point clouds in unseen classes from single 2D images. Instead of object-centered coordinate system, current methods generalized global priors learned in seen classes to reconstruct 3D shapes from unseen classes in viewer-centered coordinate system. However, the reconstruction accuracy and interpretability are still eager to get improved. To resolve this issue, we introduce to learn local pattern modularization for reconstructing 3D shapes in unseen classes, which achieves both good generalization ability and high reconstruction accuracy. Our insight is to learn a local prior which is class-agnostic and easy to generalize in object-centered coordinate system. Specifically, the local prior is learned via a process of learning and customizing local pattern modularization in seen classes. During this process, we first learn a set of patterns in local regions, which is the basis in the object-centered coordinate system to represent an arbitrary region on shapes across different classes. Then, we modularize each region on an initially reconstructed shape using the learned local patterns. Based on that, we customize the local pattern modularization using the input image by refining the reconstruction with more details. Our method enables to reconstruct high fidelity point clouds from unseen classes in object-centered coordinate system without requiring a large number of patterns or any additional information, such as segmentation supervision or camera poses. Our experimental results under widely used benchmarks show that our method achieves the state-of-the-art reconstruction accuracy for shapes from unseen classes. The code is available at https://github.com/chenchao15/Unseen.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# Hilbert-Pólya Conjecture に対するハミルトニアンについて

On the Hamiltonian for the Hilbert-Pólya Conjecture ( http://arxiv.org/abs/2408.15135v2 )

ライセンス: Link先を確認
Enderalp Yakaboylu, (参考訳) 最近の写本~[J. Phys. A: Math. Theor. 57 235204 (2024)]では、ヒルベルト=ピオリア説のハミルトニアン候補が紹介されている。 ここでは、対応する固有函数が二乗可積分であること、そして決定的に、固有値が実であることをエレガントに示す。 後者はリーマン仮説を証明するための重要なステップである。

In a recent manuscript~[J. Phys. A: Math. Theor. 57 235204 (2024)], a candidate Hamiltonian for the Hilbert-P\'olya Conjecture was introduced. Here, we elegantly demonstrate that the corresponding eigenfunctions are square-integrable and, crucially, that the eigenvalues are real. The latter represents a significant step toward proving the Riemann Hypothesis.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# LLMの防衛は、人間のジェイルブレイクにはまだ耐えられない

LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet ( http://arxiv.org/abs/2408.15221v2 )

ライセンス: Link先を確認
Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside, Hugh Zhang, Zifan Wang, Cristina Menghini, Summer Yue, (参考訳) 最近の大規模言語モデル(LLM)の防御は、敵が攻撃しても有害なクエリを拒否するモデルの能力を大幅に改善した。 しかし、LLMの防御は、現実世界の悪意のある使用に対して不十分な脅威モデルである1ターンの会話において、自動的な敵攻撃に対して主に評価される。 マルチターンヒトジェイルブレイクが重大な脆弱性を発見でき、HarmBenchの攻撃成功率(ASR)を70%以上越え、単一桁のASRと自動単ターン攻撃を報告している。 人間のジェイルブレイクはまた、未学習の防御の脆弱性を明らかにし、未学習のモデルから二重用途のバイオセキュリティ知識を回復することに成功した。 我々はこれらの結果を537個のマルチターンジェイルブレイクにまたがる2,912個のプロンプトのデータセットであるMHJ(Multi-Turn Human Jailbreaks)にコンパイルする。 我々はMHJを、数十の商業的レッドチームで開発されたジェイルブレイク戦術のコンペレーションと共に公開し、LLM防衛の強化に向けた研究を支援します。

Recent large language model (LLM) defenses have greatly improved models' ability to refuse harmful queries, even when adversarially attacked. However, LLM defenses are primarily evaluated against automated adversarial attacks in a single turn of conversation, an insufficient threat model for real-world malicious use. We demonstrate that multi-turn human jailbreaks uncover significant vulnerabilities, exceeding 70% attack success rate (ASR) on HarmBench against defenses that report single-digit ASRs with automated single-turn attacks. Human jailbreaks also reveal vulnerabilities in machine unlearning defenses, successfully recovering dual-use biosecurity knowledge from unlearned models. We compile these results into Multi-Turn Human Jailbreaks (MHJ), a dataset of 2,912 prompts across 537 multi-turn jailbreaks. We publicly release MHJ alongside a compendium of jailbreak tactics developed across dozens of commercial red teaming engagements, supporting research towards stronger LLM defenses.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# 人口ベース強化学習における第1・第2次最適化者の同時学習

Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning ( http://arxiv.org/abs/2408.15421v2 )

ライセンス: Link先を確認
Felix Pfeiffer, Shahram Eivazi, (参考訳) 強化学習(RL)におけるハイパーパラメータのチューニングは、これらのパラメータがエージェントのパフォーマンスと学習効率に大きな影響を及ぼすため、非常に重要である。 トレーニング過程におけるハイパーパラメータの動的調整は、学習性能と安定性の両方を著しく向上させることができる。 人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。 この継続的な調整により、モデルは異なる学習段階に適応し、より高速な収束と全体的なパフォーマンス向上を実現する。 本稿では,単一個体群内における一階最適化と二階最適化を同時に活用することにより,PBTの強化を提案する。 我々は様々な MuJoCo 環境にまたがるTD3 アルゴリズムを用いて実験を行った。 PBT ベースの RL に 2 階最適化器を組み込むことの可能性を実証的に実証した。 具体的には、K-FACオプティマイザとAdamの組み合わせにより、Adamのみを使用したPBTと比較して、全体のパフォーマンスが10%向上した。 さらに、スイマー環境のようなアダムが時々失敗する環境では、K-FACとの混成人口はより信頼性の高い学習結果を示し、計算時間を大幅に増加させることなく、トレーニング安定性に大きな利点をもたらした。

The tuning of hyperparameters in reinforcement learning (RL) is critical, as these parameters significantly impact an agent's performance and learning efficiency. Dynamic adjustment of hyperparameters during the training process can significantly enhance both the performance and stability of learning. Population-based training (PBT) provides a method to achieve this by continuously tuning hyperparameters throughout the training. This ongoing adjustment enables models to adapt to different learning stages, resulting in faster convergence and overall improved performance. In this paper, we propose an enhancement to PBT by simultaneously utilizing both first- and second-order optimizers within a single population. We conducted a series of experiments using the TD3 algorithm across various MuJoCo environments. Our results, for the first time, empirically demonstrate the potential of incorporating second-order optimizers within PBT-based RL. Specifically, the combination of the K-FAC optimizer with Adam led to up to a 10% improvement in overall performance compared to PBT using only Adam. Additionally, in environments where Adam occasionally fails, such as the Swimmer environment, the mixed population with K-FAC exhibited more reliable learning outcomes, offering a significant advantage in training stability without a substantial increase in computational time.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-04
# Hand1000ハンズオン:1000枚の画像だけでテキストからリアルな手を作る

Hand1000: Generating Realistic Hands from Text with Only 1,000 Images ( http://arxiv.org/abs/2408.15461v2 )

ライセンス: Link先を確認
Haozhuo Zhang, Bin Zhu, Yu Cao, Yanbin Hao, (参考訳) 近年,テキスト・ツー・イメージ生成モデルは,テキスト記述からリアルなイメージを作り出すことを目的として,顕著な進歩を遂げている。 しかしながら、これらのモデルは、しばしば解剖学的に正確な人間の手を表現することに苦労する。 結果として得られた画像は、しばしば不正確な指の数、不自然なねじれや指のインターレース、ぼやけた不明瞭な手などの問題を示す。 これらの問題は、手の構造が本質的に複雑であることと、手の記述を正確に視覚的に表現することの難しさに起因している。 これらの課題に対処するために,1000個のトレーニングサンプルのみを用いて,目標ジェスチャーによる現実的な手画像の生成を可能にするHand1000という新しいアプローチを提案する。 Hand1000の訓練は、3つの段階に分けられており、第1段階は、事前訓練された手振り認識モデルを用いて、手振り表現を抽出することにより、手振りの解剖学的理解を高めることを目的としている。 第2段階はさらに、抽出した手の動き表現を組み込んでテキスト埋め込みを最適化し、テキスト記述と生成された手画像とのアライメントを改善する。 第3段階では、最適化された埋め込みを使用して、安定拡散モデルを微調整し、現実的な手画像を生成する。 さらに,テキスト・ツー・ハンド画像生成に特化して設計された最初の公開データセットを構築した。 既存のジェスチャー認識データセットに基づいて,高度な画像キャプションモデルとLLaMA3を用いて,詳細なジェスチャー情報に富んだ高品質なテキスト記述を生成する。 大規模な実験により、Hand1000は、顔、衣服、色などのテキストの他の詳細を忠実に表現しながら、解剖学的に正しい手画像を生成することで、既存のモデルよりも大幅に優れていることが示された。

Text-to-image generation models have achieved remarkable advancements in recent years, aiming to produce realistic images from textual descriptions. However, these models often struggle with generating anatomically accurate representations of human hands. The resulting images frequently exhibit issues such as incorrect numbers of fingers, unnatural twisting or interlacing of fingers, or blurred and indistinct hands. These issues stem from the inherent complexity of hand structures and the difficulty in aligning textual descriptions with precise visual depictions of hands. To address these challenges, we propose a novel approach named Hand1000 that enables the generation of realistic hand images with target gesture using only 1,000 training samples. The training of Hand1000 is divided into three stages with the first stage aiming to enhance the model's understanding of hand anatomy by using a pre-trained hand gesture recognition model to extract gesture representation. The second stage further optimizes text embedding by incorporating the extracted hand gesture representation, to improve alignment between the textual descriptions and the generated hand images. The third stage utilizes the optimized embedding to fine-tune the Stable Diffusion model to generate realistic hand images. In addition, we construct the first publicly available dataset specifically designed for text-to-hand image generation. Based on the existing hand gesture recognition dataset, we adopt advanced image captioning models and LLaMA3 to generate high-quality textual descriptions enriched with detailed gesture information. Extensive experiments demonstrate that Hand1000 significantly outperforms existing models in producing anatomically correct hand images while faithfully representing other details in the text, such as faces, clothing, and colors.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 大規模言語モデルを用いたFew-Shot Promptingを用いた名前付きエンティティ認識の評価

Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models ( http://arxiv.org/abs/2408.15796v2 )

ライセンス: Link先を確認
Hédi Zeghidi, Ludovic Moncla, (参考訳) 名前付きエンティティ認識(NER)のための大規模言語モデルを用いたFew-Shot Promptingの評価を行った。 従来のNERシステムは広範なラベル付きデータセットに依存しており、取得にはコストと時間を要する。 Few-Shot PromptingやIn-context Learningは、モデルが最小限の例でエンティティを認識できるようにする。 NERタスクにおけるGPT-4のような最先端モデルの評価を行い、その数ショットのパフォーマンスと完全に教師付きベンチマークを比較した。 結果は、パフォーマンスのギャップがある一方で、大きなモデルは、非常に限られたデータを持つ新しいエンティティタイプやドメインに適応することが優れていることを示している。 また、プロンプトエンジニアリング、ガイド付き出力フォーマット、コンテキスト長がパフォーマンスに与える影響についても検討する。 この研究は、大規模なラベル付きデータセットの必要性を減らし、NERのスケーラビリティとアクセシビリティを向上させるFew-Shot Learningの可能性を強調している。

This paper evaluates Few-Shot Prompting with Large Language Models for Named Entity Recognition (NER). Traditional NER systems rely on extensive labeled datasets, which are costly and time-consuming to obtain. Few-Shot Prompting or in-context learning enables models to recognize entities with minimal examples. We assess state-of-the-art models like GPT-4 in NER tasks, comparing their few-shot performance to fully supervised benchmarks. Results show that while there is a performance gap, large models excel in adapting to new entity types and domains with very limited data. We also explore the effects of prompt engineering, guided output format and context length on performance. This study underscores Few-Shot Learning's potential to reduce the need for large labeled datasets, enhancing NER scalability and accessibility.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 時系列予測に必要なのは変分モード分解と線形埋め込み

Variational Mode Decomposition and Linear Embeddings are What You Need For Time-Series Forecasting ( http://arxiv.org/abs/2408.16122v2 )

ライセンス: Link先を確認
Hafizh Raihan Kurnia Putra, Novanto Yudistira, Tirana Noor Fatyanosa, (参考訳) 時系列予測は、データの不安定性によってしばしば課題に直面し、不正確な予測につながる可能性がある。 変動モード分解(VMD)は、データを異なるモードに分解することでボラティリティを緩和し、予測精度を向上する有望な手法として登場した。 本研究では,線形モデルとVMDを統合し,ロバストな予測フレームワークを開発する。 ETTm2, WindTurbine, M4, 東南アジアの各都市における10の大気質データセットを含む13の多様なデータセットについて検討を行った。 VMD戦略の有効性は、VMDを利用するモデルからRoot Mean Squared Error(RMSE)値を比較して評価する。 さらに、LSTM、双方向LSTM、RNNなどのよく知られたニューラルネットワークアーキテクチャに対して線形ベースモデルをベンチマークする。 その結果,VMD アプリケーションに続くほぼすべてのモデルにおいて,RMSE の大幅な削減が示された。 特に、線形 + VMD モデルは、0.619 の単変量予測で最低平均 RMSE を達成した。 多変量予測では、DLinear + VMDモデルは、平均0.019で、すべてのデータセットで最低のRMSEを達成した。 これらの結果から,VMDと線形モデルを組み合わせることにより,時系列予測の精度が向上した。

Time-series forecasting often faces challenges due to data volatility, which can lead to inaccurate predictions. Variational Mode Decomposition (VMD) has emerged as a promising technique to mitigate volatility by decomposing data into distinct modes, thereby enhancing forecast accuracy. In this study, we integrate VMD with linear models to develop a robust forecasting framework. Our approach is evaluated on 13 diverse datasets, including ETTm2, WindTurbine, M4, and 10 air quality datasets from various Southeast Asian cities. The effectiveness of the VMD strategy is assessed by comparing Root Mean Squared Error (RMSE) values from models utilizing VMD against those without it. Additionally, we benchmark linear-based models against well-known neural network architectures such as LSTM, Bidirectional LSTM, and RNN. The results demonstrate a significant reduction in RMSE across nearly all models following VMD application. Notably, the Linear + VMD model achieved the lowest average RMSE in univariate forecasting at 0.619. In multivariate forecasting, the DLinear + VMD model consistently outperformed others, attaining the lowest RMSE across all datasets with an average of 0.019. These findings underscore the effectiveness of combining VMD with linear models for superior time-series forecasting.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# オープンヒューマンフィードバックの未来

The Future of Open Human Feedback ( http://arxiv.org/abs/2408.16961v2 )

ライセンス: Link先を確認
Shachar Don-Yehiya, Ben Burtenshaw, Ramon Fernandez Astudillo, Cailean Osborne, Mimansa Jaiswal, Tzu-Sheng Kuo, Wenting Zhao, Idan Shenfeld, Andi Peng, Mikhail Yurochkin, Atoosa Kasirzadeh, Yangsibo Huang, Tatsunori Hashimoto, Yacine Jernite, Daniel Vila-Suero, Omri Abend, Jennifer Ding, Sara Hooker, Hannah Rose Kirk, Leshem Choshen, (参考訳) 言語モデル(LLM)との会話に対する人間のフィードバックは、これらのシステムが世界についてどのように学び、その能力を改善し、望ましい、安全な行動へと導かれるかの中心である。 しかし、このフィードバックは、主にフロンティアAIラボによって収集され、ドアの陰に置かれている。 本研究では、AIのための人間のフィードバックのオープンなエコシステムを実現するための機会と課題を評価するために、学際専門家を集結させます。 私たちはまず、ピアプロダクション、オープンソース、市民科学コミュニティで成功したプラクティスを探します。 そして、人間のフィードバックをオープンにする主な課題を特徴づけます。 それぞれについて、現在のアプローチを調査し、推奨します。 最終的には、持続可能なオープンな人間のフィードバックエコシステムを支えるために必要なコンポーネントを想定します。 このエコシステムの中心には、ユーザと専門モデルの間の相互に有益なフィードバックループがあり、一般的なオープンなフィードバックプールをサポートするために、モデルトレーナとフィードバックプロバイダの多様な利害関係者コミュニティにインセンティブを与えます。

Human feedback on conversations with language language models (LLMs) is central to how these systems learn about the world, improve their capabilities, and are steered toward desirable and safe behaviors. However, this feedback is mostly collected by frontier AI labs and kept behind closed doors. In this work, we bring together interdisciplinary experts to assess the opportunities and challenges to realizing an open ecosystem of human feedback for AI. We first look for successful practices in peer production, open source, and citizen science communities. We then characterize the main challenges for open human feedback. For each, we survey current approaches and offer recommendations. We end by envisioning the components needed to underpin a sustainable and open human feedback ecosystem. In the center of this ecosystem are mutually beneficial feedback loops, between users and specialized models, incentivizing a diverse stakeholders community of model trainers and feedback providers to support a general open feedback pool.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 視覚変換器を用いた電力品質信号の新しい分類法

A Novel Approach to Classify Power Quality Signals Using Vision Transformers ( http://arxiv.org/abs/2409.00025v2 )

ライセンス: Link先を確認
Ahmad Mohammad Saber, Alaa Selim, Mohamed M. Hammad, Amr Youssef, Deepa Kundur, Ehab El-Saadany, (参考訳) 電子的にインターフェースされた再生可能エネルギー資源と負荷のスマートグリッドへの迅速な統合により、これらのグリッドのセキュリティと効率を高めるため、電力品質障害(PQD)分類への関心が高まっている。 本稿では,視覚変換器(ViT)モデルに基づく新しいPQD分類手法を提案する。 PQDが発生すると、提案手法はまず電力品質信号を画像に変換し、次にトレーニング済みのViTを用いてPQDのクラスを正確に決定する。 少数の障害クラスや小さなデータセットに限られていた以前のほとんどの研究とは異なり、提案手法は17の障害クラスを持つ大規模なデータセット上で訓練され、テストされる。 実験の結果,提案手法はPQD分類精度を98.28%, 97.98%と向上し, 同一データセットに適用した手法よりも優れていることがわかった。

With the rapid integration of electronically interfaced renewable energy resources and loads into smart grids, there is increasing interest in power quality disturbances (PQD) classification to enhance the security and efficiency of these grids. This paper introduces a new approach to PQD classification based on the Vision Transformer (ViT) model. When a PQD occurs, the proposed approach first converts the power quality signal into an image and then utilizes a pre-trained ViT to accurately determine the class of the PQD. Unlike most previous works, which were limited to a few disturbance classes or small datasets, the proposed method is trained and tested on a large dataset with 17 disturbance classes. Our experimental results show that the proposed ViT-based approach achieves PQD classification precision and recall of 98.28% and 97.98%, respectively, outperforming recently proposed techniques applied to the same dataset.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# GPT, Claude, Llama, Phi, Mistral, Gemma, Quantized Models

Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models ( http://arxiv.org/abs/2409.00084v2 )

ライセンス: Link先を確認
Seyed Amir Ahmad Safavi-Naini, Shuhaib Ali, Omer Shahab, Zahra Shahhoseini, Thomas Savage, Sara Rafiee, Jamil S Samaan, Reem Al Shabeeb, Farah Ladak, Jamie O Yang, Juan Echavarria, Sumbal Babar, Aasma Shaukat, Samuel Margolis, Nicholas P Tatonetti, Girish Nadkarni, Bara El Kurdi, Ali Soroush, (参考訳) 背景と課題: 胃腸科における大型言語モデル(LLM)と視覚言語モデル(VLM)の医学的推論性能を評価する。 方法:300項目の胃腸科試験式多票質問紙を用いた。そのうち138項目は,モデル構成とパラメータの影響を体系的に評価し,GPT-3.5を用いたエンジニアリング戦略を推進した。 次に, GPT (3.5, 4, 4o, 4omini), Claude (3, 3.5), Gemini (1.0), Mistral, Llama (2, 3, 3.1), Mixtral, Phi (3), さまざまなインターフェース (Web と API), コンピューティング環境 (クラウドとローカル), モデル精度 (量子化なしで) など,プロプライエタリでオープンソースの LLM (バージョン) の性能を評価した。 最後に,半自動パイプラインを用いた精度評価を行った。 結果: プロプライエタリモデルのうち GPT-4o (73.7%) と Claude3.5-Sonnet (74.0%) が最高精度を達成し、Llama3.1-405b (64%)、Llama3.1-70b (58.3%)、Mixtral-8x7b (54.3%) を抜いた。 量子化されたオープンソースモデルのうち、6ビットの量子化されたPhi3-14b (48.7%) が最もよく機能した。 量子化モデルのスコアは、Llama2-7b、Llama2--13b、Gemma2-9bのスコアに匹敵する。 特に、画像を含む質問に対するVLM性能は、画像が提供され、LLM生成キャプションが提供されると悪化する場合には改善しなかった。 一方,人為的な画像記述を伴う画像では,10%の精度向上が観察された。 結論: 結論として, LLM は医学的推論において堅牢なゼロショット性能を示す一方で, 視覚データの統合は VLM にとって依然として課題である。 効果的なデプロイメントには、最適なモデル構成を慎重に決定することと、プロプライエタリなモデルのハイパフォーマンスと、オープンソースモデルの柔軟な適応性のいずれかを検討することをユーザに奨励することが含まれる。

Background and Aims: This study evaluates the medical reasoning performance of large language models (LLMs) and vision language models (VLMs) in gastroenterology. Methods: We used 300 gastroenterology board exam-style multiple-choice questions, 138 of which contain images to systematically assess the impact of model configurations and parameters and prompt engineering strategies utilizing GPT-3.5. Next, we assessed the performance of proprietary and open-source LLMs (versions), including GPT (3.5, 4, 4o, 4omini), Claude (3, 3.5), Gemini (1.0), Mistral, Llama (2, 3, 3.1), Mixtral, and Phi (3), across different interfaces (web and API), computing environments (cloud and local), and model precisions (with and without quantization). Finally, we assessed accuracy using a semiautomated pipeline. Results: Among the proprietary models, GPT-4o (73.7%) and Claude3.5-Sonnet (74.0%) achieved the highest accuracy, outperforming the top open-source models: Llama3.1-405b (64%), Llama3.1-70b (58.3%), and Mixtral-8x7b (54.3%). Among the quantized open-source models, the 6-bit quantized Phi3-14b (48.7%) performed best. The scores of the quantized models were comparable to those of the full-precision models Llama2-7b, Llama2--13b, and Gemma2-9b. Notably, VLM performance on image-containing questions did not improve when the images were provided and worsened when LLM-generated captions were provided. In contrast, a 10% increase in accuracy was observed when images were accompanied by human-crafted image descriptions. Conclusion: In conclusion, while LLMs exhibit robust zero-shot performance in medical reasoning, the integration of visual data remains a challenge for VLMs. Effective deployment involves carefully determining optimal model configurations, encouraging users to consider either the high performance of proprietary models or the flexible adaptability of open-source models.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 大規模言語モデルにおける否定的盲点:画像生成におけるNO症候群の解明

Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation ( http://arxiv.org/abs/2409.00105v2 )

ライセンス: Link先を確認
Mohammad Nadeem, Shahab Saquib Sohail, Erik Cambria, Björn W. Schuller, Amir Hussain, (参考訳) 基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。 詩の執筆やコーディング、エッセイ生成、パズルの解き方など、様々な課題に長けていることが示されている。 画像生成機能の導入により、より包括的で汎用的なAIツールとなった。 同時に、研究者たちはこれらのツールの限界を特定し、さらに改善しようとしている。 現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。 本研究は,LLMの画像生成能力に関する基礎的限界を特定し,それを「NO症候群」と呼ぶ。 この否定盲目は、所望の画像を生成するためのNO関連自然言語プロンプトを正しく理解できないLLMを指す。 興味深いことに、GPT-4、Gemini、Copilotを含む全ての試験LLMがこの症候群を患っていることが判明した。 この制限の一般化を実証するため、英語、ヒンディー語、フランス語を含む多言語でエントロピーベースおよびベンチマーク統計分析試験を行った。 我々はNO症候群が現在のLSMの重大な欠陥であり、対処する必要があると結論づける。 本研究はNO症候群の結果,画像とテキストの反応の相違がみられた。 我々は,LLMのテキスト応答と生成された画像の間に,否定文脈を考慮した強化学習に基づくフィードバックループを導入することで,生成したテキストが,否定クエリの正しいコンテキスト理解と生成した視覚的出力の両方に基づいていることを保証することができると仮定する。

Foundational Large Language Models (LLMs) have changed the way we perceive technology. They have been shown to excel in tasks ranging from poem writing and coding to essay generation and puzzle solving. With the incorporation of image generation capability, they have become more comprehensive and versatile AI tools. At the same time, researchers are striving to identify the limitations of these tools to improve them further. Currently identified flaws include hallucination, biases, and bypassing restricted commands to generate harmful content. In the present work, we have identified a fundamental limitation related to the image generation ability of LLMs, and termed it The NO Syndrome. This negation blindness refers to LLMs inability to correctly comprehend NO related natural language prompts to generate the desired images. Interestingly, all tested LLMs including GPT-4, Gemini, and Copilot were found to be suffering from this syndrome. To demonstrate the generalization of this limitation, we carried out simulation experiments and conducted entropy-based and benchmark statistical analysis tests on various LLMs in multiple languages, including English, Hindi, and French. We conclude that the NO syndrome is a significant flaw in current LLMs that needs to be addressed. A related finding of this study showed a consistent discrepancy between image and textual responses as a result of this NO syndrome. We posit that the introduction of a negation context-aware reinforcement learning based feedback loop between the LLMs textual response and generated image could help ensure the generated text is based on both the LLMs correct contextual understanding of the negation query and the generated visual output.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 空間補間のためのハイブリッドフレームワーク:データ駆動とドメイン知識の融合

A Hybrid Framework for Spatial Interpolation: Merging Data-driven with Domain Knowledge ( http://arxiv.org/abs/2409.00125v2 )

ライセンス: Link先を確認
Cong Zhang, Shuyi Du, Hongqing Song, Yuhe Wang, (参考訳) 散乱観測データセットの補間による空間分布情報の推定は、空間依存を理解する上でのドメイン知識の重要な役割を見落としていることが多い。 さらに、これらのデータセットの特徴は通常、散乱した観測場所の空間座標に限られる。 本稿では,データ駆動型空間依存機能抽出とルール支援型空間依存関数マッピングを統合したハイブリッドフレームワークを提案する。 2つのアプリケーションシナリオにおいて,本フレームワークの優れた性能を実証し,再構成された分散フィールドにおけるより局所的な空間的特徴を捉える能力を強調した。 さらに、変換されたファジィ規則を適用して非線形推定能力を向上し、観測データセットに関連する不確かさを定量化する可能性を強調した。 本フレームワークでは,観測データとルール支援ドメイン知識を相乗的に組み合わせた空間情報推定手法を提案する。

Estimating spatially distributed information through the interpolation of scattered observation datasets often overlooks the critical role of domain knowledge in understanding spatial dependencies. Additionally, the features of these data sets are typically limited to the spatial coordinates of the scattered observation locations. In this paper, we propose a hybrid framework that integrates data-driven spatial dependency feature extraction with rule-assisted spatial dependency function mapping to augment domain knowledge. We demonstrate the superior performance of our framework in two comparative application scenarios, highlighting its ability to capture more localized spatial features in the reconstructed distribution fields. Furthermore, we underscore its potential to enhance nonlinear estimation capabilities through the application of transformed fuzzy rules and to quantify the inherent uncertainties associated with the observation data sets. Our framework introduces an innovative approach to spatial information estimation by synergistically combining observational data with rule-assisted domain knowledge.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# AIは人間の被験者を置き換えられるか? LLMを用いた心理学実験の大規模レプリケーション

Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs ( http://arxiv.org/abs/2409.00128v2 )

ライセンス: Link先を確認
Ziyan Cui, Ning Li, Huaikang Zhou, (参考訳) 人工知能(AI)は、科学研究、特に人間の行動を理解することが重要である社会科学に、ますます統合されつつある。 GPT-4のような大規模言語モデル(LLM)は、様々な心理学実験において人間のような反応を複製する可能性を示している。 しかし、LLMが人体を様々な実験的文脈で効果的に置き換えられる範囲は、まだ不明である。 ここでは, GPT-4を模擬参加者として用いた618の主効果と138の相互作用効果を持つトップ社会科学雑誌から154の心理実験を再現した大規模研究を行っている。 GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果を再現し、ヒトの反応の方向と重要性を密接に反映していることがわかった。 しかしながら、GPT-4の再現された信頼区間の19.4%しかオリジナルの効果の大きさを含んでおらず、ほとんどの再現された効果の大きさは元の研究の95%の信頼区間を超えた。 さらに、予想外の有意な結果の71.6%の速度で、元の研究ではnullな結果が報告され、潜在的過大評価や偽陽性が示唆された。 我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。 LLMは人間の研究を補完できるが、人間の被験者が与える微妙な洞察を完全に置き換えることはできない。

Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) like GPT-4 have shown promise in replicating human-like responses in various psychological experiments. However, the extent to which LLMs can effectively replace human subjects across diverse experimental contexts remains unclear. Here, we conduct a large-scale study replicating 154 psychological experiments from top social science journals with 618 main effects and 138 interaction effects using GPT-4 as a simulated participant. We find that GPT-4 successfully replicates 76.0 percent of main effects and 47.0 percent of interaction effects observed in the original studies, closely mirroring human responses in both direction and significance. However, only 19.44 percent of GPT-4's replicated confidence intervals contain the original effect sizes, with the majority of replicated effect sizes exceeding the 95 percent confidence interval of the original studies. Additionally, there is a 71.6 percent rate of unexpected significant results where the original studies reported null findings, suggesting potential overestimation or false positives. Our results demonstrate the potential of LLMs as powerful tools in psychological research but also emphasize the need for caution in interpreting AI-driven findings. While LLMs can complement human studies, they cannot yet fully replace the nuanced insights provided by human subjects.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-04
# 大規模言語モデルを用いた情報抽出に関する実証的研究

An Empirical Study on Information Extraction using Large Language Models ( http://arxiv.org/abs/2409.00369v2 )

ライセンス: Link先を確認
Ridong Han, Chaohao Yang, Tao Peng, Prayag Tiwari, Xiang Wan, Lu Liu, Benyou Wang, (参考訳) ヒューマンライクな大規模言語モデル(LLM)、特にOpenAIのGPTファミリーで最も強力で人気のあるモデルは、多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。 そのため、構造化されていない平文から情報を抽出する基本的NLPタスクである情報抽出(IE)にLLMを適用する様々な試みがなされている。 LLMの情報抽出能力の最新の進歩を示すために,評価基準,ロバスト性,エラータイプという4つの視点から,GPT-4(この記事執筆時のGPTの最新版)の情報抽出能力を評価する。 この結果から, GPT-4 と State-of-the-art (SOTA) IE メソッドの間には, 可視的な性能差があることが示唆された。 この問題を軽減するために、LLMの人間的な特徴を考慮し、他のLLMやNLPタスクに一般化可能な一連の単純なプロンプトベースの手法の効果を提案、分析する。 GPT-4の情報抽出能力の向上に向け,本手法の有効性と今後の課題について検討した。

Human-like large language models (LLMs), especially the most powerful and popular ones in OpenAI's GPT family, have proven to be very helpful for many natural language processing (NLP) related tasks. Therefore, various attempts have been made to apply LLMs to information extraction (IE), which is a fundamental NLP task that involves extracting information from unstructured plain text. To demonstrate the latest representative progress in LLMs' information extraction ability, we assess the information extraction ability of GPT-4 (the latest version of GPT at the time of writing this paper) from four perspectives: Performance, Evaluation Criteria, Robustness, and Error Types. Our results suggest a visible performance gap between GPT-4 and state-of-the-art (SOTA) IE methods. To alleviate this problem, considering the LLMs' human-like characteristics, we propose and analyze the effects of a series of simple prompt-based methods, which can be generalized to other LLMs and NLP tasks. Rich experiments show our methods' effectiveness and some of their remaining issues in improving GPT-4's information extraction ability.
翻訳日:2024-09-06 15:08:42 公開日:2024-09-04
# 難しい校正は必要か? : より実践的な会員推論攻撃に向けて

Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks ( http://arxiv.org/abs/2409.00426v2 )

ライセンス: Link先を確認
Yu He, Boheng Li, Yao Wang, Mengda Yang, Juan Wang, Hongxin Hu, Xingyu Zhao, (参考訳) 機械学習モデルのメンバシップ推論攻撃(MIA)に対する脆弱性は、近年かなりの注目を集めている。 これらの攻撃は、データサンプルがモデルのトレーニングセットに属しているかどうかを決定する。 近年の研究では、個別に訓練された参照モデルによるキャリブレーションの困難さを生かした参照ベースの攻撃に焦点を当てている。 実証的研究はその効果を示したが、成功または失敗する状況に対する我々の理解には顕著なギャップがある。 本稿では,困難キャリブレーションの役割について,より深く理解するための一歩を踏み出した。 本研究は, キャリブレーション法に固有の限界を明らかにし, 非部材の誤分類, 最適性能, 特に高損失試料について検討した。 さらに、これらの誤差は、潜在的分布の完全なサンプリングと、モデルパラメータに対するメンバーシップスコアの強い依存から生じるものであることも確認した。 これらの問題に光を当てることで、RAPIDを提案する: クエリ効率が高く計算効率のよいMIAで、直接 \textbf{R}e-lever\textbf{A} が元のメンバshi\textbf{P} スコアを m\textbf{I} にゲインし、そのエラーを \textbf{D}ifficulty calibration で緩和する。 我々の実験結果は、9つのデータセットと5つのモデルアーキテクチャにまたがるが、RAPIDは計算効率を保ちながら、過去の最先端攻撃(例えば、LiRAとCaaryのオフライン)より優れていたことを実証している。 我々の観察と分析は、高精度推論における難易度校正の現在のデファクトパラダイムに挑戦し、より現実的なシナリオにおいてMIAが引き起こす持続的リスクにより多くの注意を払っている。

The vulnerability of machine learning models to Membership Inference Attacks (MIAs) has garnered considerable attention in recent years. These attacks determine whether a data sample belongs to the model's training set or not. Recent research has focused on reference-based attacks, which leverage difficulty calibration with independently trained reference models. While empirical studies have demonstrated its effectiveness, there is a notable gap in our understanding of the circumstances under which it succeeds or fails. In this paper, we take a further step towards a deeper understanding of the role of difficulty calibration. Our observations reveal inherent limitations in calibration methods, leading to the misclassification of non-members and suboptimal performance, particularly on high-loss samples. We further identify that these errors stem from an imperfect sampling of the potential distribution and a strong dependence of membership scores on the model parameters. By shedding light on these issues, we propose RAPID: a query-efficient and computation-efficient MIA that directly \textbf{R}e-lever\textbf{A}ges the original membershi\textbf{P} scores to m\textbf{I}tigate the errors in \textbf{D}ifficulty calibration. Our experimental results, spanning 9 datasets and 5 model architectures, demonstrate that RAPID outperforms previous state-of-the-art attacks (e.g., LiRA and Canary offline) across different metrics while remaining computationally efficient. Our observations and analysis challenge the current de facto paradigm of difficulty calibration in high-precision inference, encouraging greater attention to the persistent risks posed by MIAs in more practical scenarios.
翻訳日:2024-09-06 14:49:38 公開日:2024-09-04
# GenAIを利用したスマートシティモビリティのためのマルチエージェントパラダイム:大規模言語モデル(LLM)と検索拡張生成(RAG)をインテリジェントトランスポーテーションシステムと統合するための機会と課題

GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems ( http://arxiv.org/abs/2409.00494v1 )

ライセンス: Link先を確認
Haowen Xu, Jinghui Yuan, Anye Zhou, Guanhao Xu, Wan Li, Xuegang, Ban, Xinyue Ye, (参考訳) ジェネレーティブAIの最近の進歩を活用して、スマートシティアプリケーションの機能と効率を高めるために、マルチエージェントシステムの開発が進んでいる。 本稿では,大規模言語モデル (LLM) と知的交通システム (ITS) におけるRAG(Retrieval-Augmented Generation) 技術の革新的可能性について考察し,都市移動における重要な課題に対処するための革新的な解決法を提案する。 まず、モビリティデータ、ITS、コネクテッド・ビークルズ(CV)アプリケーションにおける現在の最先端技術の概要を概観することから始める。 このレビューに基づいて、RAGの背景にある理論的根拠を考察し、これらのジェネレーティブAI(GenAI)技術をスマートモビリティ分野に統合する機会について検討する。 本稿では,都市通勤者,交通事業者,意思決定者に対して,知的かつ対話的にスマートモビリティサービスを提供するマルチエージェントシステムの開発を目的とした概念的枠組みを提案する。 私たちのアプローチは、自律的でインテリジェントなアプローチを育むためのものです。 (a)交通渋滞、事故、二酸化炭素排出量を複数スケールで削減するための科学ベースの助言を促進する。 (b)参加型モビリティマネジメントにおける公共教育とエンゲージメントの促進、及び (c)データ分析や解釈,知識表現,交通シミュレーションなど,特別な交通管理タスクや重要なITSプラットフォームの開発を自動化する。 LLMとRAGを統合することで、固定知識ベースと限定推論能力に依存する従来のルールベースのマルチエージェントシステムの限界を克服する。 この統合により、よりスケーラブルで直感的で自動化されたマルチエージェントパラダイムが実現され、ITSと都市モビリティの進歩が促進される。

Leveraging recent advances in generative AI, multi-agent systems are increasingly being developed to enhance the functionality and efficiency of smart city applications. This paper explores the transformative potential of large language models (LLMs) and emerging Retrieval-Augmented Generation (RAG) technologies in Intelligent Transportation Systems (ITS), paving the way for innovative solutions to address critical challenges in urban mobility. We begin by providing a comprehensive overview of the current state-of-the-art in mobility data, ITS, and Connected Vehicles (CV) applications. Building on this review, we discuss the rationale behind RAG and examine the opportunities for integrating these Generative AI (GenAI) technologies into the smart mobility sector. We propose a conceptual framework aimed at developing multi-agent systems capable of intelligently and conversationally delivering smart mobility services to urban commuters, transportation operators, and decision-makers. Our approach seeks to foster an autonomous and intelligent approach that (a) promotes science-based advisory to reduce traffic congestion, accidents, and carbon emissions at multiple scales, (b) facilitates public education and engagement in participatory mobility management, and (c) automates specialized transportation management tasks and the development of critical ITS platforms, such as data analytics and interpretation, knowledge representation, and traffic simulations. By integrating LLM and RAG, our approach seeks to overcome the limitations of traditional rule-based multi-agent systems, which rely on fixed knowledge bases and limited reasoning capabilities. This integration paves the way for a more scalable, intuitive, and automated multi-agent paradigm, driving advancements in ITS and urban mobility.
翻訳日:2024-09-06 14:39:09 公開日:2024-09-04
# GenAIを利用したスマートシティモビリティのためのマルチエージェントパラダイム:大規模言語モデル(LLM)と検索拡張生成(RAG)をインテリジェントトランスポーテーションシステムと統合するための機会と課題

GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems ( http://arxiv.org/abs/2409.00494v2 )

ライセンス: Link先を確認
Haowen Xu, Jinghui Yuan, Anye Zhou, Guanhao Xu, Wan Li, Xuegang Ban, Xinyue Ye, (参考訳) ジェネレーティブAIの最近の進歩を活用して、スマートシティアプリケーションの機能と効率を高めるために、マルチエージェントシステムの開発が進んでいる。 本稿では,大規模言語モデル (LLM) と知的交通システム (ITS) におけるRAG(Retrieval-Augmented Generation) 技術の革新的可能性について考察し,都市移動における重要な課題に対処するための革新的な解決法を提案する。 まず、モビリティデータ、ITS、コネクテッド・ビークルズ(CV)アプリケーションにおける現在の最先端技術の概要を概観することから始める。 このレビューに基づいて、RAGの背景にある理論的根拠を考察し、これらのジェネレーティブAI(GenAI)技術をスマートモビリティ分野に統合する機会について検討する。 本稿では,都市通勤者,交通事業者,意思決定者に対して,知的かつ対話的にスマートモビリティサービスを提供するマルチエージェントシステムの開発を目的とした概念的枠組みを提案する。 私たちのアプローチは、自律的でインテリジェントなアプローチを育むためのものです。 (a)交通渋滞、事故、二酸化炭素排出量を複数スケールで削減するための科学ベースの助言を促進する。 (b)参加型モビリティマネジメントにおける公共教育とエンゲージメントの促進、及び (c)データ分析や解釈,知識表現,交通シミュレーションなど,特別な交通管理タスクや重要なITSプラットフォームの開発を自動化する。 LLMとRAGを統合することで、固定知識ベースと限定推論能力に依存する従来のルールベースのマルチエージェントシステムの限界を克服する。 この統合により、よりスケーラブルで直感的で自動化されたマルチエージェントパラダイムが実現され、ITSと都市モビリティの進歩が促進される。

Leveraging recent advances in generative AI, multi-agent systems are increasingly being developed to enhance the functionality and efficiency of smart city applications. This paper explores the transformative potential of large language models (LLMs) and emerging Retrieval-Augmented Generation (RAG) technologies in Intelligent Transportation Systems (ITS), paving the way for innovative solutions to address critical challenges in urban mobility. We begin by providing a comprehensive overview of the current state-of-the-art in mobility data, ITS, and Connected Vehicles (CV) applications. Building on this review, we discuss the rationale behind RAG and examine the opportunities for integrating these Generative AI (GenAI) technologies into the smart mobility sector. We propose a conceptual framework aimed at developing multi-agent systems capable of intelligently and conversationally delivering smart mobility services to urban commuters, transportation operators, and decision-makers. Our approach seeks to foster an autonomous and intelligent approach that (a) promotes science-based advisory to reduce traffic congestion, accidents, and carbon emissions at multiple scales, (b) facilitates public education and engagement in participatory mobility management, and (c) automates specialized transportation management tasks and the development of critical ITS platforms, such as data analytics and interpretation, knowledge representation, and traffic simulations. By integrating LLM and RAG, our approach seeks to overcome the limitations of traditional rule-based multi-agent systems, which rely on fixed knowledge bases and limited reasoning capabilities. This integration paves the way for a more scalable, intuitive, and automated multi-agent paradigm, driving advancements in ITS and urban mobility.
翻訳日:2024-09-06 14:18:10 公開日:2024-09-04
# LongRecipe: 大規模言語モデルにおける効率的なLong Context Generalizationの準備

LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models ( http://arxiv.org/abs/2409.00509v2 )

ライセンス: Link先を確認
Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi, (参考訳) 大規模言語モデル(LLM)は、事前トレーニング中に有効なコンテキストウィンドウサイズが制限され、拡張シーケンスを一般化する能力が制限されるため、長いコンテキストタスクを扱う上で大きな課題に直面している。 一方,LLMのコンテキストウィンドウを事前学習で拡張することは資源集約性が高い。 この問題を解決するために,LongRecipeを導入する。LumRecipeは,LLMのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。 トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LLMの3種類の実験では、LongRecipeはターゲットのコンテキストウィンドウの30%しか必要とせず、長いシーケンスを使うことができることが示され、完全なシーケンストレーニングに比べて85%以上の計算トレーニングリソースを削減できる。 さらにLongRecipeは、一般的なタスクにおける元のLLMの機能も保持している。 最終的に、オープンソースのLLMの効果的なコンテキストウィンドウを8kから128kに拡張することができ、80Gメモリを持つ1つのGPUを使用した1日の専用トレーニングで、GPT-4に近いパフォーマンスを実現できます。 私たちのコードはhttps://github.com/zhiyuanhubj/LongRecipe.comで公開されています。

Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce LongRecipe, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory. Our code is released at https://github.com/zhiyuanhubj/LongRecipe.
翻訳日:2024-09-06 14:18:10 公開日:2024-09-04
# 質問への学び:LLMが不明瞭な指示に出会ったとき

Learning to Ask: When LLMs Meet Unclear Instruction ( http://arxiv.org/abs/2409.00557v1 )

ライセンス: Link先を確認
Wenxuan Wang, Juluan Shi, Chaozheng Wang, Cheryl Lee, Youliang Yuan, Jen-tse Huang, Michael R. Lyu, (参考訳) 関数を呼び出す機能を備えているため、現代の大規模言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。 しかし、これらのツールの効果的な実行は、LLMの高度な機能だけでなく、正確なユーザー指示にも大きく依存する。 不完全な命令下でのLLMのツール使用性能を評価するため,ユーザからの問い合わせを精査し,エラーパターンを分析し,Noisy ToolBench(NoisyToolBench)と呼ばれる挑戦的なツール使用ベンチマークを構築した。 次回の予測訓練の目的のため、LCMは、失った議論を任意に生成する傾向にあり、幻覚やリスクにつながる可能性がある。 この問題に対処するため,我々はAsk-when-Needed (AwN) という新しいフレームワークを提案する。 さらに,ユーザとLLMのインタラクションに関わる作業量を削減し,ツール利用におけるLCMの性能を評価するため,ToolEvaluatorという自動評価ツールを設計した。 我々の実験は、AwNがNoisyToolBenchで既存のツール学習フレームワークを著しく上回っていることを示している。 今後の研究をサポートするため、関連するコードとデータセットをすべてリリースします。

Equipped with the capability to call functions, modern large language models (LLMs) can leverage external tools for addressing a range of tasks unattainable through language skills alone. However, the effective execution of these tools relies heavily not just on the advanced capabilities of LLMs but also on precise user instructions, which often cannot be ensured in the real world. To evaluate the performance of LLMs tool-use under imperfect instructions, we meticulously examine the real-world instructions queried from users, analyze the error patterns, and build a challenging tool-use benchmark called Noisy ToolBench (NoisyToolBench). We find that due to the next-token prediction training objective, LLMs tend to arbitrarily generate the missed argument, which may lead to hallucinations and risks. To address this issue, we propose a novel framework, Ask-when-Needed (AwN), which prompts LLMs to ask questions to users whenever they encounter obstacles due to unclear instructions. Moreover, to reduce the manual labor involved in user-LLM interaction and assess LLMs performance in tool utilization from both accuracy and efficiency perspectives, we design an automated evaluation tool named ToolEvaluator. Our experiments demonstrate that the AwN significantly outperforms existing frameworks for tool learning in the NoisyToolBench. We will release all related code and datasets to support future research.
翻訳日:2024-09-06 13:55:44 公開日:2024-09-04
# 質問への学び:LLMが不明瞭な指示に出会ったとき

Learning to Ask: When LLMs Meet Unclear Instruction ( http://arxiv.org/abs/2409.00557v2 )

ライセンス: Link先を確認
Wenxuan Wang, Juluan Shi, Chaozheng Wang, Cheryl Lee, Youliang Yuan, Jen-tse Huang, Michael R. Lyu, (参考訳) 関数を呼び出す機能を備えているため、現代の大規模言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。 しかし、これらのツールの効果的な実行は、LLMの高度な機能だけでなく、正確なユーザー指示にも大きく依存する。 不完全な命令下でのLLMのツール使用性能を評価するため,ユーザからの問い合わせを精査し,エラーパターンを分析し,Noisy ToolBench(NoisyToolBench)と呼ばれる挑戦的なツール使用ベンチマークを構築した。 次回の予測訓練の目的のため、LCMは、失った議論を任意に生成する傾向にあり、幻覚やリスクにつながる可能性がある。 この問題に対処するため,我々はAsk-when-Needed (AwN) という新しいフレームワークを提案する。 さらに,ユーザとLLMのインタラクションに関わる作業量を削減し,ツール利用におけるLCMの性能を評価するため,ToolEvaluatorという自動評価ツールを設計した。 我々の実験は、AwNがNoisyToolBenchで既存のツール学習フレームワークを著しく上回っていることを示している。 今後の研究をサポートするため、関連するコードとデータセットをすべてリリースします。

Equipped with the capability to call functions, modern large language models (LLMs) can leverage external tools for addressing a range of tasks unattainable through language skills alone. However, the effective execution of these tools relies heavily not just on the advanced capabilities of LLMs but also on precise user instructions, which often cannot be ensured in the real world. To evaluate the performance of LLMs tool-use under imperfect instructions, we meticulously examine the real-world instructions queried from users, analyze the error patterns, and build a challenging tool-use benchmark called Noisy ToolBench (NoisyToolBench). We find that due to the next-token prediction training objective, LLMs tend to arbitrarily generate the missed argument, which may lead to hallucinations and risks. To address this issue, we propose a novel framework, Ask-when-Needed (AwN), which prompts LLMs to ask questions to users whenever they encounter obstacles due to unclear instructions. Moreover, to reduce the manual labor involved in user-LLM interaction and assess LLMs performance in tool utilization from both accuracy and efficiency perspectives, we design an automated evaluation tool named ToolEvaluator. Our experiments demonstrate that the AwN significantly outperforms existing frameworks for tool learning in the NoisyToolBench. We will release all related code and datasets to support future research.
翻訳日:2024-09-06 13:55:44 公開日:2024-09-04
# フィードバックからのマルチエージェント強化学習:データカバレッジとアルゴリズム技術

Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques ( http://arxiv.org/abs/2409.00717v2 )

ライセンス: Link先を確認
Natalia Zhang, Xinqi Wang, Qiwen Cui, Runlong Zhou, Sham M. Kakade, Simon S. Du, (参考訳) 我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)の研究を開始し,理論的基礎と実証的検証の両方を探求する。 我々は,このタスクを一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。 我々の理論は、Nash Equilibriumの有効MARLHFにおける高次複雑性境界を確立し、単一政策のカバレッジが不十分であることを示し、一方的なデータセットのカバレッジの重要性を強調している。 これらの理論的な洞察は総合的な実験によって検証される。 実用性能を高めるために,さらに2つのアルゴリズム手法を導入する。 1) 平均二乗誤差(MSE)正則化を時間軸に沿って提案し, より均一な報酬分布を実現し, 報奨学習結果を改善する。 2) 模擬学習を利用して, 基準方針を近似し, 訓練の安定性と有効性を確保する。 本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。

We initiate the study of Multi-Agent Reinforcement Learning from Human Feedback (MARLHF), exploring both theoretical foundations and empirical validations. We define the task as identifying Nash equilibrium from a preference-only offline dataset in general-sum games, a problem marked by the challenge of sparse feedback signals. Our theory establishes the upper complexity bounds for Nash Equilibrium in effective MARLHF, demonstrating that single-policy coverage is inadequate and highlighting the importance of unilateral dataset coverage. These theoretical insights are verified through comprehensive experiments. To enhance the practical performance, we further introduce two algorithmic techniques. (1) We propose a Mean Squared Error (MSE) regularization along the time axis to achieve a more uniform reward distribution and improve reward learning outcomes. (2) We utilize imitation learning to approximate the reference policy, ensuring stability and effectiveness in training. Our findings underscore the multifaceted approach required for MARLHF, paving the way for effective preference-based multi-agent systems.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-04
# Booster: 有害な摂動を減らし、大きな言語モデルに有害な微調整を施す

Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation ( http://arxiv.org/abs/2409.01586v2 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) Harmful fine-tuning issue \citep{qi2023fine} は、大規模言語モデルの fine-tuning-as-a-service に対して深刻な安全性上の懸念をもたらす。 既存のディフェンス \citep{huang2024vaccine,rosati2024representation} は問題を緩和するために提案されているが、彼らのパフォーマンスはまだ満足には程遠いものであり、問題の根本原因が完全に回復されていない。 本論文では, モデル重量に対する<textit{harmful perturbation>が, 有害な微調整のアライメントの根本原因であることを示す。 有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。 技術的には、元々のアライメント損失とともに、アライメントステージの最適化に損失正規化器を付加する。 正規化器は、シミュレーションされた有害な摂動の前後でモデルが有害な損失を減らすことを保証し、その後の微調整リスクを軽減する。 実験結果から, 下流タスクの性能を維持しつつ, 微調整モデルの有害スコアを効果的に低減できることが示唆された。 私たちのコードは \url{https://github.com/git-disl/Booster} で利用可能です。

Harmful fine-tuning issue \citep{qi2023fine} poses serious safety concerns for Large language models' fine-tuning-as-a-service. While existing defenses \citep{huang2024vaccine,rosati2024representation} have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. For the first time in the literature, we in this paper show that \textit{harmful perturbation} over the model weights should be the root cause of alignment-broken of harmful fine-tuning. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction before/after simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at \url{https://github.com/git-disl/Booster}.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-04
# LLMを用いた非構造解析システムの設計

The Design of an LLM-powered Unstructured Analytics System ( http://arxiv.org/abs/2409.00847v2 )

ライセンス: Link先を確認
Eric Anderson, Jonathan Fritz, Austin Lee, Bohou Li, Mark Lindblad, Henry Lindeman, Alex Meyer, Parth Parmar, Tanvi Ranade, Mehul A. Shah, Benjamin Sowell, Dan Tecuci, Vinayak Thapliyal, Matt Welsh, (参考訳) LLMは、構造化されていないデータを処理し、複雑なセマンティック分析を大規模に検索・実行する可能性を実証している。 本稿では,非構造化分析システムであるArynの設計と,その設計を動機づけるテネットとユースケースについて述べる。 Arynを使えば、ユーザは自然言語でクエリを指定でき、システムはセマンティックプランを自動的に決定し、LLMを使って構造化されていないドキュメントの集合から回答を計算します。 Arynの中核であるSycamoreは、Rayを使って構築された宣言型ドキュメント処理エンジンで、DocSetsと呼ばれる信頼できる分散抽象化を提供する。 Sycamoreでは、複雑なドキュメントを大規模に分析、拡張、変換することができる。 また、自然言語クエリをSycamoreスクリプトに変換するクエリプランナーのLunaと、生のPDFとドキュメントイメージを取り込み、それらを下流処理のためにDocSetsに変換するAryn Partitionerが含まれている。 Arynを用いて、国家運輸安全委員会(NTSB)の事故報告を分析するための実世界のユースケースを実演し、Arynを野生に展開する際の大きな課題について論じる。

LLMs demonstrate an uncanny ability to process unstructured data, and as such, have the potential to go beyond search and run complex, semantic analyses at scale. We describe the design of an unstructured analytics system, Aryn, and the tenets and use cases that motivate its design. With Aryn, users can specify queries in natural language and the system automatically determines a semantic plan and executes it to compute an answer from a large collection of unstructured documents using LLMs. At the core of Aryn is Sycamore, a declarative document processing engine, built using Ray, that provides a reliable distributed abstraction called DocSets. Sycamore allows users to analyze, enrich, and transform complex documents at scale. Aryn also comprises Luna, a query planner that translates natural language queries to Sycamore scripts, and the Aryn Partitioner, which takes raw PDFs and document images, and converts them to DocSets for downstream processing. Using Aryn, we demonstrate a real world use case for analyzing accident reports from the National Transportation Safety Board (NTSB), and discuss some of the major challenges we encountered in deploying Aryn in the wild.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-04
# MarsCode Agent: AIネイティブな自動バグ修正

MarsCode Agent: AI-native Automated Bug Fixing ( http://arxiv.org/abs/2409.00899v2 )

ライセンス: Link先を確認
Yizhou Liu, Pengfei Gao, Xinchen Wang, Jie Liu, Yexuan Shi, Zhao Zhang, Chao Peng, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、コード補完、テスト生成、バグ修正など、様々なソフトウェア開発タスクを自動化する大きな可能性を示している。 しかし、実際のソフトウェアシステムの複雑さと多様性のため、自動バグ修正のためのLLMの応用は依然として困難である。 本稿では,LLMを利用してソフトウェアコードのバグを自動的に識別し,修復する新しいフレームワークであるMarsCode Agentを紹介する。 MarsCode Agentは、LLMのパワーと高度なコード解析技術を組み合わせて、障害を正確にローカライズし、パッチを生成する。 提案手法は, 計画, バグ再現, フォールトローカライゼーション, パッチの候補生成, バリデーションといった, 高品質なバグ修正を確実にするための体系的なプロセスに従う。 実世界のソフトウェアプロジェクトの総合的なベンチマークであるSWE-bench上でMarsCode Agentを評価した。

Recent advances in large language models (LLMs) have shown significant potential to automate various software development tasks, including code completion, test generation, and bug fixing. However, the application of LLMs for automated bug fixing remains challenging due to the complexity and diversity of real-world software systems. In this paper, we introduce MarsCode Agent, a novel framework that leverages LLMs to automatically identify and repair bugs in software code. MarsCode Agent combines the power of LLMs with advanced code analysis techniques to accurately localize faults and generate patches. Our approach follows a systematic process of planning, bug reproduction, fault localization, candidate patch generation, and validation to ensure high-quality bug fixes. We evaluated MarsCode Agent on SWE-bench, a comprehensive benchmark of real-world software projects, and our results show that MarsCode Agent achieves a high success rate in bug fixing compared to most of the existing automated approaches.
翻訳日:2024-09-06 08:30:49 公開日:2024-09-04
# EnsLoss: 分類におけるオーバーフィッティング防止のための確率的校正損失アンサンブル

EnsLoss: Stochastic Calibrated Loss Ensembles for Preventing Overfitting in Classification ( http://arxiv.org/abs/2409.00908v2 )

ライセンス: Link先を確認
Ben Dai, (参考訳) 計算可能なサロゲート損失を持つ経験的リスク最小化(ERM)は、分類において広く受け入れられているアプローチである。 特に、損失関数の凸度とキャリブレーション(CC)特性は、ERMの整合性を確保して精度を最大化し、サロゲート損失に対する幅広い選択肢を提供する。 本稿では,ERMフレームワーク内の損失関数を組み合わせるために,アンサンブル学習の概念を拡張した新しいアンサンブル手法,すなわちEnsLossを提案する。 本手法の重要な特徴は, 複合損失の「正当性」, すなわち, CC特性の確保に関する考察である。 具体的には、まず損失のCC条件を損失導関数に変換し、明示的な損失関数の必要性を回避し、キャリブレーションされた損失導関数を直接生成する。 従って、DropoutにインスパイアされたEnsLossは、2倍の確率勾配勾配(ランダムバッチサンプルとランダムキャリブレーションされた損失導関数)を持つ1つのトレーニングプロセスを通じて損失アンサンブルを可能にする。 理論的には、我々のアプローチの統計的一貫性を確立し、その利点に関する洞察を提供する。 固定損失法と比較して,EnsLossの数値的有効性は,様々なディープラーニングアーキテクチャを持つ14のOpenML表グラフデータセットと46のイメージデータセットの実験により実証された。 PythonリポジトリとソースコードはGitHubでhttps://github.com/statmlben/ensloss.comから入手できる。

Empirical risk minimization (ERM) with a computationally feasible surrogate loss is a widely accepted approach for classification. Notably, the convexity and calibration (CC) properties of a loss function ensure consistency of ERM in maximizing accuracy, thereby offering a wide range of options for surrogate losses. In this article, we propose a novel ensemble method, namely EnsLoss, which extends the ensemble learning concept to combine loss functions within the ERM framework. A key feature of our method is the consideration on preserving the "legitimacy" of the combined losses, i.e., ensuring the CC properties. Specifically, we first transform the CC conditions of losses into loss-derivatives, thereby bypassing the need for explicit loss functions and directly generating calibrated loss-derivatives. Therefore, inspired by Dropout, EnsLoss enables loss ensembles through one training process with doubly stochastic gradient descent (i.e., random batch samples and random calibrated loss-derivatives). We theoretically establish the statistical consistency of our approach and provide insights into its benefits. The numerical effectiveness of EnsLoss compared to fixed loss methods is demonstrated through experiments on a broad range of 14 OpenML tabular datasets and 46 image datasets with various deep learning architectures. Python repository and source code are available on GitHub at https://github.com/statmlben/ensloss.
翻訳日:2024-09-06 08:30:49 公開日:2024-09-04
# Learn2Reg 2024のための大規模脳MRI画像登録ソリューション

Large Scale Unsupervised Brain MRI Image Registration Solution for Learn2Reg 2024 ( http://arxiv.org/abs/2409.00917v2 )

ライセンス: Link先を確認
Yuxi Zhang, Xiang Chen, Jiazheng Wang, Min Liu, Yaonan Wang, Dongdong Liu, Renjiu Hu, Hang Zhang, (参考訳) 本稿では,学習2reg 2024 Challengeで提案したタスク2の手法と実験結果について要約する。 この課題は、異なる患者の脳MRI画像における解剖学的構造を教師なしで登録することに焦点を当てる。 1) セグメンテーションラベルがなく、(2) 大量のデータがある。 これらの課題に対処するため、効率的なバックボーンネットワークを構築し、登録精度をさらに高めるためのいくつかのスキームを探索した。 NCC損失関数と滑らか度正規化損失関数の導出により, 滑らかかつ合理的な変形場を得た。 リーダーボードによると、我々の手法は77.34%のDice係数を達成しており、トランスモルフよりも1.4%高い。 全体的には、タスク2のリーダーボードで2位を獲得しました。

In this paper, we summarize the methods and experimental results we proposed for Task 2 in the learn2reg 2024 Challenge. This task focuses on unsupervised registration of anatomical structures in brain MRI images between different patients. The difficulty lies in: (1) without segmentation labels, and (2) a large amount of data. To address these challenges, we built an efficient backbone network and explored several schemes to further enhance registration accuracy. Under the guidance of the NCC loss function and smoothness regularization loss function, we obtained a smooth and reasonable deformation field. According to the leaderboard, our method achieved a Dice coefficient of 77.34%, which is 1.4% higher than the TransMorph. Overall, we won second place on the leaderboard for Task 2.
翻訳日:2024-09-06 08:21:03 公開日:2024-09-04
# 大規模言語モデルのための分割型フレームワークにおけるプライベートファインチューニングの脆弱性を明らかにする:双方向攻撃

Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack ( http://arxiv.org/abs/2409.00960v2 )

ライセンス: Link先を確認
Guanzhong Chen, Zhenghan Qin, Mingxin Yang, Yajie Zhou, Tao Fan, Tianyu Du, Zenglin Xu, (参考訳) 事前学習型大規模言語モデル(LLM)の最近の進歩は、様々な領域に大きな影響を与えている。 特定のタスクにこれらのモデルを適用するには、プライベートなドメイン固有のデータを使った細調整(FT)が必要となることが多い。 しかし、プライバシの懸念は、このデータを開示し続け、LLMをデプロイする計算上の要求は、リソース制限されたデータホルダーに課題をもたらす。 これは、LLMを分散トレーニングとデプロイメントのために小さなセグメントに分割し、生のデータの代わりに中間的なアクティベーションのみを送信する、モデル・アズ・ア・サービス(MaaS)パラダイムであるスプリット・ラーニング(SL)への関心を喚起している。 SLは、LLMのプライベートな微調整において、ユーザのデータプライバシ、モデルオーナシップ、リソースの課題のバランスを図ることを目的として、業界と学術の両方に大きな関心を集めている。 プライバシの主張にもかかわらず,本論文はSLとLDM-FTの組み合わせによって生じる重大な脆弱性を明らかにする。 これらの脆弱性を突破したBidirectional Semi-white-box Reconstruction (BiSR) は,SLの前方および後方伝播プロセスの両方をターゲットにした,最初のデータ再構成攻撃(DRA)である。 BiSRは事前訓練した重みを事前知識として利用し、学習に基づく攻撃と双方向最適化に基づくアプローチを組み合わせて、高効率なデータ再構成を行う。 さらに、雑音適応型エキスパート混合モデル(NaMoE)を導入し、摂動下での復元性能を向上させる。 各種LLMおよび各種セットアップの系統実験を行い,BiSRの最先端性能を実証した。 さらに,3つの防衛機構を網羅的に検討し,これらの防衛機構が存在する場合でも,私的データを再構築する方法について検討した。

Recent advancements in pre-trained large language models (LLMs) have significantly influenced various domains. Adapting these models for specific tasks often involves fine-tuning (FT) with private, domain-specific data. However, privacy concerns keep this data undisclosed, and the computational demands for deploying LLMs pose challenges for resource-limited data holders. This has sparked interest in split learning (SL), a Model-as-a-Service (MaaS) paradigm that divides LLMs into smaller segments for distributed training and deployment, transmitting only intermediate activations instead of raw data. SL has garnered substantial interest in both industry and academia as it aims to balance user data privacy, model ownership, and resource challenges in the private fine-tuning of LLMs. Despite its privacy claims, this paper reveals significant vulnerabilities arising from the combination of SL and LLM-FT: the Not-too-far property of fine-tuning and the auto-regressive nature of LLMs. Exploiting these vulnerabilities, we propose Bidirectional Semi-white-box Reconstruction (BiSR), the first data reconstruction attack (DRA) designed to target both the forward and backward propagation processes of SL. BiSR utilizes pre-trained weights as prior knowledge, combining a learning-based attack with a bidirectional optimization-based approach for highly effective data reconstruction. Additionally, it incorporates a Noise-adaptive Mixture of Experts (NaMoE) model to enhance reconstruction performance under perturbation. We conducted systematic experiments on various mainstream LLMs and different setups, empirically demonstrating BiSR's state-of-the-art performance. Furthermore, we thoroughly examined three representative defense mechanisms, showcasing our method's capability to reconstruct private data even in the presence of these defenses.
翻訳日:2024-09-06 08:08:59 公開日:2024-09-04
# DNN-GDITD:不均衡語彙データのためのディープニューラルネットワークに基づくガウス記述子による分布外検出

DNN-GDITD: Out-of-distribution detection via Deep Neural Network based Gaussian Descriptor for Imbalanced Tabular Data ( http://arxiv.org/abs/2409.00980v2 )

ライセンス: Link先を確認
Priyanka Chudasama, Anil Surisetty, Aakarsh Malhotra, Alok Singh, (参考訳) 分類タスクは、クラス不均衡とデータ分散の進化による課題を示す。 これらの問題に対処するには、トレーニング中に遭遇しないOOD(out-of-distribution)サンプルを効果的に検出しながら、不均衡を処理する堅牢な方法が必要である。 本研究では,DNN-GDITD (Deep Neural Network-based Gaussian Descriptor for Im Balanced Tabular Data) という表層データセットを対象とした新しいOOD検出アルゴリズムを提案する。 DNN-GDITDアルゴリズムは任意のDNNの上に配置することができ、球面決定境界を用いた不均衡データのより良い分類とOOD検出を容易にする。 Push、Scoreベース、フォーカス損失の組み合わせを使用して、DNN-GDITDは信頼度スコアをデータポイントのテストに割り当て、既知のクラスまたはOODサンプルとして分類する。 表形式のデータセットに対する大規模な実験は、3つのOODアルゴリズムと比較してDNN-GDITDの有効性を示す。 評価には、合成金融紛争データセットや、ガスセンサ、ドライブ診断、MNISTといった一般に利用可能な表形式のデータセットなど、さまざまな表形式のデータセット上での不均衡とバランスの取れたシナリオが含まれており、DNN-GDITDの汎用性を示している。

Classification tasks present challenges due to class imbalances and evolving data distributions. Addressing these issues requires a robust method to handle imbalances while effectively detecting out-of-distribution (OOD) samples not encountered during training. This study introduces a novel OOD detection algorithm designed for tabular datasets, titled Deep Neural Network-based Gaussian Descriptor for Imbalanced Tabular Data (DNN-GDITD). The DNN-GDITD algorithm can be placed on top of any DNN to facilitate better classification of imbalanced data and OOD detection using spherical decision boundaries. Using a combination of Push, Score-based, and focal losses, DNN-GDITD assigns confidence scores to test data points, categorizing them as known classes or as an OOD sample. Extensive experimentation on tabular datasets demonstrates the effectiveness of DNN-GDITD compared to three OOD algorithms. Evaluation encompasses imbalanced and balanced scenarios on diverse tabular datasets, including a synthetic financial dispute dataset and publicly available tabular datasets like Gas Sensor, Drive Diagnosis, and MNIST, showcasing DNN-GDITD's versatility.
翻訳日:2024-09-06 08:08:59 公開日:2024-09-04
# CONDA:Co-Salient Object Detectionのためのディープアソシエーション学習

CONDA: Condensed Deep Association Learning for Co-Salient Object Detection ( http://arxiv.org/abs/2409.01021v2 )

ライセンス: Link先を確認
Long Li, Nian Liu, Dingwen Zhang, Zhongyu Li, Salman Khan, Rao Anwer, Hisham Cholakkal, Junwei Han, Fahad Shahbaz Khan, (参考訳) 画像間アソシエーションモデリングは、共塩性物体検出に不可欠である。 良好な性能にもかかわらず、以前の手法では十分な画像間関連モデリングに制限がある。 画像特徴の最適化は、画像間関係をヒューリスティックに計算し、画像特徴の最適化に焦点が当てられている。 複雑なシナリオでは信頼できない生のアソシエーションに直接依存しており、画像特徴最適化アプローチは画像間アソシエーションモデリングでは明確ではない。 これらの制約を緩和するため,本論文では,ディープ・ネットワークを生のアソシエーションに展開し,それらをディープ・アソシエーションに明示的に変換するディープ・アソシエーション・ラーニング・ストラテジーを提案する。 具体的には、まずハイパーアソシエーションを作成し、高密度なピクセル対の生のアソシエーションを収集し、その上にディープアグリゲーションネットワークを配置する。 我々は,この目的のために,ハイパーアソシエーション計算をさらに強化したプログレッシブ・アソシエーション・ジェネレーション・モジュールを設計する。 さらに,計算負荷の低減とノイズ除去のためのハイパーアソシエーションを凝縮させるために,意味的対応推定というテキストタスクを導入した対応型アソシエーション・コンデンサモジュールを提案する。 また、高品質な対応推定のためのオブジェクト認識サイクル整合性損失を設計する。 3つのベンチマークデータセットによる実験結果から,提案手法の各種トレーニング設定による顕著な効果が示された。

Inter-image association modeling is crucial for co-salient object detection. Despite satisfactory performance, previous methods still have limitations on sufficient inter-image association modeling. Because most of them focus on image feature optimization under the guidance of heuristically calculated raw inter-image associations. They directly rely on raw associations which are not reliable in complex scenarios, and their image feature optimization approach is not explicit for inter-image association modeling. To alleviate these limitations, this paper proposes a deep association learning strategy that deploys deep networks on raw associations to explicitly transform them into deep association features. Specifically, we first create hyperassociations to collect dense pixel-pair-wise raw associations and then deploys deep aggregation networks on them. We design a progressive association generation module for this purpose with additional enhancement of the hyperassociation calculation. More importantly, we propose a correspondence-induced association condensation module that introduces a pretext task, i.e. semantic correspondence estimation, to condense the hyperassociations for computational burden reduction and noise elimination. We also design an object-aware cycle consistency loss for high-quality correspondence estimations. Experimental results in three benchmark datasets demonstrate the remarkable effectiveness of our proposed method with various training settings.
翻訳日:2024-09-06 07:49:16 公開日:2024-09-04
# 拡散駆動型データリプレイ:フェデレーションクラス連続学習におけるコンバットフォーミングの新しいアプローチ

Diffusion-Driven Data Replay: A Novel Approach to Combat Forgetting in Federated Class Continual Learning ( http://arxiv.org/abs/2409.01128v2 )

ライセンス: Link先を確認
Jinglin Liang, Jin Zhong, Hanlin Gu, Zhongqi Lu, Xingxing Tang, Gang Dai, Shuangping Huang, Lixin Fan, Qiang Yang, (参考訳) Federated Class Continual Learning (FCCL)は、分散クライアント学習の課題と、新しいクラスへのシームレスな適応の必要性を、古いクラスを忘れずに統合する。 FCCLの鍵となる課題は、連続学習(CL)においてある程度検討されてきた、破滅的な忘れ事である。 しかし、プライバシー保護要件のため、経験的再生のようないくつかの従来の手法はFCCLに直接適用されない。 既存のFCCL法は、GANの連合的な訓練やデータフリーな知識蒸留を通じて、過去のデータを生成することによって、忘れを軽減している。 しかしながら、これらのアプローチは、しばしばジェネレータの不安定なトレーニングや低品質な生成データに悩まされ、モデルのガイダンスが制限される。 そこで本研究では,拡散モデルに基づく新しいデータ再生手法を提案する。 拡散モデルをトレーニングする代わりに、各クラスを逆エンジニアリングするために事前訓練された条件拡散モデルを使用し、モデルの入力空間内の各クラスの対応する入力条件を探索し、効率的な生成を確保しながら計算資源と時間消費を大幅に削減する。 さらに、コントラスト学習により、生成データおよび実データに対する分類器の領域一般化能力を向上し、実データに対する生成データの表現能力を間接的に改善する。 総合実験により,本手法が既存のベースラインを著しく上回ることを示した。 コードはhttps://github.com/jinglin-liang/DDDRで公開されている。

Federated Class Continual Learning (FCCL) merges the challenges of distributed client learning with the need for seamless adaptation to new classes without forgetting old ones. The key challenge in FCCL is catastrophic forgetting, an issue that has been explored to some extent in Continual Learning (CL). However, due to privacy preservation requirements, some conventional methods, such as experience replay, are not directly applicable to FCCL. Existing FCCL methods mitigate forgetting by generating historical data through federated training of GANs or data-free knowledge distillation. However, these approaches often suffer from unstable training of generators or low-quality generated data, limiting their guidance for the model. To address this challenge, we propose a novel method of data replay based on diffusion models. Instead of training a diffusion model, we employ a pre-trained conditional diffusion model to reverse-engineer each class, searching the corresponding input conditions for each class within the model's input space, significantly reducing computational resources and time consumption while ensuring effective generation. Furthermore, we enhance the classifier's domain generalization ability on generated and real data through contrastive learning, indirectly improving the representational capability of generated data for real data. Comprehensive experiments demonstrate that our method significantly outperforms existing baselines. Code is available at https://github.com/jinglin-liang/DDDR.
翻訳日:2024-09-06 07:26:52 公開日:2024-09-04
# セマンティックAIを用いたスマートEコマース勧告

Smart E-commerce Recommendations with Semantic AI ( http://arxiv.org/abs/2409.01137v2 )

ライセンス: Link先を確認
M. Badouch, M. Boutaounte, (参考訳) 電子商取引では、ページレコメンデーションのためのウェブマイニングが広く使われているが、しばしばユーザーのニーズを満たすことができない。 そこで本研究では,BPニューラルネットワークとセマンティックWebマイニングを組み合わせた新しいソリューションを提案する。 ユーザの検索ログを処理して,コンテンツ優先,時間浪費,ユーザフィードバック,レコメンデーションセマンティクス,入力偏差の5つの重要な特徴を抽出する。 これらの機能はBPニューラルネットワークに入力され、Webページの分類と優先順位付けが行われる。 優先順位付けされたページはユーザーに推奨される。 本研究の結果は,本書の販売ページを用いて,ユーザが必要とするページを迅速かつ正確に識別できることを実証した。 当社のアプローチは、レコメンデーションがより関連性が高く、個人の好みに合わせて調整され、オンラインショッピング体験が向上することを保証する。 高度なセマンティック分析とニューラルネットワーク技術を利用することで、ユーザの期待と実際のレコメンデーションのギャップを埋める。 このイノベーティブな手法は、精度の向上だけでなく、レコメンデーションプロセスのスピードアップも実現し、ユーザの満足度とエンゲージメントを高めることを目的とした、Eコマースプラットフォームにとって貴重なツールとなる。 さらに、大規模なデータセットを処理し、リアルタイムレコメンデーションを提供するシステムでは、現代的なeコマースの課題に対して、スケーラブルで効率的なソリューションになります。

In e-commerce, web mining for page recommendations is widely used but often fails to meet user needs. To address this, we propose a novel solution combining semantic web mining with BP neural networks. We process user search logs to extract five key features: content priority, time spent, user feedback, recommendation semantics, and input deviation. These features are then fed into a BP neural network to classify and prioritize web pages. The prioritized pages are recommended to users. Using book sales pages for testing, our results demonstrate that this solution can quickly and accurately identify the pages users need. Our approach ensures that recommendations are more relevant and tailored to individual preferences, enhancing the online shopping experience. By leveraging advanced semantic analysis and neural network techniques, we bridge the gap between user expectations and actual recommendations. This innovative method not only improves accuracy but also speeds up the recommendation process, making it a valuable tool for e-commerce platforms aiming to boost user satisfaction and engagement. Additionally, our system ability to handle large datasets and provide real-time recommendations makes it a scalable and efficient solution for modern e-commerce challenges.
翻訳日:2024-09-06 07:13:03 公開日:2024-09-04
# 高速かつ改良されたLLM推論のための文脈認識文符号化によるプロンプト圧縮

Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference ( http://arxiv.org/abs/2409.01227v2 )

ライセンス: Link先を確認
Barys Liskavets, Maxim Ushakov, Shuvendu Roy, Mark Klibanov, Ali Etemad, Shane Luke, (参考訳) 大規模言語モデル(LLM)は、文脈長の圧縮に焦点をあて、計算コストを削減し、LLMが与えられた質問に答えるために有用な情報の保持を確保することに焦点を当てた、新たな研究の流れを引き起こした。 トークンベースの除去手法は、この方向への最も顕著なアプローチの1つであるが、中間トークン除去によって生じるコンテキストの意味を、特に高い圧縮比で失うリスクがあり、計算効率の課題にも直面している。 本研究は,文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。 このエンコーダを訓練するために、質問、肯定、否定のペアからなる新しいデータセットを生成し、正は質問に関連のある文であり、負は無関係な文脈文である。 コントラスト的な設定でエンコーダを訓練し、文脈対応の文表現を学習する。 提案手法は,ベンチマークデータセットの高速圧縮における先行研究よりもかなり優れており,最高のトークンレベル圧縮法に比べて推論速度が最大10.93倍高速である。 また,ほとんどのベンチマークでは,関連情報の短い文脈での圧縮において,提案手法の有効性を示した。 最後に、素早い再現性とさらなる開発のためのコードとデータセットをリリースします。

Large language models (LLMs) have triggered a new stream of research focusing on compressing the context length to reduce the computational cost while ensuring the retention of helpful information for LLMs to answer the given question. Token-based removal methods are one of the most prominent approaches in this direction, but risk losing the semantics of the context caused by intermediate token removal, especially under high compression ratios, while also facing challenges in computational efficiency. In this work, we propose context-aware prompt compression (CPC), a sentence-level prompt compression technique where its key innovation is a novel context-aware sentence encoder that provides a relevance score for each sentence for a given question. To train this encoder, we generate a new dataset consisting of questions, positives, and negative pairs where positives are sentences relevant to the question, while negatives are irrelevant context sentences. We train the encoder in a contrastive setup to learn context-aware sentence representations. Our method considerably outperforms prior works on prompt compression on benchmark datasets and is up to 10.93x faster at inference compared to the best token-level compression method. We also find better improvement for shorter length constraints in most benchmarks, showing the effectiveness of our proposed solution in the compression of relevant information in a shorter context. Finally, we release the code and the dataset for quick reproducibility and further development: https://github.com/Workday/cpc.
翻訳日:2024-09-06 06:47:21 公開日:2024-09-04
# CoLaNET - 分類のためのカラム階層アーキテクチャを備えたスパイクニューラルネットワーク

CoLaNET -- A Spiking Neural Network with Columnar Layered Architecture for Classification ( http://arxiv.org/abs/2409.01230v2 )

ライセンス: Link先を確認
Mikhail Kiselev, (参考訳) 本稿では、幅広い教師付き学習分類タスクに使用できるスパイキングニューラルネットワーク(SNN)アーキテクチャについて述べる。 全ての参加信号(分類対象記述、正しいクラスラベル、SNN決定)がスパイクの性質を持つと仮定する。 このアーキテクチャの特徴は、異なるクラスに対応する原型ネットワーク構造と、1つのクラス(=カラム)の顕著な特異なインスタンスと、列(=層)内のニューロンの機能的に異なる個体群の組み合わせである。 もう一つの特徴は、抗ヘビアンとドーパミン修飾可塑性の新規な組み合わせである。 塑性規則は局所的であり、バックプロパゲーション原理を使わない。 それに加えて、以前の研究と同様に、すべてのニューロン/塑性モデルが現代の神経チップに容易に実装されるべきという要件に導かれました。 MNISTベンチマークでネットワークの性能について説明する。

In the present paper, I describe a spiking neural network (SNN) architecture which, can be used in wide range of supervised learning classification tasks. It is assumed, that all participating signals (the classified object description, correct class label and SNN decision) have spiking nature. The distinctive feature of this architecture is a combination of prototypical network structures corresponding to different classes and significantly distinctive instances of one class (=columns) and functionally differing populations of neurons inside columns (=layers). The other distinctive feature is a novel combination of anti-Hebbian and dopamine-modulated plasticity. The plasticity rules are local and do not use the backpropagation principle. Besides that, as in my previous studies, I was guided by the requirement that the all neuron/plasticity models should be easily implemented on modern neurochips. I illustrate the high performance of my network on the MNIST benchmark.
翻訳日:2024-09-06 06:47:21 公開日:2024-09-04
# ドメイン分解に基づくシュワルツ交替法による演算子推論還元次数モデルの結合

Domain Decomposition-based coupling of Operator Inference reduced order models via the Schwarz alternating method ( http://arxiv.org/abs/2409.01433v2 )

ライセンス: Link先を確認
Ian Moore, Christopher Wentland, Anthony Gruber, Irina Tezaur, (参考訳) 本稿では, 与えられた偏微分方程式(PDE)が表される空間幾何学の領域分解に続いて, 非侵入的作用素推論(OpInf)とサブドメイン局所フルオーダーモデル(FOM)を併用して構築したサブドメイン局所縮小順序モデル(ROM)を結合する手法を提案し, 評価する。 サブドメイン局所モデルの結合は、重複するシュワルツ交互化法(Shwarz alternating method)を用いて達成される。これは、モノリシック問題をサブドメイン局所問題列に変換し、サブドメイン界面に課される伝達境界条件を介して通信する、最小限のマルチスケール結合技術である。 OpInf-Schwarzと呼ばれるOpInf ROMの重なり合うシュワルツ交互法を定式化した後、2つの空間次元における熱方程式を含むいくつかのテストケースにおける手法の精度と効率を評価する。 提案手法は,OpInf ROMとFOMの任意の組み合わせを結合でき,モノリシックなFOM上での高速化が可能であることを実証する。

This paper presents and evaluates an approach for coupling together subdomain-local reduced order models (ROMs) constructed via non-intrusive operator inference (OpInf) with each other and with subdomain-local full order models (FOMs), following a domain decomposition of the spatial geometry on which a given partial differential equation (PDE) is posed. Joining subdomain-local models is accomplished using the overlapping Schwarz alternating method, a minimally-intrusive multiscale coupling technique that works by transforming a monolithic problem into a sequence of subdomain-local problems, which communicate through transmission boundary conditions imposed on the subdomain interfaces. After formulating the overlapping Schwarz alternating method for OpInf ROMs, termed OpInf-Schwarz, we evaluate the method's accuracy and efficiency on several test cases involving the heat equation in two spatial dimensions. We demonstrate that the method is capable of coupling together arbitrary combinations of OpInf ROMs and FOMs, and that speed-ups over a monolithic FOM are possible when performing OpInf ROM coupling.
翻訳日:2024-09-06 04:02:22 公開日:2024-09-04
# グラフアテンションネットワークを用いた多重モードを用いた重畳アンサンブルに基づく変異原性予測モデル

Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network ( http://arxiv.org/abs/2409.01731v2 )

ライセンス: Link先を確認
Tanya Liyaqat, Tanvir Ahmad, Mohammad Kashif, Chandni Saxena, (参考訳) 変異原性は、癌の発生を含む様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。 薬物開発プロセスにおける変異原性化合物の早期同定は、安全でない候補の進行を防ぎ、開発コストを削減するために重要である。 計算技術、特に機械学習モデルは、このエンドポイントでますます普及しているが、それらは単一のモダリティに依存している。 本研究では,分子インプットライン入力システム (SMILES) や分子グラフなどの複数のモードを組み込んだ,組立アンサンブルに基づく変異原性予測モデルを提案する。 これらのモダリティは、構造、物理化学的、幾何学的、トポロジカルといった分子についての多様な情報を取得する。 分子グラフを用いたグラフアテンションネットワーク(GAT)を通して位相情報を抽出しながら,構造的,幾何学的,物理化学的情報を導出する。 我々のモデルは、これらの複数の特徴を用いて予測を行うために、機械学習分類器の積み重ねられたアンサンブルを使用する。 我々は、各分類器の意義と予測における最も重要な特徴を決定するために、説明可能な人工知能(XAI)技術SHAP(Shapley Additive Explanations)を用いる。 提案手法は,2つの標準データセット上でのSOTA法を超越していることを示す。 特に,ハンセンベンチマークデータセットの95.21\%の曲線下領域を達成し,変異原性を予測する手法の有効性を確認した。 本研究は,翻訳研究に携わる臨床医と計算生物学者の双方の関心を惹きつけるものと信じている。

Mutagenicity is a concern due to its association with genetic mutations which can result in a variety of negative consequences, including the development of cancer. Earlier identification of mutagenic compounds in the drug development process is therefore crucial for preventing the progression of unsafe candidates and reducing development costs. While computational techniques, especially machine learning models have become increasingly prevalent for this endpoint, they rely on a single modality. In this work, we introduce a novel stacked ensemble based mutagenicity prediction model which incorporate multiple modalities such as simplified molecular input line entry system (SMILES) and molecular graph. These modalities capture diverse information about molecules such as substructural, physicochemical, geometrical and topological. To derive substructural, geometrical and physicochemical information, we use SMILES, while topological information is extracted through a graph attention network (GAT) via molecular graph. Our model uses a stacked ensemble of machine learning classifiers to make predictions using these multiple features. We employ the explainable artificial intelligence (XAI) technique SHAP (Shapley Additive Explanations) to determine the significance of each classifier and the most relevant features in the prediction. We demonstrate that our method surpasses SOTA methods on two standard datasets across various metrics. Notably, we achieve an area under the curve of 95.21\% on the Hansen benchmark dataset, affirming the efficacy of our method in predicting mutagenicity. We believe that this research will captivate the interest of both clinicians and computational biologists engaged in translational research.
翻訳日:2024-09-06 02:16:32 公開日:2024-09-04
# 視覚言語モデルにおける視覚プロンプトの線形探索はいつ可能か : 類似の視点

When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective ( http://arxiv.org/abs/2409.01821v2 )

ライセンス: Link先を確認
Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho, (参考訳) トレーニング済みのモデルを新しいタスクに適応させることは、データセット間でさまざまな効果を示すことができる。 最先端パラメータ効率の伝達学習手法であるビジュアルプロンプトは、配布外タスクの性能を大幅に向上させることができる。 一方, 標準的な伝達学習手法である線形探索は, 最良の手法となることがある。 本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。 LLRスコアと資源効率のよい視覚的プロンプトを併用することにより、コスト効率はフルトレーニングに比べて100倍の時間短縮を実現し、予測精度は最大91%に向上した。 ソースコードはhttps://github.com/IBM/VP-LLR.comで公開されている。

Adapting pre-trained models to new tasks can exhibit varying effectiveness across datasets. Visual prompting, a state-of-the-art parameter-efficient transfer learning method, can significantly improve the performance of out-of-distribution tasks. On the other hand, linear probing, a standard transfer learning method, can sometimes become the best approach. We propose a log-likelihood ratio (LLR) approach to analyze the comparative benefits of visual prompting and linear probing. By employing the LLR score alongside resource-efficient visual prompts approximations, our cost-effective measure attains up to a 100-fold reduction in run time compared to full training, while achieving prediction accuracies up to 91%. The source code is available at https://github.com/IBM/VP-LLR.
翻訳日:2024-09-06 01:47:58 公開日:2024-09-04
# 深部ニューラルネットワーク学習による2つのポテンシャルを持つ修正GP方程式におけるデータ駆動2次元定常量子滴と波動伝播

Data-driven 2D stationary quantum droplets and wave propagations in the amended GP equation with two potentials via deep neural networks learning ( http://arxiv.org/abs/2409.02339v1 )

ライセンス: Link先を確認
Jin Song, Zhenya Yan, (参考訳) 本稿では,2次元定常量子滴(QD)を解くための体系的な深層学習手法を開発し,リー・フアン・ヤン補正と2種類のポテンシャルを持つ2次元修正グロス・ピタエフスキー方程式の波動伝播について検討する。 まず、定常方程式の2次元定常量子滴に対する初期値反復ニューラルネットワーク(IINN)アルゴリズムを用いる。 次に、学習された定常QDを、物理インフォームドニューラルネットワーク(PINN)の初期値条件として使用して、ある時空領域における彼らの進化を探索する。 特に、2次元四重井戸ガウスポテンシャルとPT対称HO-ガウスポテンシャルという2種類のポテンシャルを考えると、自然対称性の破れと多成分QDの生成につながる。 使用した深層学習法は、他の非線形物理モデルの波動伝播の研究にも応用できる。

In this paper, we develop a systematic deep learning approach to solve two-dimensional (2D) stationary quantum droplets (QDs) and investigate their wave propagation in the 2D amended Gross-Pitaevskii equation with Lee-Huang-Yang correction and two kinds of potentials. Firstly, we use the initial-value iterative neural network (IINN) algorithm for 2D stationary quantum droplets of stationary equations. Then the learned stationary QDs are used as the initial value conditions for physics-informed neural networks (PINNs) to explore their evolutions in the some space-time region. Especially, we consider two types of potentials, one is the 2D quadruple-well Gaussian potential and the other is the PT-symmetric HO-Gaussian potential, which lead to spontaneous symmetry breaking and the generation of multi-component QDs. The used deep learning method can also be applied to study wave propagations of other nonlinear physical models.
翻訳日:2024-09-05 20:51:59 公開日:2024-09-04
# 最小二乗近似のための最適サンプリング

Optimal sampling for least-squares approximation ( http://arxiv.org/abs/2409.02342v1 )

ライセンス: Link先を確認
Ben Adcock, (参考訳) 最小二乗近似は、未知の関数をデータから復元する最も重要な方法の1つである。 多くのアプリケーションではデータが固定されているが、他の多くのアプリケーションではサンプルの場所を選択する自由がある。 本稿では、任意の線型空間における(重み付けされた)最小二乗近似の最適サンプリングに関する最近の進歩について述べる。 ランダムサンプルから(重み付けされた)最小二乗近似を解析する上で重要な量としてChristoffel関数を導入し、次に、近似空間の次元である$n$で対数的にスケールするサンプルの数を、ほぼ最適サンプルの複雑性を持つサンプリング戦略を構築する方法を示す。 本稿では,一連の変分,拡張,さらに話題について論じるとともに,近似理論,機械学習,情報ベース複雑性,数値線形代数学などとの関係を概観する。 最後に、様々な現代的応用を動機として、標本がスカラー値関数の点的サンプルである必要がなく、近似空間が線型でなくてもよい古典的な設定の一般化を考える。 この非常に一般的な設定においても、クリストッフェル函数の適切な一般化が標本の複雑さを決定づけていることが示される。 これにより、一般的なリカバリ問題に対する改良されたサンプリング戦略を設計するための統一的な手順が提供される。 この記事は、主に自己完結型であり、非専門主義者にアクセスできることを意図している。

Least-squares approximation is one of the most important methods for recovering an unknown function from data. While in many applications the data is fixed, in many others there is substantial freedom to choose where to sample. In this paper, we review recent progress on optimal sampling for (weighted) least-squares approximation in arbitrary linear spaces. We introduce the Christoffel function as a key quantity in the analysis of (weighted) least-squares approximation from random samples, then show how it can be used to construct sampling strategies that possess near-optimal sample complexity: namely, the number of samples scales log-linearly in $n$, the dimension of the approximation space. We discuss a series of variations, extensions and further topics, and throughout highlight connections to approximation theory, machine learning, information-based complexity and numerical linear algebra. Finally, motivated by various contemporary applications, we consider a generalization of the classical setting where the samples need not be pointwise samples of a scalar-valued function, and the approximation space need not be linear. We show that even in this significantly more general setting suitable generalizations of the Christoffel function still determine the sample complexity. This provides a unified procedure for designing improved sampling strategies for general recovery problems. This article is largely self-contained, and intended to be accessible to nonspecialists.
翻訳日:2024-09-05 20:51:59 公開日:2024-09-04
# NUDGE:軽量非パラメトリックファインチューニングによる検索用埋め込み

NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval ( http://arxiv.org/abs/2409.02343v1 )

ライセンス: Link先を確認
Sepanta Zeighami, Zac Wellmer, Aditya Parameswaran, (参考訳) k$-Nearest Neighbor search on dense vector embeddeds (k$-NN search) from pre-trained embedded model is the most search method for text and image, and as Retrieval-Augmented Generation (RAG) pipelines。 実際に、アプリケーション開発者は、データセットの正確性を改善し、手元のワークロードをクエリするために、埋め込みを微調整することが多い。 既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的にするが、精度の面では、事前訓練されたモデルの出力を変換するようにアダプタモデルを訓練する。 NUDGE, NUDGEは, 従来の2つの手法よりも精度が高く, 効率的である新しい非パラメトリック埋め込み細調整手法のファミリーである。 NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。 NUDGEの非パラメトリックアプローチに関する理論的および実験的研究を概説する。 NP-Hardが根本問題であるにもかかわらず、制約付き変分を効率的に解けることを示す。 これらの制約により、埋め込みの変更が控えめであることも保証され、事前トレーニング中に学んだセマンティックスに対する大きな歪みを避けることができる。 5つの事前訓練されたモデルと9つの標準テキストおよび画像検索データセットの実験では、NUDGEは数分で実行され、既存の微調整方法よりも10%以上改善されている。 NUDGEは、トレーニング済みモデルとトレーニングアダプタを微調整する代わりに、平均して3.3倍と4.3倍の精度向上と、それぞれ200倍と3倍の高速化を実現している。

$k$-Nearest Neighbor search on dense vector embeddings ($k$-NN retrieval) from pre-trained embedding models is the predominant retrieval method for text and images, as well as Retrieval-Augmented Generation (RAG) pipelines. In practice, application developers often fine-tune the embeddings to improve their accuracy on the dataset and query workload in hand. Existing approaches either fine-tune the pre-trained model itself or, more efficiently, but at the cost of accuracy, train adaptor models to transform the output of the pre-trained model. We present NUDGE, a family of novel non-parametric embedding fine-tuning approaches that are significantly more accurate and efficient than both sets of existing approaches. NUDGE directly modifies the embeddings of data records to maximize the accuracy of $k$-NN retrieval. We present a thorough theoretical and experimental study of NUDGE's non-parametric approach. We show that even though the underlying problem is NP-Hard, constrained variations can be solved efficiently. These constraints additionally ensure that the changes to the embeddings are modest, avoiding large distortions to the semantics learned during pre-training. In experiments across five pre-trained models and nine standard text and image retrieval datasets, NUDGE runs in minutes and often improves NDCG@10 by more than 10% over existing fine-tuning methods. On average, NUDGE provides 3.3x and 4.3x higher increase in accuracy and runs 200x and 3x faster, respectively, over fine-tuning the pre-trained model and training adaptors.
翻訳日:2024-09-05 20:51:59 公開日:2024-09-04
# LoRAの置換最小化による基礎モデルのロバストフェデレーションファインタニング

Robust Federated Finetuning of Foundation Models via Alternating Minimization of LoRA ( http://arxiv.org/abs/2409.02346v1 )

ライセンス: Link先を確認
Shuangyi Chen, Yue Ju, Hardik Dalal, Zhongwen Zhu, Ashish Khisti, (参考訳) パラメータ効率の良いファインチューニング(PEFT)は、少数のモデルパラメータのみを更新し、計算とメモリの要求の両方を大幅に削減する革新的なトレーニング戦略として台頭している。 PEFTはまた、コミュニケーションが更新のサイズに依存するフェデレートされた学習環境におけるデータ転送を減らすのにも役立っている。 本研究では,LoRAと呼ばれるPEFT法とフェデレーションファインチューニングを統合した従来の研究の制約を検討するとともに,LoRAの最小化アプローチを交互に活用する堅牢なフェデレーションファインチューニングフレームワークであるRoLoRAを導入し,微調整パラメータの減少やデータ不均一性の増大に対する堅牢性を高めることを目的とした。 この結果から,RoLoRAは通信の利点を示すだけでなく,複数のファインチューニングシナリオにおけるロバスト性と有効性を大幅に向上させることがわかった。

Parameter-Efficient Fine-Tuning (PEFT) has risen as an innovative training strategy that updates only a select few model parameters, significantly lowering both computational and memory demands. PEFT also helps to decrease data transfer in federated learning settings, where communication depends on the size of updates. In this work, we explore the constraints of previous studies that integrate a well-known PEFT method named LoRA with federated fine-tuning, then introduce RoLoRA, a robust federated fine-tuning framework that utilizes an alternating minimization approach for LoRA, providing greater robustness against decreasing fine-tuning parameters and increasing data heterogeneity. Our results indicate that RoLoRA not only presents the communication benefits but also substantially enhances the robustness and effectiveness in multiple federated fine-tuning scenarios.
翻訳日:2024-09-05 20:51:59 公開日:2024-09-04
# 重み付き選択と多次元スケーリングによる重み付けにおける機能的多様性の役割の理解

Understanding the Role of Functional Diversity in Weight-Ensembling with Ingredient Selection and Multidimensional Scaling ( http://arxiv.org/abs/2409.02347v1 )

ライセンス: Link先を確認
Alex Rojas, David Alvarez-Melis, (参考訳) 重みのアンサンブルは、複数のニューラルネットワークのパラメータが1つのモデルに直接平均化されるときに形成される。 彼らは、各異なるモデルによって割り当てられた機能的多様性をうまく活用できると考えられているが、完全には理解されていない一般化能力(ID)とアウト・オブ・ディストリビューション(OOD)を実証した。 モデルの集合を考えると、どの組み合わせが最適なウェイトアンサンブルにつながるかは不明であり、SOTAは線形時間 ``greedy' 法である。 本稿では,性能のダイナミクスと各手法がどのように利用するかという特性の関連性を検討するために,2つの新しい重み付け手法を提案する。 そこで我々は,各アルゴリズムがペアワイズ距離で定義された様々な領域を探索し,選択とアルゴリズムの収束をさらに調査する可視化ツールを開発した。 経験的分析は、多様性だけで精度が向上する程度を測りながら、高多様性が重み付けを高めることを強化する視点を隠した。 また, 重みアンサンブルの改良に同様に, 位置別モデルのサンプリングが有意に寄与することを示した。

Weight-ensembles are formed when the parameters of multiple neural networks are directly averaged into a single model. They have demonstrated generalization capability in-distribution (ID) and out-of-distribution (OOD) which is not completely understood, though they are thought to successfully exploit functional diversity allotted by each distinct model. Given a collection of models, it is also unclear which combination leads to the optimal weight-ensemble; the SOTA is a linear-time ``greedy" method. We introduce two novel weight-ensembling approaches to study the link between performance dynamics and the nature of how each method decides to use apply the functionally diverse components, akin to diversity-encouragement in the prediction-ensemble literature. We develop a visualization tool to explain how each algorithm explores various domains defined via pairwise-distances to further investigate selection and algorithms' convergence. Empirical analyses shed perspectives which reinforce how high-diversity enhances weight-ensembling while qualifying the extent to which diversity alone improves accuracy. We also demonstrate that sampling positionally distinct models can contribute just as meaningfully to improvements in a weight-ensemble.
翻訳日:2024-09-05 20:51:59 公開日:2024-09-04
# 計算機プラズマ物理と低次プラズマモデリングへの機械学習の応用

Machine Learning Applications to Computational Plasma Physics and Reduced-Order Plasma Modeling: A Perspective ( http://arxiv.org/abs/2409.02349v1 )

ライセンス: Link先を確認
Farbod Faraji, Maryam Reza, (参考訳) 機械学習(ML)は、シミュレーションや実験から有用で説明可能な科学へのデータ変換を可能にする、幅広いツールとアーキテクチャを提供する。 さらに、MLの強化された数値モデリングは、実世界の複雑なエンジニアリングシステムのための科学計算を改良し、その技術を詳細に検証し、最適化と制御を自動化するユニークな機会を生み出すことができる。 近年、MLの応用は様々な科学分野、特に流体力学において顕著な成長を遂げている。 対照的に、数値プラズマ物理学の研究におけるMLの応用は、範囲と範囲において比較的限られている。 これにもかかわらず、流体力学とプラズマ物理学の密接な関係は、流体流動モデリングにおけるMLの進歩を計算プラズマ物理学に転送するためのロードマップを作成する貴重な機会となる。 このパースペクティブは、このようなロードマップを概観することを目指している。 まず、MLアルゴリズムの様々なカテゴリや、MLの助けを借りて解決できるさまざまなタイプの問題など、MLの基本的な側面について議論する。 次に,各問題の種類について,計算流体力学におけるMLの使用例について述べる。 また,各問題種別におけるプラズマ物理学における最近のML応用についても概説する。 本稿では,様々な応用領域におけるプラズマモデリングにおけるMLの今後の方向性と開発経路について論じる。 さらに,計算プラズマ物理学におけるMLの潜在能力を最大限に実現するためには,費用対効果の高い高忠実度シミュレーションツールの必要性など,課題を指摘する。

Machine learning (ML) provides a broad spectrum of tools and architectures that enable the transformation of data from simulations and experiments into useful and explainable science, thereby augmenting domain knowledge. Furthermore, ML-enhanced numerical modelling can revamp scientific computing for real-world complex engineering systems, creating unique opportunities to examine the operation of the technologies in detail and automate their optimization and control. In recent years, ML applications have seen significant growth across various scientific domains, particularly in fluid mechanics, where ML has shown great promise in enhancing computational modeling of fluid flows. In contrast, ML applications in numerical plasma physics research remain relatively limited in scope and extent. Despite this, the close relationship between fluid mechanics and plasma physics presents a valuable opportunity to create a roadmap for transferring ML advances in fluid flow modeling to computational plasma physics. This Perspective aims to outline such a roadmap. We begin by discussing some general fundamental aspects of ML, including the various categories of ML algorithms and the different types of problems that can be solved with the help of ML. With regard to each problem type, we then present specific examples from the use of ML in computational fluid dynamics, reviewing several insightful prior efforts. We also review recent ML applications in plasma physics for each problem type. The paper discusses promising future directions and development pathways for ML in plasma modelling within the different application areas. Additionally, we point out prominent challenges that must be addressed to realize ML's full potential in computational plasma physics, including the need for cost-effective high-fidelity simulation tools for extensive data generation.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 時空に絡まる

Entangled in Spacetime ( http://arxiv.org/abs/2409.02354v1 )

ライセンス: Link先を確認
Mohammad Rasoolinejad, (参考訳) 本稿では, 量子力学の枠組みによる遅延・Choice量子エラストマー実験の観測解析について述べる。 古典的な2重スリット実験のバリエーションである遅延・チョイス量子消去器は、量子測定、波動-粒子二重性、観測の時間的順序の複雑な関係を実証している。 量子重ね合わせ、絡み合い、波動関数の非局所的崩壊の原理を利用して、実験で観測された反直観的な結果の合理化を試みる。 具体的には,計測が観測された粒子の挙動に遡及的にどう影響するかを,どの経路情報が得られるかによって検討する。 我々の分析は、時空にまたがる波動関数の崩壊という量子力学的概念の重要性を強調し、量子力学が遅延チョイスパラドックスをどのように再現するかをより深く理解する。

This paper presents an observational analysis of the Delayed-Choice Quantum Eraser experiment through the framework of quantum mechanics. The Delayed-Choice Quantum Eraser, a variation of the classic double-slit experiment, demonstrates the intricate relationship between quantum measurement, wave-particle duality, and the temporal ordering of observations. By utilizing the principles of quantum superposition, entanglement, and the non-local collapse of the wave function, we seek to rationalize the counterintuitive outcomes observed in the experiment. Specifically, we explore how the act of measurement retroactively influences the observed behavior of particles, depending on whether or not the which-path information is available. Our analysis underscores the significance of the quantum mechanical concept of wave function collapse across spacetime, providing a deeper understanding of how quantum mechanics reconciles the delayed-choice paradox.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# Diversify-verify-adapt: 効率的でロバストな検索-強化された曖昧な質問回答

Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering ( http://arxiv.org/abs/2409.02361v1 )

ライセンス: Link先を確認
Yeonjun In, Sungchul Kim, Ryan A. Rossi, Md Mehrab Tanjim, Tong Yu, Ritwik Sinha, Chanyoung Park, (参考訳) 検索拡張生成(RAG)フレームワークは、QAシステムにおけるユーザクエリのあいまいさに対処し、すべての妥当な解釈を網羅するパスを検索し、そのパスに基づいて包括的な応答を生成する。 しかし, 予備研究により, 単一の検索プロセスが低品質な結果に悩まされることがしばしば明らかとなった。 この問題を解決するために反復RAG手法が提案されているが、効率を大幅に低下させるコストがかかる。 これらの問題に対処するため,我々はDIVAフレームワークを提案する。 DIVAは、まず検索された通路を多様化し、多様な解釈を包含する。 その後、DIVAはパスの品質を確認し、その品質に合わせて最も適切なアプローチを適用する。 提案手法は,不明瞭な質問に対して品質の低い検索問題を処理し,効率を向上し,QAシステムの精度とロバスト性を向上する。

The retrieval augmented generation (RAG) framework addresses an ambiguity in user queries in QA systems by retrieving passages that cover all plausible interpretations and generating comprehensive responses based on the passages. However, our preliminary studies reveal that a single retrieval process often suffers from low quality results, as the retrieved passages frequently fail to capture all plausible interpretations. Although the iterative RAG approach has been proposed to address this problem, it comes at the cost of significantly reduced efficiency. To address these issues, we propose the diversify-verify-adapt (DIVA) framework. DIVA first diversifies the retrieved passages to encompass diverse interpretations. Subsequently, DIVA verifies the quality of the passages and adapts the most suitable approach tailored to their quality. This approach improves the QA systems accuracy and robustness by handling low quality retrieval issue in ambiguous questions, while enhancing efficiency.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 結合行列積状態は低エネルギー励起を忠実に表す

Bundled matrix product states represent low-energy excitations faithfully ( http://arxiv.org/abs/2409.02362v1 )

ライセンス: Link先を確認
Thomas E. Baker, Negar Seif, (参考訳) 密度行列の集合を考える。 これらはすべて同じ軌道基底で書かれるが、軌道基底のサイズはヒルベルト空間の大きさより小さい。 それぞれの密度行列が互いにどのように関連しているかを、小さな軌道集合に対する部分的トレースのトラヒック誤差に基づいて、密度行列間のノルムを確立することによって問う。 エネルギー差が大きい状態は密度行列に大きな差があることが判明した。 エネルギーの小さな差は2つの群に分けられる: 1つは密度行列が2つの小さな差を持ち、もう1つは対称性の場合とは大きく異なる。 これらのアイデアを行列積状態の束に拡張し、エネルギー差が大きい2つの状態に対する波動関数アンサッツの結合次元が大きくなることを示す。 一方、低エネルギー差は同様の状態に対してほぼ同じ結合次元を持つ。

We consider a set of density matrices. All of which are written in the same orbital basis, but the orbital basis size is less than the total Hilbert space size. We ask how each density matrix is related to each of the others by establishing a norm between density matrices based on the truncation error in a partial trace for a small set of orbitals. We find that states with large energy differences must have large differences in their density matrices. Small energy differences are divided into two groups, one where two density matrices have small differences and another where they are very different, as is the case of symmetry. We extend these ideas to a bundle of matrix product states and show that bond dimension of the wavefunction ansatz for two states with large energy differences are larger. Meanwhile, low energy differences can have nearly the same bond dimensions for similar states.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 高次元連続関数に対する最適ニューラルネットワーク近似

Optimal Neural Network Approximation for High-Dimensional Continuous Functions ( http://arxiv.org/abs/2409.02363v1 )

ライセンス: Link先を確認
Ayan Maiti, Michelle Michelle, Haizhao Yang, (参考訳) 近年、Shen Yang Zhang (JMLR, 2022) の著者らは、C([a,b]^d)$の関数に対する超近似特性を達成するために、初等普遍活性化関数と呼ばれる特別な活性化関数を利用する、幅3,6d(2d + 1)$と深さ1,11$のニューラルネットワークを開発した。 すなわち、構築されたネットワークは、任意の精度で$d$-次元ハイパーキューブ上の$d$-変数連続関数を近似するために、固定数のニューロンしか必要としない。 ネットワークは$\mathcal{O}(d^2)$固定ニューロンを使用する。 対処すべき自然な疑問は、そのようなネットワーク内でこれらのニューロンの数を減らすことができるかどうかである。 コルモゴロフ重畳定理の変種を利用して、この超近似特性を達成できる366d +365$の固定内在性(非反復性)ニューロンを持つ基本普遍活性化関数によって生成されたニューラルネットワークが存在することを示す。 さらに、その近似において任意の精度を達成するために、少なくとも幅$d$、従って少なくとも$d$固有のニューロンを必要とする連続関数の族を示す。 このことは、$\mathcal{O}(d)$内在ニューロンの要求が入力次元$d$で線形に成長するという意味で最適であることを示し、パラメータが$d$で指数関数的に成長するいくつかの近似法とは対照的である。

Recently, the authors of Shen Yang Zhang (JMLR, 2022) developed a neural network with width $36d(2d + 1)$ and depth $11$, which utilizes a special activation function called the elementary universal activation function, to achieve the super approximation property for functions in $C([a,b]^d)$. That is, the constructed network only requires a fixed number of neurons to approximate a $d$-variate continuous function on a $d$-dimensional hypercube with arbitrary accuracy. Their network uses $\mathcal{O}(d^2)$ fixed neurons. One natural question to address is whether we can reduce the number of these neurons in such a network. By leveraging a variant of the Kolmogorov Superposition Theorem, our analysis shows that there is a neural network generated by the elementary universal activation function with only $366d +365$ fixed, intrinsic (non-repeated) neurons that attains this super approximation property. Furthermore, we present a family of continuous functions that requires at least width $d$, and therefore at least $d$ intrinsic neurons, to achieve arbitrary accuracy in its approximation. This shows that the requirement of $\mathcal{O}(d)$ intrinsic neurons is optimal in the sense that it grows linearly with the input dimension $d$, unlike some approximation methods where parameters may grow exponentially with $d$.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 隠れた自動化コスト - GitHubアクションワークフローのメンテナンスに関する実証的研究

The Hidden Costs of Automation: An Empirical Study on GitHub Actions Workflow Maintenance ( http://arxiv.org/abs/2409.02366v1 )

ライセンス: Link先を確認
Pablo Valenzuela-Toledo, Alexandre Bergel, Timo Kehrer, Oscar Nierstrasz, (参考訳) GitHub Actions(GA)は、ビルド、テスト、デプロイメントなどのソフトウェアエンジニアリングタスクの自動実行を合理化するオーケストレーションプラットフォームである。 GAワークフローは自動化の主要な手段ですが、私たちの経験や観察によると、欠陥の修正や依存関係の更新、既存のワークフローファイルのリファクタリングには人間の介入が必要です。 実際、以前の研究では、ビルドファイルやボットのようなワークフローに似たソフトウェアアーティファクトが、ソフトウェアプロジェクトに追加のメンテナンスタスクを導入する可能性があることが示されている。 これは、プロのソフトウェア生産において反復的なタスクを自動化するためにも使われるワークフローファイルが、開発者に余分な負荷を発生させる可能性があることを示唆している。 しかし、そのような取り組みの性質は十分に研究されていない。 本稿では,10言語にわたる約200の成熟したGitHubプロジェクトにおいて,ワークフローファイルの進化を研究することによって,GAワークフローのメンテナンスを特徴付けるための大規模な実証的研究を提案する。 また, GA維持の要因として, バグ修正やCI/CD改善などのGA特有の知見が示された。 直接的な意味は、実践者は、GAワークフローを維持するための適切なリソース計画とアロケーションを認識して、自動化の‘隠れたコスト’を露呈すべきである、ということです。 また、依存関係のトラッキングとワークフロー仕様のエラーレポートの改善をサポートするツール機能の拡張も求めています。

GitHub Actions (GA) is an orchestration platform that streamlines the automatic execution of software engineering tasks such as building, testing, and deployment. Although GA workflows are the primary means for automation, according to our experience and observations, human intervention is necessary to correct defects, update dependencies, or refactor existing workflow files. In fact, previous research has shown that software artifacts similar to workflows, such as build files and bots, can introduce additional maintenance tasks in software projects. This suggests that workflow files, which are also used to automate repetitive tasks in professional software production, may generate extra workload for developers. However, the nature of such effort has not been well studied. This paper presents a large-scale empirical investigation towards characterizing the maintenance of GA workflows by studying the evolution of workflow files in almost 200 mature GitHub projects across ten programming languages. Our findings largely confirm the results of previous studies on the maintenance of similar artifacts, while also revealing GA-specific insights such as bug fixing and CI/CD improvement being among the major drivers of GA maintenance. A direct implication is that practitioners should be aware of proper resource planning and allocation for maintaining GA workflows, thus exposing the ``hidden costs of automation.'' Our findings also call for identifying and documenting best practices for such maintenance, and for enhanced tool features supporting dependency tracking and better error reporting of workflow specifications.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 多元的有価物検出

Pluralistic Salient Object Detection ( http://arxiv.org/abs/2409.02368v1 )

ライセンス: Link先を確認
Xuelu Feng, Yunsheng Li, Dongdong Chen, Chunming Qiao, Junsong Yuan, Lu Yuan, Gang Hua, (参考訳) 本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。 従来のサルエントオブジェクトに対して単一セグメンテーションマスクを生成するSOD方式とは異なり、この新しい設定では、複数のオブジェクトからなる実世界の画像の本質的な複雑さと、異なるユーザ意図によるサルエントオブジェクトの定義におけるあいまいさを認識している。 そこで本研究では,新しいSODデータセット「DUTS-MM」と「DUS-MQ」を新たに設計した評価指標とともに提示する。 DUTS-MMはDUTSデータセットの上に構築されるが、三つの側面から地道マスクアノテーションを充実させる 1)特に境界やきめ細かな構造物のマスク品質の向上。 2) アノテーションの不整合問題を緩和し,及び 3) 鮮明さと鮮明さを両立させるために, 複数枚の接地トラスマスクを提供する。 DUTS-MQは、約100Kの画像マスク対と人間の注釈付けされた嗜好スコアで構成されており、マスク品質の測定において実際の人間の嗜好を学習することができる。 これら2つのデータセットに基づいて,Mixture-of-Experts(MOE)設計に基づく,単純かつ効果的な多元的SODベースラインを提案する。 2つの予測ヘッドを備え、異なるクエリプロンプトを使用して複数のマスクを同時に予測し、各マスク候補に対する人間の選好スコアを予測する。 大規模な実験と分析により,提案したデータセットの重要性が明らかにされ,PSODフレームワークの有効性が確認された。

We introduce pluralistic salient object detection (PSOD), a novel task aimed at generating multiple plausible salient segmentation results for a given input image. Unlike conventional SOD methods that produce a single segmentation mask for salient objects, this new setting recognizes the inherent complexity of real-world images, comprising multiple objects, and the ambiguity in defining salient objects due to different user intentions. To study this task, we present two new SOD datasets "DUTS-MM" and "DUS-MQ", along with newly designed evaluation metrics. DUTS-MM builds upon the DUTS dataset but enriches the ground-truth mask annotations from three aspects which 1) improves the mask quality especially for boundary and fine-grained structures; 2) alleviates the annotation inconsistency issue; and 3) provides multiple ground-truth masks for images with saliency ambiguity. DUTS-MQ consists of approximately 100K image-mask pairs with human-annotated preference scores, enabling the learning of real human preferences in measuring mask quality. Building upon these two datasets, we propose a simple yet effective pluralistic SOD baseline based on a Mixture-of-Experts (MOE) design. Equipped with two prediction heads, it simultaneously predicts multiple masks using different query prompts and predicts human preference scores for each mask candidate. Extensive experiments and analyses underscore the significance of our proposed datasets and affirm the effectiveness of our PSOD framework.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 大規模言語モデルは知覚に敏感か?

Do Large Language Models Possess Sensitive to Sentiment? ( http://arxiv.org/abs/2409.02370v1 )

ライセンス: Link先を確認
Yang Liu, Xichou Zhu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Zhiyang Xu, Wei Luo, Junhui Wang, (参考訳) 大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。 しかし、LLMの感情能力を総合的に評価する方法は、引き続き課題である。 本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。 LLMの多様なアプリケーションへの統合が進みつつあるため、ユーザエクスペリエンスや感情駆動タスクの効果に影響を与えるため、感情的なトーンに対する感受性を理解することが極めて重要である。 我々は,肯定的感情,否定的感情,中立的感情などの感情を識別し,適切な応答を行う上で,いくつかの顕著なLDMの性能を評価する一連の実験を行った。 モデルのアウトプットは様々な感情ベンチマークで分析され、その反応は人間の評価と比較される。 我々の発見は、LLMは感情に基本的な感受性を示すが、その正確さと一貫性にはかなりのバリエーションがあり、微妙な感情的な手がかりをよりよく捉えるためのトレーニングプロセスのさらなる強化の必要性を強調していることを示している。 例えば、このモデルでは、強い肯定的な感情を中立と誤って分類したり、あるいは皮肉や皮肉をテキストに認識できない場合もあります。 このような誤分類は、感情分析の複雑さと、モデルを洗練する必要がある領域を浮き彫りにする。 もうひとつの側面は、異なるLLMが、アーキテクチャやデータセットのトレーニングによって、同じデータセット上で異なるパフォーマンスを行う可能性がある、ということです。 この分散は、パフォーマンスの違いと最適化方法に寄与する要因について、より深く研究する必要がある。

Large Language Models (LLMs) have recently displayed their extraordinary capabilities in language understanding. However, how to comprehensively assess the sentiment capabilities of LLMs continues to be a challenge. This paper investigates the ability of LLMs to detect and react to sentiment in text modal. As the integration of LLMs into diverse applications is on the rise, it becomes highly critical to comprehend their sensitivity to emotional tone, as it can influence the user experience and the efficacy of sentiment-driven tasks. We conduct a series of experiments to evaluate the performance of several prominent LLMs in identifying and responding appropriately to sentiments like positive, negative, and neutral emotions. The models' outputs are analyzed across various sentiment benchmarks, and their responses are compared with human evaluations. Our discoveries indicate that although LLMs show a basic sensitivity to sentiment, there are substantial variations in their accuracy and consistency, emphasizing the requirement for further enhancements in their training processes to better capture subtle emotional cues. Take an example in our findings, in some cases, the models might wrongly classify a strongly positive sentiment as neutral, or fail to recognize sarcasm or irony in the text. Such misclassifications highlight the complexity of sentiment analysis and the areas where the models need to be refined. Another aspect is that different LLMs might perform differently on the same set of data, depending on their architecture and training datasets. This variance calls for a more in-depth study of the factors that contribute to the performance differences and how they can be optimized.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# Taylor Expansionによるビデオの展開

Unfolding Videos Dynamics via Taylor Expansion ( http://arxiv.org/abs/2409.02371v1 )

ライセンス: Link先を確認
Siyi Chen, Minkyu Choi, Zesen Zhao, Kuan Han, Qing Qu, Zhongming Liu, (参考訳) 身体運動からインスピレーションを得て、ビデオのための新しい自己教師型動的学習戦略を示す: インスタンス識別のためのビデオ時間差分法(ViDiDi)。 ViDiDiは、シンプルでデータ効率のよい戦略であり、インスタンス識別に基づいて、既存の自己教師付きビデオ表現学習フレームワークに容易に適用できる。 中心となるViDiDiは、フレームシーケンスの様々な時間的デリバティブを通して、ビデオのさまざまな側面を観察する。 これらの微分は、元のフレームとともに、高階微分が高階運動特徴を強調する離散時間における基礎となる連続力学のテイラー級数展開をサポートする。 ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを、バランスの取れた交互学習アルゴリズムに従って学習する。 元のフレームとデリバティブの一貫性のある表現を学習することにより、エンコーダは静的な背景よりも動きの特徴を強調し、元のフレームに隠れたダイナミクスを明らかにする。 したがって、ビデオ表現は動的な特徴によってより分離される。 我々は、既存のインスタンス識別フレームワーク(VICReg、BYOL、SimCLR)にViDiDiを統合し、UCF101やKineticsで事前トレーニングを行い、ビデオ検索、アクション認識、アクション検出などの標準ベンチマークでテストする。 大規模なモデルや広範なデータセットを必要とせずに、大幅なマージンでパフォーマンスが向上する。

Taking inspiration from physical motion, we present a new self-supervised dynamics learning strategy for videos: Video Time-Differentiation for Instance Discrimination (ViDiDi). ViDiDi is a simple and data-efficient strategy, readily applicable to existing self-supervised video representation learning frameworks based on instance discrimination. At its core, ViDiDi observes different aspects of a video through various orders of temporal derivatives of its frame sequence. These derivatives, along with the original frames, support the Taylor series expansion of the underlying continuous dynamics at discrete times, where higher-order derivatives emphasize higher-order motion features. ViDiDi learns a single neural network that encodes a video and its temporal derivatives into consistent embeddings following a balanced alternating learning algorithm. By learning consistent representations for original frames and derivatives, the encoder is steered to emphasize motion features over static backgrounds and uncover the hidden dynamics in original frames. Hence, video representations are better separated by dynamic features. We integrate ViDiDi into existing instance discrimination frameworks (VICReg, BYOL, and SimCLR) for pretraining on UCF101 or Kinetics and test on standard benchmarks including video retrieval, action recognition, and action detection. The performances are enhanced by a significant margin without the need for large models or extensive datasets.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 制御可能な画像編集のための拡散モデルにおける低次元部分空間の探索

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing ( http://arxiv.org/abs/2409.02374v1 )

ライセンス: Link先を確認
Siyi Chen, Huijie Zhang, Minzhe Guo, Yifu Lu, Peng Wang, Qing Qu, (参考訳) 近年、拡散モデルは生成モデルの強力なクラスとして現れている。 彼らの成功にもかかわらず、セマンティック空間についてはまだ理解が限られている。 これにより、特に教師なしの方法で、追加のトレーニングをすることなく、正確で不整合の画像生成を実現することが困難になる。 本研究では,(1)拡散モデルにおける学習後平均予測器 (PMP) は局所線型であり,(2) ヤコビアンの特異ベクトルは低次元のセマンティック部分空間にある。 我々は、PMPの線形性と低ランク性を正当化する確固たる理論的基礎を提供する。 これらの知見により、拡散モデルにおける正確な局所的編集のための、教師なし、トレーニング不要なLOCO-rank Conntrollable Image Editor (LOCO Edit) 法を提案することができる。 LOCO Editは、均一性、転送可能性、構成可能性、線形性といった優れた特性を持つ編集方向を特定した。 これらのLOCO Editの特性は、低次元の意味部分空間から大いに恩恵を受ける。 本手法は,テキスト間拡散モデル(T-LOCO Edit)において,教師なしあるいはテキストによる編集に拡張することができる。 最後に、大規模な実験によりLOCO編集の有効性と効率が示された。 コードはhttps://github.com/ChicyChen/LOCO-Editで公開される。

Recently, diffusion models have emerged as a powerful class of generative models. Despite their success, there is still limited understanding of their semantic spaces. This makes it challenging to achieve precise and disentangled image generation without additional training, especially in an unsupervised way. In this work, we improve the understanding of their semantic spaces from intriguing observations: among a certain range of noise levels, (1) the learned posterior mean predictor (PMP) in the diffusion model is locally linear, and (2) the singular vectors of its Jacobian lie in low-dimensional semantic subspaces. We provide a solid theoretical basis to justify the linearity and low-rankness in the PMP. These insights allow us to propose an unsupervised, single-step, training-free LOw-rank COntrollable image editing (LOCO Edit) method for precise local editing in diffusion models. LOCO Edit identified editing directions with nice properties: homogeneity, transferability, composability, and linearity. These properties of LOCO Edit benefit greatly from the low-dimensional semantic subspace. Our method can further be extended to unsupervised or text-supervised editing in various text-to-image diffusion models (T-LOCO Edit). Finally, extensive empirical experiments demonstrate the effectiveness and efficiency of LOCO Edit. The codes will be released at https://github.com/ChicyChen/LOCO-Edit.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# プライバシに精通した大規模言語モデル : コンプライアンスとプライバシ技術レビューを事例として

How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review ( http://arxiv.org/abs/2409.02375v1 )

ライセンス: Link先を確認
Xichou Zhu, Yang Liu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Bolong Yang, Manman Wang, Zongxing Xie, Peng Liu, Dan Cai, Junhui Wang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、言語生成、要約、複雑な質問応答など、様々な分野に応用を拡大している。 しかし、プライバシコンプライアンスや技術的なプライバシレビューに対する彼らの適用は未定であり、グローバルなプライバシ標準に準拠し、機密性の高いユーザデータを保護する能力に関する重要な懸念を提起している。 本稿では、プライバシ情報抽出(PIE)、法的および規制的キーポイント検出(KPD)、質問応答(QA)などのプライバシー関連タスクにおけるLCMのパフォーマンスを評価する総合的なケーススタディを提供することにより、このギャップに対処することを目的とする。 我々はプライバシ技術レビュー(PTR)フレームワークを導入し、ソフトウェア開発ライフサイクルにおけるプライバシリスク軽減におけるその役割を強調した。 本稿では, BERT, GPT-3.5, GPT-4, カスタムモデルなど, プライバシコンプライアンスチェックや技術プライバシレビューの実行能力について検討する。 実験では,プライバシに敏感な情報を抽出し,重要な規制コンプライアンスポイントを検出する上で,モデルの精度,リコール,F1スコアに着目して,複数の次元にわたってモデルをベンチマークした。 LLMは、プライバシーレビューの自動化と規制上の相違点の特定を約束する一方で、法律標準の進化に完全に準拠する能力において、大きなギャップが持続している。 我々は、プライバシーコンプライアンスにおけるLCMの能力を高めるための実用的なレコメンデーションを提供し、堅牢なモデル改善の必要性を強調し、法的および規制上の要件との統合を改善します。 本研究は、コンプライアンスの取り組みとユーザプライバシの権利の保護を両立できる、プライバシを意識したLCMを開発することの重要性の高まりを浮き彫りにしている。

The recent advances in large language models (LLMs) have significantly expanded their applications across various fields such as language generation, summarization, and complex question answering. However, their application to privacy compliance and technical privacy reviews remains under-explored, raising critical concerns about their ability to adhere to global privacy standards and protect sensitive user data. This paper seeks to address this gap by providing a comprehensive case study evaluating LLMs' performance in privacy-related tasks such as privacy information extraction (PIE), legal and regulatory key point detection (KPD), and question answering (QA) with respect to privacy policies and data protection regulations. We introduce a Privacy Technical Review (PTR) framework, highlighting its role in mitigating privacy risks during the software development life-cycle. Through an empirical assessment, we investigate the capacity of several prominent LLMs, including BERT, GPT-3.5, GPT-4, and custom models, in executing privacy compliance checks and technical privacy reviews. Our experiments benchmark the models across multiple dimensions, focusing on their precision, recall, and F1-scores in extracting privacy-sensitive information and detecting key regulatory compliance points. While LLMs show promise in automating privacy reviews and identifying regulatory discrepancies, significant gaps persist in their ability to fully comply with evolving legal standards. We provide actionable recommendations for enhancing LLMs' capabilities in privacy compliance, emphasizing the need for robust model improvements and better integration with legal and regulatory requirements. This study underscores the growing importance of developing privacy-aware LLMs that can both support businesses in compliance efforts and safeguard user privacy rights.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# バーチャルリアリティー応用のための単一画像からのコーラルモデル生成

Coral Model Generation from Single Images for Virtual Reality Applications ( http://arxiv.org/abs/2409.02376v1 )

ライセンス: Link先を確認
Jie Fu, Shun Fu, Mick Grierson, (参考訳) VR技術の急速な発展に伴い、高品質な3Dモデルの需要が高まっている。 伝統的な手法は、大規模なカスタマイズにおいて効率と品質に苦しむ。 本稿では,1つの画像から高精度な3次元サンゴモデルを生成するディープラーニングフレームワークを提案する。 Coralデータセットを使用して、このフレームワークは幾何学的特徴とテクスチャ的特徴を抽出し、3D再構成を行い、設計と材料ブレンディングを最適化する。 高度な最適化とポリゴンカウントコントロールにより、さまざまな複雑さに対する形状精度、詳細保持、フレキシブルアウトプットが保証され、高品質なレンダリングとリアルタイムインタラクションのニーズに対応している。このプロジェクトには、説明可能なAI(XAI)が組み込まれ、AI生成モデルをVRやXRでよく見られるインタラクティブな"アートワーク"に変換する。 これにより、モデル解釈可能性と人間と機械の協調性が向上する。 VRインタラクションにおけるリアルタイムフィードバックは、サンゴ種や生息地などの情報を表示し、ユーザーエクスペリエンスを豊かにする。 生成されたモデルは、細部、視覚的品質、効率性において従来の手法を上回ります。 この研究は、VRのための3Dコンテンツ作成に対するインテリジェントなアプローチを提供し、生産障壁を低くし、幅広いVRアプリケーションを促進する。 さらに、XAIを統合することで、AI生成した視覚コンテンツに対する新たな洞察が得られ、3D視覚の解釈可能性の研究が進められる。

With the rapid development of VR technology, the demand for high-quality 3D models is increasing. Traditional methods struggle with efficiency and quality in large-scale customization. This paper introduces a deep-learning framework that generates high-precision 3D coral models from a single image. Using the Coral dataset, the framework extracts geometric and texture features, performs 3D reconstruction, and optimizes design and material blending. Advanced optimization and polygon count control ensure shape accuracy, detail retention, and flexible output for various complexities, catering to high-quality rendering and real-time interaction needs.The project incorporates Explainable AI (XAI) to transform AI-generated models into interactive "artworks," best viewed in VR and XR. This enhances model interpretability and human-machine collaboration. Real-time feedback in VR interactions displays information like coral species and habitat, enriching user experience. The generated models surpass traditional methods in detail, visual quality, and efficiency. This research offers an intelligent approach to 3D content creation for VR, lowering production barriers, and promoting widespread VR applications. Additionally, integrating XAI provides new insights into AI-generated visual content and advances research in 3D vision interpretability.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# GGS: 自動運転におけるレーンスイッチングのための一般化可能なガウススティング

GGS: Generalizable Gaussian Splatting for Lane Switching in Autonomous Driving ( http://arxiv.org/abs/2409.02382v1 )

ライセンス: Link先を確認
Huasong Han, Kaixuan Zhou, Xiaoxiao Long, Yusen Wang, Chunxia Xiao, (参考訳) GGSは,大局的な視点変化下で現実的なレンダリングを実現することのできる,一般化可能な自律運転用ガウス切削法である。 従来の一般化可能な3次元ガウススプラッティング法は、視点の大きな違いに対処できない、元の2つの画像に非常に近い新しいビューのレンダリングに限られている。 特に自動運転のシナリオでは、画像は通常、1車線から収集される。 限られたトレーニングの観点は、異なるレーンの画像のレンダリングを非常に困難にします。 GGSのレンダリング能力を大幅に向上させるため,マルチレーンデータセットを使わずに高品質なレーン切替を実現するため,新しい仮想レーン生成モジュールをGAS方式に導入した。 さらに,仮想車線画像の生成を監督する拡散損失を設計し,仮想車線におけるデータ不足の問題に対処する。 最後に, GSSモデルにおける深度推定を最適化する深度修正モジュールを提案する。 提案手法の大規模検証は,既存手法と比較して,最先端の性能を示すものである。

We propose GGS, a Generalizable Gaussian Splatting method for Autonomous Driving which can achieve realistic rendering under large viewpoint changes. Previous generalizable 3D gaussian splatting methods are limited to rendering novel views that are very close to the original pair of images, which cannot handle large differences in viewpoint. Especially in autonomous driving scenarios, images are typically collected from a single lane. The limited training perspective makes rendering images of a different lane very challenging. To further improve the rendering capability of GGS under large viewpoint changes, we introduces a novel virtual lane generation module into GSS method to enables high-quality lane switching even without a multi-lane dataset. Besides, we design a diffusion loss to supervise the generation of virtual lane image to further address the problem of lack of data in the virtual lanes. Finally, we also propose a depth refinement module to optimize depth estimation in the GSS model. Extensive validation of our method, compared to existing approaches, demonstrates state-of-the-art performance.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# STAB:音声トケナイザ評価ベンチマーク

STAB: Speech Tokenizer Assessment Benchmark ( http://arxiv.org/abs/2409.02384v1 )

ライセンス: Link先を確認
Shikhar Vashishth, Harman Singh, Shikhar Bharadwaj, Sriram Ganapathy, Chulayuth Asawaroengchai, Kartik Audhkhasi, Andrew Rosenberg, Ankur Bapna, Bhuvana Ramabhadran, (参考訳) 音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供し、広く成功した大言語モデル(LLM)への入力として音声を使用することを可能にする。 現在、いくつかの音声トークン化器が提案されているが、特定の下流タスクに対するトークン化器から要求される特性とその全体的な一般化可能性についてあいまいさがある。 さまざまなダウンストリームタスクにわたるトークン処理のパフォーマンスを評価することは、スケーラビリティの課題を提起する計算集約的な取り組みである。 この要件を回避するため,STAB (Speech Tokenizer Assessment Benchmark) を提案する。 このフレームワークは、音声トークン化の基盤となるメカニズムをより深く理解し、将来のトークン化モデルの進歩を早めるための貴重なリソースを提供し、標準化されたベンチマークによる比較分析を可能にする。 我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。

Representing speech as discrete tokens provides a framework for transforming speech into a format that closely resembles text, thus enabling the use of speech as an input to the widely successful large language models (LLMs). Currently, while several speech tokenizers have been proposed, there is ambiguity regarding the properties that are desired from a tokenizer for specific downstream tasks and its overall generalizability. Evaluating the performance of tokenizers across different downstream tasks is a computationally intensive effort that poses challenges for scalability. To circumvent this requirement, we present STAB (Speech Tokenizer Assessment Benchmark), a systematic evaluation framework designed to assess speech tokenizers comprehensively and shed light on their inherent characteristics. This framework provides a deeper understanding of the underlying mechanisms of speech tokenization, thereby offering a valuable resource for expediting the advancement of future tokenizer models and enabling comparative analysis using a standardized benchmark. We evaluate the STAB metrics and correlate this with downstream task performance across a range of speech tasks and tokenizer choices.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# 人間活動認識のためのモダリティ間の一貫性を持った統一フレームワーク

Unified Framework with Consistency across Modalities for Human Activity Recognition ( http://arxiv.org/abs/2409.02385v1 )

ライセンス: Link先を確認
Tuyen Tran, Thao Minh Le, Hung Tran, Truyen Tran, (参考訳) ビデオにおける人間の活動を認識することは、人間の相互作用の時空間的複雑さと文脈依存性のために困難である。 以前の研究では、RGBや骨格データのような単一の入力モダリティに頼り、モダリティ間の相補的な利点を利用する能力を制限することが多かった。 最近の研究は、これらの2つのモダリティを単純な特徴融合技術で組み合わせることに重点を置いている。 しかしながら、これらの入力モダリティ間の表現に固有の相違があるため、補完的な情報を効果的に活用する統合ニューラルネットワークアーキテクチャを設計することは大きな課題である。 そこで本稿では,ロバストビデオに基づく人間行動認識のための総合的マルチモーダルフレームワークを提案する。 我々の重要な貢献はComputer ("\textbf{COMP}ositional h\textbf{U}man-cen\textbf{T}ric qu\textbf{ER}y$ machine")と呼ばれる新しい合成クエリマシンの導入である。 汎用設計により、Computerは様々な入力モードの表現を蒸留するために利用することができる。 さらに,マルチモーダル入力からの相補的な情報を利用して,頑健な人間の動作認識を実現することで,モダリティ間の予測に合意を強制する一貫性損失を導入する。 アクションローカライゼーションとグループアクティビティ認識タスクの広範な実験を通じて,本手法は最先端手法と比較して優れた性能を示す。 私たちのコードは、https://github.com/tranxuantuyen/COMPUTER.comで利用可能です。

Recognizing human activities in videos is challenging due to the spatio-temporal complexity and context-dependence of human interactions. Prior studies often rely on single input modalities, such as RGB or skeletal data, limiting their ability to exploit the complementary advantages across modalities. Recent studies focus on combining these two modalities using simple feature fusion techniques. However, due to the inherent disparities in representation between these input modalities, designing a unified neural network architecture to effectively leverage their complementary information remains a significant challenge. To address this, we propose a comprehensive multimodal framework for robust video-based human activity recognition. Our key contribution is the introduction of a novel compositional query machine, called COMPUTER ($\textbf{COMP}ositional h\textbf{U}man-cen\textbf{T}ric qu\textbf{ER}y$ machine), a generic neural architecture that models the interactions between a human of interest and its surroundings in both space and time. Thanks to its versatile design, COMPUTER can be leveraged to distill distinctive representations for various input modalities. Additionally, we introduce a consistency loss that enforces agreement in prediction between modalities, exploiting the complementary information from multimodal inputs for robust human movement recognition. Through extensive experiments on action localization and group activity recognition tasks, our approach demonstrates superior performance when compared with state-of-the-art methods. Our code is available at: https://github.com/tranxuantuyen/COMPUTER.
翻訳日:2024-09-05 20:41:08 公開日:2024-09-04
# EthereumによるPayloadベースのトランザクションフィッシングの分離

Dissecting Payload-based Transaction Phishing on Ethereum ( http://arxiv.org/abs/2409.02386v1 )

ライセンス: Link先を確認
Zhuo Chen, Yufeng Hu, Bowen He, Dong Luo, Lei Wu, Yajin Zhou, (参考訳) 近年では、Ethereum上でより高度なフィッシングが生まれ、アーリーステージの単純なトランザクションフィッシングを超越している。 この新たな形式は、ペイロードベースのトランザクションフィッシング(PTXPHISH)と呼ばれ、悪意のあるペイロードの実行を通じて、ユーザを騙すスマートコントラクトインタラクションを操作する。 PTXPHISHは急速に重大な脅威となり、2023年の報告書では7000万ドルを超える損失を招いた。 本報告では,PTXPHISHの系統的な研究は行われていないが,本研究は,EthereumにおけるPTXPHISHの包括的研究としては初めてである。 まず,5千のフィッシングトランザクションからなるPTXPHISHデータセットの構築に,長期的データ収集を行い,その構築に多大な努力を払っている。 データセットに基づいてPTXPHISHを識別し、フィッシング戦術を4つの主要カテゴリと11のサブカテゴリに分類する。 次に,PTXPHISHを同定するためのルールベース多次元検出手法を提案する。 最後に、我々は300日間にわたる大規模な検出を行い、Ethereum上で合計130,637のフィッシングトランザクションを発見しました。 これらのフィッシング取引を詳細に分析した結果、価値があり洞察に富んだ結果が得られました。 さらに、我々の研究は現実世界の脅威の軽減に多大な貢献をしている。 我々はコミュニティに1,726のフィッシングアドレスを報告し、同時期にコミュニティ全体の貢献の42.7%を占めた。 さらに、2,539件のオンチェーンアラートメッセージを送信し、1,980件の被害者を支援しました。 この研究は、新しいPTXPHISHとの戦いとユーザーの資産の保護において貴重な参考となる。

In recent years, a more advanced form of phishing has arisen on Ethereum, surpassing early-stage, simple transaction phishing. This new form, which we refer to as payload-based transaction phishing (PTXPHISH), manipulates smart contract interactions through the execution of malicious payloads to deceive users. PTXPHISH has rapidly emerged as a significant threat, leading to incidents that caused losses exceeding \$70 million in 2023 reports. Despite its substantial impact, no previous studies have systematically explored PTXPHISH In this paper, we present the first comprehensive study of the PTXPHISH on Ethereum. Firstly, we conduct a long-term data collection and put considerable effort into establishing the first ground-truth PTXPHISH dataset, consisting of 5,000 phishing transactions. Based on the dataset, we dissect PTXPHISH, categorizing phishing tactics into four primary categories and eleven sub-categories. Secondly, we propose a rule-based multi-dimensional detection approach to identify PTXPHISH, achieving over 99% accuracy in the ground-truth dataset. Finally, we conducted a large-scale detection spanning 300 days and discovered a total of 130,637 phishing transactions on Ethereum, resulting in losses exceeding $341.9 million. Our in-depth analysis of these phishing transactions yielded valuable and insightful findings. Furthermore, our work has made significant contributions to mitigating real-world threats. We have reported 1,726 phishing addresses to the community, accounting for 42.7% of total community contributions during the same period. Additionally, we have sent 2,539 on-chain alert messages, assisting 1,980 victims. This research serves as a valuable reference in combating the emerging PTXPHISH and safeguarding users' assets.
翻訳日:2024-09-05 20:25:22 公開日:2024-09-04
# 大規模言語モデルと認知科学 : 類似性・相違・課題の包括的考察

Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges ( http://arxiv.org/abs/2409.02387v1 )

ライセンス: Link先を確認
Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen, (参考訳) この総合的なレビューでは、LLMと人間の認知過程の類似点と相違点について、Large Language Models(LLM)と認知科学の交わりについて考察する。 我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。 このレビューでは、認知科学研究で得られた知見を取り上げ、様々な認知分野におけるLLMの応用を取り上げている。 我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。 LLMと認知アーキテクチャの統合について検討し、人工知能(AI)能力を向上するための有望な道を明らかにする。 主要な課題と今後の研究方向が特定され、人間の認知とよりよく整合するLLMの継続的な改良の必要性を強調している。 このレビューは、人工知能と人間の知性の両方の理解を深める上で、LLMの現状と将来の可能性について、バランスのとれた視点を提供する。

This comprehensive review explores the intersection of Large Language Models (LLMs) and cognitive science, examining similarities and differences between LLMs and human cognitive processes. We analyze methods for evaluating LLMs cognitive abilities and discuss their potential as cognitive models. The review covers applications of LLMs in various cognitive fields, highlighting insights gained for cognitive science research. We assess cognitive biases and limitations of LLMs, along with proposed methods for improving their performance. The integration of LLMs with cognitive architectures is examined, revealing promising avenues for enhancing artificial intelligence (AI) capabilities. Key challenges and future research directions are identified, emphasizing the need for continued refinement of LLMs to better align with human cognition. This review provides a balanced perspective on the current state and future potential of LLMs in advancing our understanding of both artificial and human intelligence.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# ガウス速度歪み知覚符号化とエントロピー制約スカラー量子化

Gaussian Rate-Distortion-Perception Coding and Entropy-Constrained Scalar Quantization ( http://arxiv.org/abs/2409.02388v1 )

ライセンス: Link先を確認
Li Xie, Liangyan Li, Jun Chen, Lei Yu, Zhongshan Zhang, (参考訳) 本稿では,Kulback-Leibler の発散に基づく知覚測度と,最近 Xie らによって確立された二乗ワッサーシュタイン-2 距離ベース知覚測度との共通ランダム性に制限された2次ガウス歪み率知覚関数の最もよく知られた境界について検討する。 一方、認識測度が正方形ワッサーシュタイン2距離によって与えられると、改善された下界が確立される。 さらに、速度歪み知覚符号化とエントロピー制約付きスカラー量子化の接続を利用して、上記のすべての境界は、一般的に弱い知覚制約状態において厳密でないことを明らかにした。

This paper investigates the best known bounds on the quadratic Gaussian distortion-rate-perception function with limited common randomness for the Kullback-Leibler divergence-based perception measure, as well as their counterparts for the squared Wasserstein-2 distance-based perception measure, recently established by Xie et al. These bounds are shown to be nondegenerate in the sense that they cannot be deduced from each other via a refined version of Talagrand's transportation inequality. On the other hand, an improved lower bound is established when the perception measure is given by the squared Wasserstein-2 distance. In addition, it is revealed by exploiting the connection between rate-distortion-perception coding and entropy-constrained scalar quantization that all the aforementioned bounds are generally not tight in the weak perception constraint regime.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 3次元シーンにおけるマルチモーダルな推論

Multi-modal Situated Reasoning in 3D Scenes ( http://arxiv.org/abs/2409.02389v1 )

ライセンス: Link先を確認
Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong Jia, Siyuan Huang, (参考訳) 環境認識は、具体化されたAIエージェントの3Dシーンの理解と推論に不可欠である。 しかし、位置理解のための既存のデータセットとベンチマークは、データモダリティ、多様性、スケール、タスクスコープに制限されている。 これらの制約に対処するため,大規模なマルチモーダル位置推論データセットであるMulti-modal Situated Question Answering (MSQA)を提案する。 MSQAには、9つの異なる質問カテゴリにまたがる251Kの質問答えペアが含まれており、複雑なシナリオを3Dシーンでカバーしている。 本ベンチマークでは,テキスト,画像,ポイントクラウドを,従来の単一モダリティ規約(テキストなど)の曖昧さを解消する,新たなインターリーブ型マルチモーダル入力設定を導入する。 さらに,MSNN(Multi-modal Situated Next-step Navigation)ベンチマークを考案し,ナビゲーションのためのモデルの位置的推論を評価する。 MSQAとMSNNの総合的な評価は、既存の視覚言語モデルの限界を強調し、マルチモーダルなインターリーブ入力と状況モデリングを扱うことの重要性を強調している。 データスケーリングとクロスドメイン転送の実験は、より強力な位置推論モデルを開発するための事前トレーニングデータセットとしてMSQAを活用する効果をさらに示している。

Situation awareness is essential for understanding and reasoning about 3D scenes in embodied AI agents. However, existing datasets and benchmarks for situated understanding are limited in data modality, diversity, scale, and task scope. To address these limitations, we propose Multi-modal Situated Question Answering (MSQA), a large-scale multi-modal situated reasoning dataset, scalably collected leveraging 3D scene graphs and vision-language models (VLMs) across a diverse range of real-world 3D scenes. MSQA includes 251K situated question-answering pairs across 9 distinct question categories, covering complex scenarios within 3D scenes. We introduce a novel interleaved multi-modal input setting in our benchmark to provide text, image, and point cloud for situation and question description, resolving ambiguity in previous single-modality convention (e.g., text). Additionally, we devise the Multi-modal Situated Next-step Navigation (MSNN) benchmark to evaluate models' situated reasoning for navigation. Comprehensive evaluations on MSQA and MSNN highlight the limitations of existing vision-language models and underscore the importance of handling multi-modal interleaved inputs and situation modeling. Experiments on data scaling and cross-domain transfer further demonstrate the efficacy of leveraging MSQA as a pre-training dataset for developing more powerful situated reasoning models.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 視覚決定過程のニューラルダイナミクスモデル:人間専門家から学ぶ

Neural Dynamics Model of Visual Decision-Making: Learning from Human Experts ( http://arxiv.org/abs/2409.02390v1 )

ライセンス: Link先を確認
Jie Su, Fang Cai, Shu-Kuo Zhao, Xin-Yi Wang, Tian-Yi Qian, Da-Hui Wang, Bo Hong, (参考訳) バイオインテリジェンスの基本的神経相関を解明し、数学的モデルを開発し、計算シミュレーションを実行することは、人工知能(AI)の新しいパラダイムを進める上で重要である。 本研究では、ニューラル・ダイナミクス・モデリング・アプローチを用いて、視覚入力から行動出力にまたがる包括的視覚決定モデルを実装した。 霊長類における背側視覚経路の重要な要素からインスピレーションを得て、我々のモデルは人間の行動と密接に一致するだけでなく、霊長類の神経活動も反映し、畳み込みニューラルネットワーク(CNN)に匹敵する精度を達成する。 さらに、MRI(MRI)は、構造的接続や機能的接続といった、知覚的意思決定タスクのパフォーマンスに関連する重要な神経画像の特徴を特定した。 ニューロイメージング・インフォームド・ファインチューニング手法を導入し、モデルに適用し、被験者間で観察された行動変化と平行な性能改善を実現した。 従来のディープラーニングモデルと比較して,我々のモデルは生物学的知能の行動特性をより正確に再現し,広範囲なトレーニングデータではなく,生物学的ニューラルネットワークの構造的特性に依存し,摂動に対するレジリエンスの向上を示す。

Uncovering the fundamental neural correlates of biological intelligence, developing mathematical models, and conducting computational simulations are critical for advancing new paradigms in artificial intelligence (AI). In this study, we implemented a comprehensive visual decision-making model that spans from visual input to behavioral output, using a neural dynamics modeling approach. Drawing inspiration from the key components of the dorsal visual pathway in primates, our model not only aligns closely with human behavior but also reflects neural activities in primates, and achieving accuracy comparable to convolutional neural networks (CNNs). Moreover, magnetic resonance imaging (MRI) identified key neuroimaging features such as structural connections and functional connectivity that are associated with performance in perceptual decision-making tasks. A neuroimaging-informed fine-tuning approach was introduced and applied to the model, leading to performance improvements that paralleled the behavioral variations observed among subjects. Compared to classical deep learning models, our model more accurately replicates the behavioral performance of biological intelligence, relying on the structural characteristics of biological neural networks rather than extensive training data, and demonstrating enhanced resilience to perturbation.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 経済生産性のスケーリング法則--LLM助成翻訳における実験的証拠-

Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Translation ( http://arxiv.org/abs/2409.02391v1 )

ライセンス: Link先を確認
Ali Merali, (参考訳) 本稿では,Large Language Model (LLM) に使用されるトレーニング計算量と,その性能との間にある「スケーリング法則」を,経済的な結果に導出する。 事前登録された実験では、300人のプロの翻訳者が13個のLLMのうちの1つにアクセスして1800のタスクを完了した。 その結果、モデルスケーリングは生産性を著しく向上させ、モデル計算が10倍に向上するたびに、翻訳者はタスクを12.3%早く完了し、より高いグレードの0.18秒を受け取り、1分あたり16.1%増(ボーナス支払いを含む)を得た。 さらに, 作業完了速度が4倍向上した低熟練労働者では, モデルスケーリングによる利得がはるかに高い。 これらの結果は、現在年間4倍の伸びと見積もられているフロンティアモデルのスケーリングが、経済的に重大な影響を及ぼす可能性を示唆している。

This paper derives 'scaling laws' -- empirical relationships between the amount of training compute used for a Large Language Model (LLM) and its performance -- for economic outcomes. In a preregistered experiment, 300 professional translators completed 1800 tasks with access to one of thirteen LLMs with differing model training compute sizes (or a control). Our results show that model scaling substantially raises productivity: for every 10x increase in model compute, translators completed tasks 12.3% quicker, received 0.18 s.d. higher grades, and earned 16.1% more per minute (including bonus payments). Further, the gains from model scaling are much higher for lower-skilled workers who gain a 4x larger improvement in task completion speed. These results imply further frontier model scaling -- which is currently estimated at 4x increase per year -- may have significant economic implications.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 多段階反復選好学習を用いた数学エージェントの構築

Building Math Agents with Multi-Turn Iterative Preference Learning ( http://arxiv.org/abs/2409.02392v1 )

ライセンス: Link先を確認
Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu, (参考訳) 近年,大規模な言語モデル (LLM) の数学的問題解決能力は,コードインタプリタなどの外部ツールを統合し,マルチターン・チェーン・オブ・ソート(CoT)推論を採用することで向上することが示されている。 本稿では, 合成データ生成とスーパービジョンファインチューニング(SFT)に着目し, モデル性能向上のための補完的直接選好学習手法について検討する。 しかし、既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されており、ツール統合された数学的推論タスクに必要なマルチターン推論と外部ツール統合の複雑さを完全には解決していない。 このギャップを埋めるために、コードインタプリタからのフィードバックを活用し、軌道レベルの嗜好を最適化するマルチターン直接選好学習フレームワークを導入する。 このフレームワークは、特定の実装としてマルチターンDPOとマルチターンKTOを含む。 本フレームワークの有効性は,GSM8KデータセットとMATHデータセットを用いた拡張プロンプトセットを用いて,様々な言語モデルのトレーニングによって検証される。 調整したGemma-1.1-it-7Bモデルの性能はGSM8Kでは77.5%から83.9%,MATHでは46.1%から51.2%に向上した。 同様に、Gemma-2-it-9BモデルはGSM8Kでは84.1%から86.3%、MATHでは51.0%から54.5%に改善された。

Recent studies have shown that large language models' (LLMs) mathematical problem-solving capabilities can be enhanced by integrating external tools, such as code interpreters, and employing multi-turn Chain-of-Thought (CoT) reasoning. While current methods focus on synthetic data generation and Supervised Fine-Tuning (SFT), this paper studies the complementary direct preference learning approach to further improve model performance. However, existing direct preference learning algorithms are originally designed for the single-turn chat task, and do not fully address the complexities of multi-turn reasoning and external tool integration required for tool-integrated mathematical reasoning tasks. To fill in this gap, we introduce a multi-turn direct preference learning framework, tailored for this context, that leverages feedback from code interpreters and optimizes trajectory-level preferences. This framework includes multi-turn DPO and multi-turn KTO as specific implementations. The effectiveness of our framework is validated through training of various language models using an augmented prompt set from the GSM8K and MATH datasets. Our results demonstrate substantial improvements: a supervised fine-tuned Gemma-1.1-it-7B model's performance increased from 77.5% to 83.9% on GSM8K and from 46.1% to 51.2% on MATH. Similarly, a Gemma-2-it-9B model improved from 84.1% to 86.3% on GSM8K and from 51.0% to 54.5% on MATH.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 深層学習を用いた言語族の決定

Determination of language families using deep learning ( http://arxiv.org/abs/2409.02393v1 )

ライセンス: Link先を確認
Peter B. Lerner, (参考訳) 我々は,c-GAN (convolutional generative adversarial) ニューラルネットワークを用いて,言語親和性を確立するために,既存,致命的,非解読的(Cypro-Minoan)言語を翻訳したテキスト断片を解析した。 本論文は翻訳及び/または解読に関して無知である。 しかし、提案手法はより洗練されたニューラルネットワーク技術を用いて解読するのに有用であると期待されている。

We use a c-GAN (convolutional generative adversarial) neural network to analyze transliterated text fragments of extant, dead comprehensible, and one dead non-deciphered (Cypro-Minoan) language to establish linguistic affinities. The paper is agnostic with respect to translation and/or deciphering. However, there is hope that the proposed approach can be useful for decipherment with more sophisticated neural network techniques.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# スピンボゴリューボフ・ハミルトニアンによるハイゼンベルク極限スピンスキーズ

Heisenberg-limit spin squeezing with spin Bogoliubov Hamiltonian ( http://arxiv.org/abs/2409.02402v1 )

ライセンス: Link先を確認
Jun Zhang, Sheng Chang, Wenxian Zhang, (参考訳) 一軸回転するハミルトニアンの下での最適スピンスクイーズは、クエンチ力学の後に相互作用する原子に対して$J^{-2/3}$のスケーリング法則に従うことがよく確立されている。 ここでは、一軸回転するハミルトニアン基底状態のスピンが実際にハイゼンベルク極限$J^{-1}$に達することを解析的および数値的に証明する。 双線型ボゴリューボフ・ハミルトン作用素を昇降スピン作用素で構成することにより、一軸ねじれハミルトン多様体を極限ケースとして含むスピン・ボゴリューボフ・ハミルトン作用素を正確に対角化する。 スピンの基底状態であるボゴリューボフ・ハミルトニアンは、一軸ねじれハミルトニアンの場合、ハイゼンベルク極限に近づく素晴らしいスピンスクイーズを示す。 双極子スピナー凝縮体、光学格子中の超低温原子、空洞内のスピン、気相セル内のアルカリ原子における1軸回転ハミルトンのスピン圧縮基底状態を実験的に実現することが可能である。

It is well established that the optimal spin squeezing under a one-axis-twisting Hamiltonian follows a scaling law of $J^{-2/3}$ for $J$ interacting atoms after a quench dynamics. Here we prove analytically and numerically that the spin squeezing of the ground state of the one-axis-twisting Hamiltonian actually reaches the Heisenberg limit $J^{-1}$. By constructing a bilinear Bogoliubov Hamiltonian with the raising and lowering spin operators, we exactly diagonalize the spin Bogoliubov Hamiltonian, which includes the one-axis twisting Hamiltonian as a limiting case. The ground state of the spin Bogoliubov Hamiltonian exhibits wonderful spin squeezing, which approaches to the Heisenberg limit in the case of the one-axis twisting Hamiltonian. It is possible to realize experimentally the spin squeezed ground state of the one-axis-twisting Hamiltonian in dipolar spinor condensates, ultracold atoms in optical lattices, spins in a cavity, or alkali atoms in a vapor cell.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 識別的生成蒸留による学生ネットワークのプライバシー保護学習

Learning Privacy-Preserving Student Networks via Discriminative-Generative Distillation ( http://arxiv.org/abs/2409.02404v1 )

ライセンス: Link先を確認
Shiming Ge, Bochao Liu, Pengju Wang, Yong Li, Dan Zeng, (参考訳) ディープモデルは、大量の注釈付きデータから豊富な知識を学習することに成功したが、実践的なデプロイメントにおいてプライバシー漏洩のリスクが生じる可能性がある。 高いユーティリティと強力なプライバシの間の効果的なトレードオフを見つける必要があります。 本研究では,プライバシ保存深度モデル学習のための識別・生成蒸留手法を提案する。 私たちのキーとなるアイデアは、モデルをブリッジとして、プライベートデータから知識を抽出し、それを2つのストリームで学習する学生ネットワークに転送することです。 まず、差別的ストリームは、それぞれ、プライベートデータに基づくベースライン分類器と、複数の非結合なプライベートサブセット上の教師のアンサンブルを訓練する。 そして、生成ストリームは、分類器を固定判別器として、データフリーでジェネレータを訓練する。 その後、このジェネレータを使用して大量の合成データを生成し、変分オートエンコーダ(VAE)を訓練する。 これらの合成データのうち、いくつかは教師のアンサンブルに送られ、差分的にプライベートアグリゲーションを通じてラベルを問い合わせるが、そのほとんどは合成データを再構築するために訓練されたVAEに埋め込まれている。 最後に, 教師からの知識の伝達と, 教師からの知識の伝達と, 教師からの知識の伝達を同時に行う。 このようにして、我々の手法は、プライベートデータに対するクエリコストを制御し、精度の低下を統一的に軽減し、プライバシー保護の学生モデルに繋がる。 大規模な実験と分析により,提案手法の有効性が明らかとなった。

While deep models have proved successful in learning rich knowledge from massive well-annotated data, they may pose a privacy leakage risk in practical deployment. It is necessary to find an effective trade-off between high utility and strong privacy. In this work, we propose a discriminative-generative distillation approach to learn privacy-preserving deep models. Our key idea is taking models as bridge to distill knowledge from private data and then transfer it to learn a student network via two streams. First, discriminative stream trains a baseline classifier on private data and an ensemble of teachers on multiple disjoint private subsets, respectively. Then, generative stream takes the classifier as a fixed discriminator and trains a generator in a data-free manner. After that, the generator is used to generate massive synthetic data which are further applied to train a variational autoencoder (VAE). Among these synthetic data, a few of them are fed into the teacher ensemble to query labels via differentially private aggregation, while most of them are embedded to the trained VAE for reconstructing synthetic data. Finally, a semi-supervised student learning is performed to simultaneously handle two tasks: knowledge transfer from the teachers with distillation on few privately labeled synthetic data, and knowledge enhancement with tangent-normal adversarial regularization on many triples of reconstructed synthetic data. In this way, our approach can control query cost over private data and mitigate accuracy degradation in a unified manner, leading to a privacy-preserving student model. Extensive experiments and analysis clearly show the effectiveness of the proposed approach.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# Hadamard Row-Wise 生成アルゴリズム

Hadamard Row-Wise Generation Algorithm ( http://arxiv.org/abs/2409.02406v1 )

ライセンス: Link先を確認
Brayan Monroy, Jorge Bacca, (参考訳) 本稿では,行列全体を前処理するメモリ要求に対処する,特定のアダマール列を生成する効率的なアルゴリズムを提案する。 本稿では,Sylvester の再帰的構成を活用することで,必要な$i$-th 行をオンデマンドに生成し,計算資源を大幅に削減する。 このアルゴリズムはクロネッカー積を用いて、完全な行列を生成することなく、インデックスのバイナリ表現から所望の行を構築する。 このアプローチは、一度に1行しか必要としない単一ピクセルイメージングシステムに特に有用である。

In this paper, we introduce an efficient algorithm for generating specific Hadamard rows, addressing the memory demands of pre-computing the entire matrix. Leveraging Sylvester's recursive construction, our method generates the required $i$-th row on demand, significantly reducing computational resources. The algorithm uses the Kronecker product to construct the desired row from the binary representation of the index, without creating the full matrix. This approach is particularly useful for single-pixel imaging systems that need only one row at a time.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# Adaptive Class Emergence Training:プログレッシブターゲット進化によるニューラルネットワークの安定性と一般化の促進

Adaptive Class Emergence Training: Enhancing Neural Network Stability and Generalization through Progressive Target Evolution ( http://arxiv.org/abs/2409.02410v1 )

ライセンス: Link先を確認
Jaouad Dabounou, (参考訳) 人工知能、特にディープニューラルネットワークの最近の進歩は、複雑なタスクで達成可能な領域の境界を押し上げている。 分類問題におけるニューラルネットワークのトレーニング方法は、1ホット符号化ベクターのような静的な目標出力に依存することが多く、不安定な最適化とデータ内の非線形性を扱うのが困難になる可能性がある。 本稿では,Nullベクトルから1ホット符号化ベクトルへの目標出力を,学習過程を通じて段階的に進化させる新たなトレーニング手法を提案する。 この段階的な遷移により、ネットワークは分類タスクの複雑さの増大によりスムーズに適応し、過度な適合のリスクを低減し、一般化を促進する平衡状態を維持することができる。 有限要素解析における構造平衡の概念から着想を得た我々のアプローチは、合成と実世界の両方のデータセットに関する広範な実験を通じて検証されてきた。 提案手法は, 高速収束, 精度の向上, 一般化性の向上を実現している。 このプログレッシブトレーニングフレームワークは、従来の方法に代わる堅牢な代替手段を提供し、より効率的で安定したニューラルネットワークトレーニングのための新たな視点を開放する。

Recent advancements in artificial intelligence, particularly deep neural networks, have pushed the boundaries of what is achievable in complex tasks. Traditional methods for training neural networks in classification problems often rely on static target outputs, such as one-hot encoded vectors, which can lead to unstable optimization and difficulties in handling non-linearities within data. In this paper, we propose a novel training methodology that progressively evolves the target outputs from a null vector to one-hot encoded vectors throughout the training process. This gradual transition allows the network to adapt more smoothly to the increasing complexity of the classification task, maintaining an equilibrium state that reduces the risk of overfitting and enhances generalization. Our approach, inspired by concepts from structural equilibrium in finite element analysis, has been validated through extensive experiments on both synthetic and real-world datasets. The results demonstrate that our method achieves faster convergence, improved accuracy, and better generalization, especially in scenarios with high data complexity and noise. This progressive training framework offers a robust alternative to classical methods, opening new perspectives for more efficient and stable neural network training.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 抽象テキスト要約の現状, 課題, 改善

Abstractive Text Summarization: State of the Art, Challenges, and Improvements ( http://arxiv.org/abs/2409.02413v1 )

ライセンス: Link先を確認
Hassan Shakil, Ahmad Farooq, Jugal Kalita, (参考訳) 特に抽象的なテキスト要約の風景に焦点を当て, 抽出技術とは対照的に, 本調査では, 最先端技術, 普及課題, 今後の研究方向性について概観する。 本稿では,従来のシーケンス・ツー・シーケンス・モデル,事前訓練された大規模言語モデル,強化学習,階層的手法,マルチモーダル要約に分類する。 複雑さ、スケーラビリティ、テクニックの比較を詳細に調べていない以前の研究とは異なり、このレビューは最先端の手法、課題、ソリューション、比較、制限、将来の改善のチャートアップを含む包括的なアプローチを取り、研究者に抽象的な要約研究を進めるための広範な概要を提供する。 モデルの複雑さ、スケーラビリティ、適切なアプリケーションに関する洞察を提供する。 本稿では,不適切な意味表現,事実整合性,制御可能なテキスト要約,言語間要約,評価指標などの課題を強調する。 これらの課題に対処するために、知識の取り込みやその他の革新的な戦略を活用するソリューションが提案されている。 本論文は, 事実整合性, ドメイン固有性, クロスランガル性, 多言語性, 長期ドキュメントの要約などの新興研究分野を取り上げ, ノイズの多いデータを扱うことを特徴とする。 我々の目的は、研究者や実践者がドメインの構造化された概要を提供し、現在の景観をよりよく理解し、さらなる研究と改善のための潜在的な領域を特定できるようにすることである。

Specifically focusing on the landscape of abstractive text summarization, as opposed to extractive techniques, this survey presents a comprehensive overview, delving into state-of-the-art techniques, prevailing challenges, and prospective research directions. We categorize the techniques into traditional sequence-to-sequence models, pre-trained large language models, reinforcement learning, hierarchical methods, and multi-modal summarization. Unlike prior works that did not examine complexities, scalability and comparisons of techniques in detail, this review takes a comprehensive approach encompassing state-of-the-art methods, challenges, solutions, comparisons, limitations and charts out future improvements - providing researchers an extensive overview to advance abstractive summarization research. We provide vital comparison tables across techniques categorized - offering insights into model complexity, scalability and appropriate applications. The paper highlights challenges such as inadequate meaning representation, factual consistency, controllable text summarization, cross-lingual summarization, and evaluation metrics, among others. Solutions leveraging knowledge incorporation and other innovative strategies are proposed to address these challenges. The paper concludes by highlighting emerging research areas like factual inconsistency, domain-specific, cross-lingual, multilingual, and long-document summarization, as well as handling noisy data. Our objective is to provide researchers and practitioners with a structured overview of the domain, enabling them to better understand the current landscape and identify potential areas for further research and improvement.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# SDマップを用いた地域地図作成手法:新しい調査

Local map Construction Methods with SD map: A Novel Survey ( http://arxiv.org/abs/2409.02415v1 )

ライセンス: Link先を確認
Jiaqi Li, Pingfan Jia, Jiaxing Chen, Jiaxi Liu, Lei He, (参考訳) 近年、自動運転車の分野では学術的な進歩が顕著に行われており、ローカルマップが自動運転技術の重要コンポーネントとして浮上している。 ローカルマップは、道路網の複雑な詳細を提供するだけでなく、車両のローカライゼーション、ナビゲーション、意思決定といった重要なタスクの基本的な入力としても機能する。 SDマップ(Standard Definition Map)の特徴として,SDマップを事前情報として統合する認識手法は,ローコスト,取得容易性,多目的性などの点から,局所地図認識の分野において有意義な可能性を示唆している。 本研究の目的は,ローカルマップ認識手法の事前情報としてSDマップの統合における最新の進歩の概要と概要を研究者に提供することである。 このレビューは、SDマップを事前情報として組み込んだローカルマップ認識手法のタスク定義と一般的なパイプラインと、関連する公開データセットの導入から始まる。 そして、マルチソース情報の表現と符号化、およびマルチソース情報の融合方法に焦点を当てた。 この急激な傾向に応えて,本論文は,本分野における多様な研究成果を包括的かつ綿密に概説する。 最後に、本論文は、現在この分野で普及している研究動向や方法論を理解するために研究者を導くことを目的として、関連する問題と今後の課題について論じる。

In recent years, significant academic advancements have been made in the field of autonomous vehicles, with Local maps emerging as a crucial component of autonomous driving technology. Local maps not only provide intricate details of road networks but also serve as fundamental inputs for critical tasks such as vehicle localization, navigation, and decision-making. Given the characteristics of SD map (Standard Definition Map), which include low cost, ease of acquisition, and high versatility, perception methods that integrate SD map as prior information have demonstrated significant potential in the field of Local map perception. The purpose of this paper is to provide researchers with a comprehensive overview and summary of the latest advancements in the integration of SD map as prior information for Local map perception methods. This review begins by introducing the task definition and general pipeline of local map perception methods that incorporate SD maps as prior information, along with relevant public datasets. And then it focuses on the representation and encoding methods of multi-source information, as well as the methods for fusing multi-source information. In response to this burgeoning trend, this article presents a comprehensive and meticulous overview of the diverse research efforts in this particular field. Finally, the article addresses pertinent issues and future challenges with the aim of guiding researchers in understanding the current trends and methodologies prevalent in the field.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# 相対変換不変ワッサーシュタイン距離

Relative-Translation Invariant Wasserstein Distance ( http://arxiv.org/abs/2409.02416v1 )

ライセンス: Link先を確認
Binshuai Wang, Qiwei Di, Ming Yin, Mengdi Wang, Quanquan Gu, Peng Wei, (参考訳) 分布シフトの下での2つの確率分布の類似性を測定するために、新しい距離の族、相対翻訳不変ワッサーシュタイン距離(RW_p$)を導入する。 古典的最適輸送モデルからこれを一般化すると、$RW_p$ 距離も商集合 $\mathcal{P}_p(\mathbb{R}^n)/\sim$ 上で定義され、分布変換に不変であることを示す。 p=2$のとき、$RW_2$距離は、最適輸送モデルの分解可能性、$RW_2$距離の変換不変性、および古典的二次ワッサーシュタイン距離(W_2$)の間のピタゴラス関係など、よりエキサイティングな性質を享受する。 これらの特性に基づいて, 距離$W_2$で測定された分布シフトが, バイアス分散の観点から説明できることを示す。 さらに,$RW_2$距離,結合解,および$RW_2$距離を効率的に計算するSinkhornアルゴリズムの変種である$RW_2$Sinkhornアルゴリズムを提案する。 また,提案アルゴリズムの数値安定性と時間的複雑さの解析も行う。 最後に,RW_2$距離測定値とアルゴリズム性能を3つの実験で検証した。 本稿では,RW_2$Sinkhornアルゴリズムの数値検証を行い,分散シフト下でのRW_2$の使用の有効性を示す実世界の2つの応用例を示す。 実験の結果,提案アルゴリズムは特定の応用においてシンクホーンの計算効率を著しく向上させ,RW_2$距離はベースラインと比較して分布変換に頑健であることがわかった。

We introduce a new family of distances, relative-translation invariant Wasserstein distances ($RW_p$), for measuring the similarity of two probability distributions under distribution shift. Generalizing it from the classical optimal transport model, we show that $RW_p$ distances are also real distance metrics defined on the quotient set $\mathcal{P}_p(\mathbb{R}^n)/\sim$ and invariant to distribution translations. When $p=2$, the $RW_2$ distance enjoys more exciting properties, including decomposability of the optimal transport model, translation-invariance of the $RW_2$ distance, and a Pythagorean relationship between $RW_2$ and the classical quadratic Wasserstein distance ($W_2$). Based on these properties, we show that a distribution shift, measured by $W_2$ distance, can be explained in the bias-variance perspective. In addition, we propose a variant of the Sinkhorn algorithm, named $RW_2$ Sinkhorn algorithm, for efficiently calculating $RW_2$ distance, coupling solutions, as well as $W_2$ distance. We also provide the analysis of numerical stability and time complexity for the proposed algorithm. Finally, we validate the $RW_2$ distance metric and the algorithm performance with three experiments. We conduct one numerical validation for the $RW_2$ Sinkhorn algorithm and show two real-world applications demonstrating the effectiveness of using $RW_2$ under distribution shift: digits recognition and similar thunderstorm detection. The experimental results report that our proposed algorithm significantly improves the computational efficiency of Sinkhorn in certain practical applications, and the $RW_2$ distance is robust to distribution translations compared with baselines.
翻訳日:2024-09-05 20:25:21 公開日:2024-09-04
# パラメトリック増幅器ネットワークを用いたスケーラブルな多成分ガウスエンタングル生成

Generation of Scalable Genuine Multipartite Gaussian Entanglement with a Parametric Amplifier Network ( http://arxiv.org/abs/2409.02417v1 )

ライセンス: Link先を確認
Saesun Kim, Sho Onoe, Alberto M. Marino, (参考訳) ジュヌイン多部絡みは量子情報科学において貴重な資源であり、二部絡みに比べて強い非局所性を示す。 この非局所性は、テレポーテーション、密度符号化、量子干渉計などの様々な量子情報プロトコルで利用することができる。 本稿では、パラメトリック増幅器ネットワークを用いて、スケーラブルで真のマルチパーティイト連続可変光絡み合い状態を生成する手法を提案する。 正部分転位(PPT)基準に違反して, 真正四分極, 六分極および八分極の存在を検証した。 さらに、我々は、我々のスキームに存在する対称性を利用して、任意の数の2N$真に絡み合ったパーティーに対する我々のアプローチのスケーラビリティを示すために、$\alpha$-entanglement of Formationを使用します。

Genuine multipartite entanglement is a valuable resource in quantum information science, as it exhibits stronger non-locality compared to bipartite entanglement. This non-locality can be exploited in various quantum information protocols, such as teleportation, dense coding, and quantum interferometry. Here, we propose a scheme to generate scalable genuine multipartite continuous-variable entangled states of light using a parametric amplifier network. We verify the presence of genuine quadripartite, hexapartite, and octapartite entanglement through a violation of the positive partial transpose (PPT) criteria. Additionally, we use $\alpha$-entanglement of formation to demonstrate the scalability of our approach to an arbitrary number of $2N$ genuinely entangled parties by taking advantage of the symmetries present in our scheme.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# MOSMOS:医療報告監督による多臓器分節化

MOSMOS: Multi-organ segmentation facilitated by medical report supervision ( http://arxiv.org/abs/2409.02418v1 )

ライセンス: Link先を確認
Weiwei Tian, Xinyu Huang, Junlin Hou, Caiyue Ren, Longquan Jiang, Rui-Wei Zhao, Gang Jin, Yuejie Zhang, Daoying Geng, (参考訳) 医用画像やレポートなどの現代医療システムにおける多モーダルデータの多量化に伴い、医用ビジョン・ランゲージ・プレトレーニング(Med-VLP)は、大まかな下流作業(医療分類、検索、視覚的質問応答)において驚くべき成果を示した。 しかし,Med-VLPから学んだ知識を細粒度多臓器分割タスクに伝達する問題はほとんど研究されていない。 多臓器の分節化は、主に、大規模な完全注釈付きデータセットの欠如と、異なる疾患を持つ個人間での同一臓器の形状と大きさの広範囲な変化のために困難である。 本稿では,MOSMOS(Medical repOrt Supervision)を利用したマルチオーガンセグメンテーションのための,新しい事前学習・微調整フレームワークを提案する。 具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを最大限に調整するために、グローバルコントラスト学習を導入する。 さらに, 画像画素と臓器タグ間の意味的対応を暗黙的に学習するために, マルチラベル認識を活用する。 さらに重要なことは、事前訓練されたモデルは、ピクセルタグのアテンションマップを導入することで、任意のセグメンテーションモデルに転送できるということです。 2D U-Netと3D UNETRという異なるネットワーク設定を用いて、一般化の検証を行う。 我々は,BTCV,AMOS,MMWHS,BRATSデータセットのさまざまな疾患とモダリティを用いて,我々のアプローチを広く評価してきた。 各種設定における実験結果から,本フレームワークの有効性が示された。 この枠組みは、医療報告の監督の下で自動アノテーションタスクの今後の研究を促進する基盤として機能する。

Owing to a large amount of multi-modal data in modern medical systems, such as medical images and reports, Medical Vision-Language Pre-training (Med-VLP) has demonstrated incredible achievements in coarse-grained downstream tasks (i.e., medical classification, retrieval, and visual question answering). However, the problem of transferring knowledge learned from Med-VLP to fine-grained multi-organ segmentation tasks has barely been investigated. Multi-organ segmentation is challenging mainly due to the lack of large-scale fully annotated datasets and the wide variation in the shape and size of the same organ between individuals with different diseases. In this paper, we propose a novel pre-training & fine-tuning framework for Multi-Organ Segmentation by harnessing Medical repOrt Supervision (MOSMOS). Specifically, we first introduce global contrastive learning to maximally align the medical image-report pairs in the pre-training stage. To remedy the granularity discrepancy, we further leverage multi-label recognition to implicitly learn the semantic correspondence between image pixels and organ tags. More importantly, our pre-trained models can be transferred to any segmentation model by introducing the pixel-tag attention maps. Different network settings, i.e., 2D U-Net and 3D UNETR, are utilized to validate the generalization. We have extensively evaluated our approach using different diseases and modalities on BTCV, AMOS, MMWHS, and BRATS datasets. Experimental results in various settings demonstrate the effectiveness of our framework. This framework can serve as the foundation to facilitate future research on automatic annotation tasks under the supervision of medical reports.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# ハイブリッドGPUによる大規模言語モデル学習の高速化

Accelerating Large Language Model Training with Hybrid GPU-based Compression ( http://arxiv.org/abs/2409.02423v1 )

ライセンス: Link先を確認
Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda, (参考訳) Data Parallelism(DP)、Tensor Parallelism(TP)、Pipeline Parallelism(PP)は、高速で効率的なLarge Language Model(LLM)トレーニングを実現するために広く採用されている3つの戦略である。 しかし、これらのアプローチはデータ集約的な通信ルーチンに頼り、グラデーション、アクティベーション、その他の重要なモデル情報を収集し、集約し、再分割する。 GPUベースの圧縮ライブラリと共同設計され、MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。 本研究では,3次元並列処理とZeRO最適化を用いた分散LLM学習における圧縮支援型MPI集合の有効性について検討する。 私たちはLassenスーパーコンピュータ上で192V100のGPUをスケールしました。 GPT-NeoX-20Bトレーニングでは,1秒間に22.5倍のTFLOPS増加,23.6倍のサンプル増加が確認された。 それでも、このような戦略は、各並列度で通信されるメッセージ間の間隔のずれを無視し、より多くのエラーを発生させ、トレーニング損失を減少させる。 そこで, 並列次元毎にハイブリッド圧縮設定を組み込み, 圧縮強度を調整した。 それらの低ランク構造(arXiv:2301.02654)を仮定し、DPオールリデュースを行う際の勾配にアグレッシブな圧縮を適用する。 アクティベーション、オプティマイザ状態、TPおよびPPのモデルパラメータを通信しながら精度を保つために、より穏やかな圧縮を採用する。 調整されたハイブリッド圧縮方式を用いて,GPU毎のTFLOPSの17.3\%増加と,ベースライン損失収束を達成しつつ,毎秒12.7\%増加を示す。

Data Parallelism (DP), Tensor Parallelism (TP), and Pipeline Parallelism (PP) are the three strategies widely adopted to enable fast and efficient Large Language Model (LLM) training. However, these approaches rely on data-intensive communication routines to collect, aggregate, and re-distribute gradients, activations, and other important model information, which pose significant overhead. Co-designed with GPU-based compression libraries, MPI libraries have been proven to reduce message size significantly, and leverage interconnect bandwidth, thus increasing training efficiency while maintaining acceptable accuracy. In this work, we investigate the efficacy of compression-assisted MPI collectives under the context of distributed LLM training using 3D parallelism and ZeRO optimizations. We scaled up to 192 V100 GPUs on the Lassen supercomputer. First, we enabled a na\"ive compression scheme across all collectives and observed a 22.5\% increase in TFLOPS per GPU and a 23.6\% increase in samples per second for GPT-NeoX-20B training. Nonetheless, such a strategy ignores the sparsity discrepancy among messages communicated in each parallelism degree, thus introducing more errors and causing degradation in training loss. Therefore, we incorporated hybrid compression settings toward each parallel dimension and adjusted the compression intensity accordingly. Given their low-rank structure (arXiv:2301.02654), we apply aggressive compression on gradients when performing DP All-reduce. We adopt milder compression to preserve precision while communicating activations, optimizer states, and model parameters in TP and PP. Using the adjusted hybrid compression scheme, we demonstrate a 17.3\% increase in TFLOPS per GPU and a 12.7\% increase in samples per second while reaching baseline loss convergence.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# Deep Adaptive Interest Network:コンテキスト認識学習によるパーソナライズされたレコメンデーション

Deep Adaptive Interest Network: Personalized Recommendation with Context-Aware Learning ( http://arxiv.org/abs/2409.02425v1 )

ライセンス: Link先を確認
Shuaishuai Huang, Haowei Yang, You Yao, Xueting Lin, Yuming Tu, (参考訳) パーソナライズされたレコメンデーションシステムでは,ユーザの興味を正確に捉え,コンテキスト情報と組み合わせることが重要な研究分野である。 本稿では,ユーザの関心を動的にモデル化し,コンテキスト認識学習機構を取り入れたDeep Adaptive Interest Network(DAIN)を提案する。 DAINは、ディープラーニング技術を活用して、ユーザの関心の変化をリアルタイムに捉えつつ、コンテキスト情報を統合することで推奨結果をさらに最適化する、適応的関心ネットワーク構造を構築する。 いくつかの公開データセットで実施された実験は、DAINが推奨性能と計算効率の両方で優れていることを示した。 本研究は、パーソナライズされたレコメンデーションシステムのための新しいソリューションを提供するだけでなく、レコメンデーションシステムにおける文脈認識学習の適用に関する新たな洞察を提供する。

In personalized recommendation systems, accurately capturing users' evolving interests and combining them with contextual information is a critical research area. This paper proposes a novel model called the Deep Adaptive Interest Network (DAIN), which dynamically models users' interests while incorporating context-aware learning mechanisms to achieve precise and adaptive personalized recommendations. DAIN leverages deep learning techniques to build an adaptive interest network structure that can capture users' interest changes in real-time while further optimizing recommendation results by integrating contextual information. Experiments conducted on several public datasets demonstrate that DAIN excels in both recommendation performance and computational efficiency. This research not only provides a new solution for personalized recommendation systems but also offers fresh insights into the application of context-aware learning in recommendation systems.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# サブスペースクラスタリングによる低次元分布の拡散モデル

Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering ( http://arxiv.org/abs/2409.02426v1 )

ライセンス: Link先を確認
Peng Wang, Huijie Zhang, Zekai Zhang, Siyi Chen, Yi Ma, Qing Qu, (参考訳) 近年、拡散モデルが画像分布を効果的に学習し、新しいサンプルを生成することが実証されている。 注目すべきは、これらのモデルは、大きな画像次元にもかかわらず少数のトレーニングサンプルでこれを達成することができ、次元性の呪いを回避できることだ。 本研究では、この現象に関する理論的洞察を、重要な経験的観察を利用して提供する。 (i)画像データの内在次元が低いこと。 (ii)画像データの多様体構造の結合、及び 三 訓練拡散モデルにおけるデノナイジングオートエンコーダの低ランク特性 これらの観測により,画像データの基盤となるデータ分布を低ランクガウスの混合として仮定し,推定分布のスコア関数に応じて低ランクモデルとしてデノナイジングオートエンコーダをパラメータ化する。 これらの設定により、拡散モデルのトレーニング損失を最適化することは、トレーニングサンプル上の標準部分空間クラスタリング問題と同等であることを示す。 さらに,この同値性に基づいて,基礎となる分布を学習するために必要なサンプルの最小個数が,上記のデータとモデル仮定の内在次元と線形に一致することを示す。 この洞察は、拡散モデルが次元の呪いを破り、学習分布の位相遷移を示すことができる理由について光を当てている。 さらに,画像データのサブスペースと意味表現の対応性を実証的に確立し,画像編集を容易にする。 シミュレーション分布と画像データセットの相関実験により,これらの結果を検証した。

Recent empirical studies have demonstrated that diffusion models can effectively learn the image distribution and generate new samples. Remarkably, these models can achieve this even with a small number of training samples despite a large image dimension, circumventing the curse of dimensionality. In this work, we provide theoretical insights into this phenomenon by leveraging key empirical observations: (i) the low intrinsic dimensionality of image data, (ii) a union of manifold structure of image data, and (iii) the low-rank property of the denoising autoencoder in trained diffusion models. These observations motivate us to assume the underlying data distribution of image data as a mixture of low-rank Gaussians and to parameterize the denoising autoencoder as a low-rank model according to the score function of the assumed distribution. With these setups, we rigorously show that optimizing the training loss of diffusion models is equivalent to solving the canonical subspace clustering problem over the training samples. Based on this equivalence, we further show that the minimal number of samples required to learn the underlying distribution scales linearly with the intrinsic dimensions under the above data and model assumptions. This insight sheds light on why diffusion models can break the curse of dimensionality and exhibit the phase transition in learning distributions. Moreover, we empirically establish a correspondence between the subspaces and the semantic representations of image data, facilitating image editing. We validate these results with corroborated experimental results on both simulated distributions and image datasets.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# カスタム環境多目的強化学習のための効率的な逆関数探索器としての大規模言語モデル

Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2409.02428v1 )

ライセンス: Link先を確認
Guanwen Xie, Jingzehua Xu, Yiyuan Yang, Shuai Zhang, (参考訳) 報酬関数を設計するための大きな言語モデル(LLM)を活用することは、大きな可能性を示している。 しかし、複雑なカスタム環境と複数の要件を持つ強化学習(RL)タスクにおいて、効果的な設計と報酬関数の改善が大きな課題となっている。 本稿では,LLMを効果的にホワイトボックス検索に利用し,その高度な意味理解能力を強調した。 具体的には、明示的なユーザ要求ごとに報酬成分を生成し、報酬批評家を用いて正しいコード形式を識別する。 そして、LLMは、トレーニングログアナライザによって提供されるコンテキストに基づいて、報酬成分に重みを割り当て、それらの重みを反復的に探索・最適化し、探索ステップサイズを適応的に決定する。 直接のフィードバックや報酬の例(ゼロショット)を伴わずに,水中情報収集RLタスクにフレームワークを適用した。 報酬批評家は、各要求に対して1つのフィードバックだけで報酬コードを修正し、報酬関数フィードバックが集約されたときに起こりうる不可分なエラーを効果的に防止する。 重み付けの効果的な初期化は、重み付けを伴わないパレート解集合内の異なる報酬関数の取得を可能にする。 ウェイトが100倍オフの場合であっても、ユーザ要求を満たすソリューションを得るためには、4回未満のイテレーションが必要になります。 このフレームワークは、高度な数値的な理解や計算を必要としないため、GPT-3.5 Turboを利用するほとんどのプロンプトともうまく機能する。

Leveraging large language models (LLMs) for designing reward functions demonstrates significant potential. However, achieving effective design and improvement of reward functions in reinforcement learning (RL) tasks with complex custom environments and multiple requirements presents considerable challenges. In this paper, we enable LLMs to be effective white-box searchers, highlighting their advanced semantic understanding capabilities. Specifically, we generate reward components for each explicit user requirement and employ the reward critic to identify the correct code form. Then, LLMs assign weights to the reward components to balance their values and iteratively search and optimize these weights based on the context provided by the training log analyzer, while adaptively determining the search step size. We applied the framework to an underwater information collection RL task without direct human feedback or reward examples (zero-shot). The reward critic successfully correct the reward code with only one feedback for each requirement, effectively preventing irreparable errors that can occur when reward function feedback is provided in aggregate. The effective initialization of weights enables the acquisition of different reward functions within the Pareto solution set without weight search. Even in the case where a weight is 100 times off, fewer than four iterations are needed to obtain solutions that meet user requirements. The framework also works well with most prompts utilizing GPT-3.5 Turbo, since it does not require advanced numerical understanding or calculation.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 制約付きテキスト・画像合成のための無トレーニングカラーディアングル

Training-free Color-Style Disentanglement for Constrained Text-to-Image Synthesis ( http://arxiv.org/abs/2409.02429v1 )

ライセンス: Link先を確認
Aishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan, (参考訳) 本研究では,テキストから画像への拡散モデルの出力を,ユーザが提供する参照画像の色とスタイル特性で独立に制御するという問題を考察する。 そこで本研究では,参照画像から色とスタイル属性のテキスト・ツー・イメージを分離する,最初のトレーニングフリーでテスト時間のみの手法を提案する。 これを実現するために、我々は2つの重要なイノベーションを提案する。 最初のコントリビューションは、現在の世代の共分散行列を基準画像に追従させ、色を有意義に伝達する特徴変換を用いて、推論時に潜時符号を変換することである。 次に、LAB画像空間に色とスタイルの間に自然に絡み合いがあることを観察し、Lチャネルから計算した参照画像の自己アテンション特徴写像を変換する。 これらの操作はどちらもテスト時に純粋に行われ、独立して実行したり、マージしたりできる。 これにより、色とスタイルの情報を同じ参照画像または2つの異なるソースから得ることができ、新しい世代はどちらのシナリオでもシームレスに融合することができる。

We consider the problem of independently, in a disentangled fashion, controlling the outputs of text-to-image diffusion models with color and style attributes of a user-supplied reference image. We present the first training-free, test-time-only method to disentangle and condition text-to-image models on color and style attributes from reference image. To realize this, we propose two key innovations. Our first contribution is to transform the latent codes at inference time using feature transformations that make the covariance matrix of current generation follow that of the reference image, helping meaningfully transfer color. Next, we observe that there exists a natural disentanglement between color and style in the LAB image space, which we exploit to transform the self-attention feature maps of the image being generated with respect to those of the reference computed from its L channel. Both these operations happen purely at test time and can be done independently or merged. This results in a flexible method where color and style information can come from the same reference image or two different sources, and a new generation can seamlessly fuse them in either scenario.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# オンライン(MIMO-)ディープレセビアにおける移動型逆襲攻撃

Transfer-based Adversarial Poisoning Attacks for Online (MIMO-)Deep Receviers ( http://arxiv.org/abs/2409.02430v1 )

ライセンス: Link先を確認
Kunze Wu, Weiheng Jiang, Dusit Niyato, Yinghuan Li, Chuang Luo, (参考訳) 近年,ディープニューラルネットワーク(DNN)を用いた無線受信機の設計が注目されている。 動的チャネルに迅速に適応するために、オンライン学習が採用され、深層受信機の重量をオーバーザエアデータ(パイロットなど)で更新する。 しかし、ニューラルネットワークの脆弱さと無線チャネルのオープンさは、これらのシステムを悪意のある攻撃に晒す。 そこで本研究では,これらの攻撃方法を理解することが,ロバストレシーバの設計に不可欠であることを示すとともに,攻撃対象の知識を必要とせず,パイロットに敵の摂動を注入し,オンラインディープレシーバを害し,動的チャネルや非線形効果に適応する能力を損なうよう,トランスファーベースのオンラインレシーバに対する敵の攻撃手法を提案する。 特に,従来のモデル駆動型ディープレシーバーとして,DeepSICはそのアーキテクチャに無線ドメイン知識を取り入れている。 この統合により、少数のパイロットしか持たない時間変化チャネルに効率よく適応でき、マルチインプットおよびマルチアウトプット(MIMO)シナリオで最適な性能を達成できる。このシナリオのディープレシーバーは、無線通信分野における多くの応用を持ち、それをターゲットにした攻撃方法の研究を動機付け、合成線形、合成非線形、静的、COST2100チャネルのシミュレーションにおける攻撃の有効性を実証する。 シミュレーションの結果, 提案した毒殺攻撃は, 急速に変化するシナリオにおいて, オンライン受信機の性能を著しく低下させることが示された。

Recently, the design of wireless receivers using deep neural networks (DNNs), known as deep receivers, has attracted extensive attention for ensuring reliable communication in complex channel environments. To adapt quickly to dynamic channels, online learning has been adopted to update the weights of deep receivers with over-the-air data (e.g., pilots). However, the fragility of neural models and the openness of wireless channels expose these systems to malicious attacks. To this end, understanding these attack methods is essential for robust receiver design.In this paper, we propose a transfer-based adversarial poisoning attack method for online receivers.Without knowledge of the attack target, adversarial perturbations are injected to the pilots, poisoning the online deep receiver and impairing its ability to adapt to dynamic channels and nonlinear effects. In particular, our attack method targets Deep Soft Interference Cancellation (DeepSIC)[1] using online meta-learning.As a classical model-driven deep receiver, DeepSIC incorporates wireless domain knowledge into its architecture. This integration allows it to adapt efficiently to time-varying channels with only a small number of pilots, achieving optimal performance in a multi-input and multi-output (MIMO) scenario.The deep receiver in this scenario has a number of applications in the field of wireless communication, which motivates our study of the attack methods targeting it.Specifically, we demonstrate the effectiveness of our attack in simulations on synthetic linear, synthetic nonlinear, static, and COST 2100 channels. Simulation results indicate that the proposed poisoning attack significantly reduces the performance of online receivers in rapidly changing scenarios.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# スパースデータを用いたニューラルPDE解の逆学習

Adversarial Learning for Neural PDE Solvers with Sparse Data ( http://arxiv.org/abs/2409.02431v1 )

ライセンス: Link先を確認
Yunpeng Gong, Yongjie Hou, Zhenzhong Wang, Zexin Lin, Min Jiang, (参考訳) 偏微分方程式(PDE)に対するニューラルネットワークの解法は大きな進歩を遂げているが、データ不足やモデル堅牢性に関連する課題に直面し続けている。 対称性や不変性を利用する従来のデータ拡張法は、しばしば動的で複雑な現実世界の応用に当てはまらない物理系に強い仮定を課す。 この研究ギャップに対処するために、この研究は、SMART(Systematic Model Augmentation for Robust Training)と名付けられたニューラルネットワークPDEの普遍的な学習戦略を導入する。 SMARTはモデルの弱点に挑戦し改善することに集中することにより、データスカース条件下でのトレーニング中の一般化誤差を低減し、様々なPDEシナリオにおける予測精度を大幅に改善する。 提案手法の有効性は,理論解析と広範囲な実験によって実証される。 コードは利用可能です。

Neural network solvers for partial differential equations (PDEs) have made significant progress, yet they continue to face challenges related to data scarcity and model robustness. Traditional data augmentation methods, which leverage symmetry or invariance, impose strong assumptions on physical systems that often do not hold in dynamic and complex real-world applications. To address this research gap, this study introduces a universal learning strategy for neural network PDEs, named Systematic Model Augmentation for Robust Training (SMART). By focusing on challenging and improving the model's weaknesses, SMART reduces generalization error during training under data-scarce conditions, leading to significant improvements in prediction accuracy across various PDE scenarios. The effectiveness of the proposed method is demonstrated through both theoretical analysis and extensive experimentation. The code will be available.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 公正債務問題に対する産業実践に関する予備的考察

Preliminary Insights on Industry Practices for Addressing Fairness Debt ( http://arxiv.org/abs/2409.02432v1 )

ライセンス: Link先を確認
Ronnie de Souza Santos, Luiz Fernando de Lima, Maria Teresa Baldassarre, Rodrigo Spinola, (参考訳) コンテキスト: この研究は、ソフトウェアプロフェッショナルがソフトウェア業界内のAIシステムのバイアスを識別し、対処し、実践的な知識と現実世界のアプリケーションに焦点を当てる方法について調査する。 Goal: 実践者によるバイアス管理の戦略と,公平な負債に対するその影響を理解することを目的としています。 方法: 質的研究手法を用いて, 業界専門家からの洞察をインタビューを通じて収集し, テーマ分析を用いて収集したデータを探索した。 発見: 専門家は、モデルアウトプットの相違、人口統計上の矛盾、トレーニングデータに関する問題を通じてバイアスを識別する。 彼らは、データ管理の強化、モデル調整、危機管理、チームの多様性の改善、倫理的分析といった戦略を使って、これらのバイアスに対処する。 結論:本論文は,公正性負債に関する最初の証拠を提示し,AIシステムにおける公平性に関連する問題を管理するための構造化ガイドライン開発のための基盤を提供する。

Context: This study explores how software professionals identify and address biases in AI systems within the software industry, focusing on practical knowledge and real-world applications. Goal: We aimed to understand the strategies employed by practitioners to manage bias and their implications for fairness debt. Method: We used a qualitative research method, gathering insights from industry professionals through interviews and employing thematic analysis to explore the collected data. Findings: Professionals identify biases through discrepancies in model outputs, demographic inconsistencies, and issues with training data. They address these biases using strategies such as enhanced data management, model adjustments, crisis management, improving team diversity, and ethical analysis. Conclusion: Our paper presents initial evidence on addressing fairness debt and provides a foundation for developing structured guidelines to manage fairness-related issues in AI systems.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 文学から実践へ - ソフトウェア産業採用のための公正テストツールを探る

From Literature to Practice: Exploring Fairness Testing Tools for the Software Industry Adoption ( http://arxiv.org/abs/2409.02433v1 )

ライセンス: Link先を確認
Thanh Nguyen, Luiz Fernando de Lima, Maria Teresa Badassarre, Ronnie de Souza Santos, (参考訳) 今日の世界では、AIシステムが公平で偏見のないものであることを保証する必要があります。 本研究は,ソフトウェア開発者にとって実用的かつ容易かどうかを確認するために,ソフトウェアの公平性をテストするためのツールについて検討した。 いくつかのツールはコスト効率が良く、様々なプログラミング環境と互換性があるが、多くは使用が難しく、詳細な指示が欠けている。 また、特定のタイプのデータに注目する傾向があり、現実の状況における有用性を制限している。 全体として、現在の公平性テストツールは、公正で公平な技術を開発する上で、ソフトウェア開発者を支援するために大幅な改善が必要です。 私たちは、新しいツールはユーザーフレンドリで、ドキュメントがよく、様々な種類のデータを扱うのに十分な柔軟性があり、開発者が開発プロセスの初期段階でバイアスを特定し、修正するのに役立つことを提案します。 これは、誰にとってもより信頼できる公平なソフトウェアに繋がるでしょう。

In today's world, we need to ensure that AI systems are fair and unbiased. Our study looked at tools designed to test the fairness of software to see if they are practical and easy for software developers to use. We found that while some tools are cost-effective and compatible with various programming environments, many are hard to use and lack detailed instructions. They also tend to focus on specific types of data, which limits their usefulness in real-world situations. Overall, current fairness testing tools need significant improvements to better support software developers in creating fair and equitable technology. We suggest that new tools should be user-friendly, well-documented, and flexible enough to handle different kinds of data, helping developers identify and fix biases early in the development process. This will lead to more trustworthy and fair software for everyone.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 非対象多様性仮説:クロスモーダル知識蒸留における領域ギャップの理解に向けて

Non-target Divergence Hypothesis: Toward Understanding Domain Gaps in Cross-Modal Knowledge Distillation ( http://arxiv.org/abs/2409.02438v1 )

ライセンス: Link先を確認
Yilong Chen, Zongyi Xu, Xiaoshui Huang, Shanshan Zhao, Xinqi Jiang, Xinyu Gao, Xinbo Gao, (参考訳) シングルモーダルな知識蒸留と比較して、クロスモーダルな知識蒸留は、モダリティ間のドメインギャップにより、より深刻な課題に直面している。 これらの課題を克服するための様々な方法が提案されているが、ドメインギャップがクロスモーダルな知識蒸留にどのように影響するかについては、まだ研究が限られている。 本稿では,この問題の詳細な分析と評価を行う。 まずNon-Target Divergence hypothesis (NTDH)を導入し、ドメインギャップがクロスモーダルな知識蒸留に与える影響を明らかにする。 鍵となる発見は、モダリティ間のドメインギャップは、非ターゲットクラスの分布差をもたらし、これらの差が小さくなればなるほど、クロスモーダルな知識蒸留の性能が向上するということである。 その後、Vapnik-Chervonenkis(VC)理論に基づいて、クロスモーダルな知識蒸留における近似誤差の上下境界を導出し、理論的にNTDHを検証する。 最後に、5つのクロスモーダルデータセットの実験により、NTDHの有効性、一般性、適用性をさらに確認した。

Compared to single-modal knowledge distillation, cross-modal knowledge distillation faces more severe challenges due to domain gaps between modalities. Although various methods have proposed various solutions to overcome these challenges, there is still limited research on how domain gaps affect cross-modal knowledge distillation. This paper provides an in-depth analysis and evaluation of this issue. We first introduce the Non-Target Divergence Hypothesis (NTDH) to reveal the impact of domain gaps on cross-modal knowledge distillation. Our key finding is that domain gaps between modalities lead to distribution differences in non-target classes, and the smaller these differences, the better the performance of cross-modal knowledge distillation. Subsequently, based on Vapnik-Chervonenkis (VC) theory, we derive the upper and lower bounds of the approximation error for cross-modal knowledge distillation, thereby theoretically validating the NTDH. Finally, experiments on five cross-modal datasets further confirm the validity, generalisability, and applicability of the NTDH.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# ForeCal:DNNのためのランダムフォレストに基づく校正

ForeCal: Random Forest-based Calibration for DNNs ( http://arxiv.org/abs/2409.02446v1 )

ライセンス: Link先を確認
Dhruv Nigam, (参考訳) ディープニューラルネットワーク(DNN)ベースの分類器は、観測結果の識別に極めて適しており、ROC AUCと精度の指標が向上するが、真の事象の確率に関してその出力は誤校正されることが多い。 ポストホック校正アルゴリズムは、しばしばこれらの分類器の出力を校正するために用いられる。 イソトニック回帰(英語版)、プラットスケーリング(英語版)、温度スケーリング(英語版)のような手法はいくつかのケースで有効であることが示されているが、パラメトリックな仮定や複雑な非線形関係を捉えることができないことによって制限されている。 我々はランダム森林に基づく新しいポストホックキャリブレーションアルゴリズムであるForeCalを提案する。 ForeCalはランダム森林の2つのユニークな特性を生かしている。 現在の最先端手法よりもキャリブレーションを達成するのに強力であり、非パラメトリックであり、キャリブレーション機能を改善するために外因性情報を特徴として組み込むことができる。 UCI MLレポジトリから43の多様なデータセットの実験を通じて、ForeCalは、AUCが測定したベースDNNの識別能力に最小限の影響で、期待校正誤差(ECE)の観点から、既存の手法よりも優れていることを示す。

Deep neural network(DNN) based classifiers do extremely well in discriminating between observations, resulting in higher ROC AUC and accuracy metrics, but their outputs are often miscalibrated with respect to true event likelihoods. Post-hoc calibration algorithms are often used to calibrate the outputs of these classifiers. Methods like Isotonic regression, Platt scaling, and Temperature scaling have been shown to be effective in some cases but are limited by their parametric assumptions and/or their inability to capture complex non-linear relationships. We propose ForeCal - a novel post-hoc calibration algorithm based on Random forests. ForeCal exploits two unique properties of Random forests: the ability to enforce weak monotonicity and range-preservation. It is more powerful in achieving calibration than current state-of-the-art methods, is non-parametric, and can incorporate exogenous information as features to learn a better calibration function. Through experiments on 43 diverse datasets from the UCI ML repository, we show that ForeCal outperforms existing methods in terms of Expected Calibration Error(ECE) with minimal impact on the discriminative power of the base DNN as measured by AUC.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 階層モデルを用いた画像による韓国料理の検出

Detecting Korean Food Using Image using Hierarchical Model ( http://arxiv.org/abs/2409.02448v1 )

ライセンス: Link先を確認
Hoang Khanh Lam, Kahandakanaththage Maduni Pramuditha Perera, (参考訳) 食事制限のある韓国料理愛好家に対して、食べる前に韓国料理を識別するソリューションが提供された。 料理の鮮明な写真をアップロードするだけで、ユーザーは自分が何を食べているかを知ることができる。 画像処理技術と機械学習は、このソリューションの実現に役立った。

A solution was made available for Korean Food lovers who have dietary restrictions to identify the Korean food before consuming. Just by uploading a clear photo of the dish, people can get to know what they are eating. Image processing techniques together with machine learning helped to come up with this solution.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 正規化で失うものは何か? 多言語ASRモデル評価における落とし穴の探索

What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations ( http://arxiv.org/abs/2409.02449v1 )

ライセンス: Link先を確認
Kavya Manohar, Leena G Pillai, (参考訳) 本稿では,多言語自動音声認識(ASR)モデルの評価における落とし穴について考察する。 本稿では,OpenAI Whisper,MetaのMMS,Seamless,Ambly AIのConformerなど,主要なASRモデルのテキスト正規化ルーチンと,パフォーマンス指標に対する意図しない結果について検討する。 本研究は,文字のスペルや句読点,特殊文字などの不整合を取り除き,ASR出力を公平な比較のために標準化することを目的としている現行のテキスト正規化の実践が,Indicスクリプトに適用した場合に根本的に欠陥があることを明らかにする。 テキスト類似度スコアと詳細な言語検査を用いた経験的分析により,これらの欠陥が,Indic言語の性能指標を人工的に膨らませることが実証された。 我々は,言語学の専門知識を活用し,多言語ASRモデルのより堅牢で正確な評価を確実にする正規化ルーチン開発へのシフトを提案する。

This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and Assembly AI's Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially inflated performance metrics for Indic languages. We conclude by proposing a shift towards developing normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models.
翻訳日:2024-09-05 20:15:07 公開日:2024-09-04
# 微分可能DSPを用いた高速・高品質・パラメータ効率調音合成

Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP ( http://arxiv.org/abs/2409.02451v1 )

ライセンス: Link先を確認
Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli, (参考訳) エレクトロニック・アーティキュログラフィー(EMA)のような動脈は声道フィルタの低次元表現を提供しており、音声合成の自然な基礎的特徴として用いられてきた。 微分可能デジタル信号処理(DDSP)は、音声合成のためのパラメータ効率の高いフレームワークである。 したがって、低次元のEMA特徴をDDSPと統合することで、音声合成の計算効率を大幅に向上させることができる。 本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質かつパラメータ効率の高いDDSP音声ボコーダを提案する。 我々は、高調波/雑音の不均衡問題を解決するためにいくつかの手法を取り入れ、より優れた合成品質を実現するために多分解能逆損失を加える。 本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。 我々のDDSPボコーダは、推論中にCPUのベースラインよりも4.9倍高速で、SOTAが要求する9Mパラメータとは対照的に、0.4Mパラメータで同等の品質の音声を生成することができる。

Articulatory trajectories like electromagnetic articulography (EMA) provide a low-dimensional representation of the vocal tract filter and have been used as natural, grounded features for speech synthesis. Differentiable digital signal processing (DDSP) is a parameter-efficient framework for audio synthesis. Therefore, integrating low-dimensional EMA features with DDSP can significantly enhance the computational efficiency of speech synthesis. In this paper, we propose a fast, high-quality, and parameter-efficient DDSP articulatory vocoder that can synthesize speech from EMA, F0, and loudness. We incorporate several techniques to solve the harmonics / noise imbalance problem, and add a multi-resolution adversarial loss for better synthesis quality. Our model achieves a transcription word error rate (WER) of 6.67% and a mean opinion score (MOS) of 3.74, with an improvement of 1.63% and 0.16 compared to the state-of-the-art (SOTA) baseline. Our DDSP vocoder is 4.9x faster than the baseline on CPU during inference, and can generate speech of comparable quality with only 0.4M parameters, in contrast to the 9M parameters required by the SOTA.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# FrameCorr:リソースとタイミング制約付きネットワーク設定のビデオ再構成のための適応型オートエンコーダベースニューラル圧縮

FrameCorr: Adaptive, Autoencoder-based Neural Compression for Video Reconstruction in Resource and Timing Constrained Network Settings ( http://arxiv.org/abs/2409.02453v1 )

ライセンス: Link先を確認
John Li, Shehab Sarar Ahmed, Deepak Nair, (参考訳) インターネット・オブ・モノ(IoT)デバイスによるビデオ処理の普及はコスト効率の向上によるものだが、取得したデータを近くのサーバに送信することは、タイミングの制約やネットワーク帯域幅の不足による問題を引き起こす。 既存のビデオ圧縮手法では、不完全データが提供されると、圧縮データの回復が困難となる。 本稿では,以前に受信したデータを用いてフレームの欠落セグメントを予測し,部分的に受信したデータからフレームを再構築する深層学習ベースのソリューションであるemph{\projectを紹介した。

Despite the growing adoption of video processing via Internet of Things (IoT) devices due to their cost-effectiveness, transmitting captured data to nearby servers poses challenges due to varying timing constraints and scarcity of network bandwidth. Existing video compression methods face difficulties in recovering compressed data when incomplete data is provided. Here, we introduce \emph{\project}, a deep-learning based solution that utilizes previously received data to predict the missing segments of a frame, enabling the reconstruction of a frame from partially received data.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# DetectiveQA: 小説の長文推論の評価

DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels ( http://arxiv.org/abs/2409.02465v1 )

ライセンス: Link先を確認
Zhe Xu, Jiasheng Ye, Xiangyang Liu, Tianxiang Sun, Xiaoran Liu, Qipeng Guo, Linlin Li, Qun Liu, Xuanjing Huang, Xipeng Qiu, (参考訳) LLM(Large Language Models)の急速な進歩に伴い、学術や産業において、長期のコンテキスト情報理解と処理がホットな話題となっている。 しかし、LLMの長文情報処理能力を評価するためのベンチマークでは、LLMの開発に追随するペースは保たなかったようである。 様々な長期コンテキスト評価ベンチマークの出現にもかかわらず、評価された能力のタイプは、新しい機能ディメンションなしでは制限されている。 本稿では,100K以上の平均コンテキスト長を持つ物語推論ベンチマークであるTreativeQAを紹介する。 DetectiveQAは、LLMの長期文脈推論能力の評価に重点を置いている。これは、文脈の完全な理解を必要とするだけでなく、与えられた質問に答えるために、抽出された証拠に従って文脈と推論から重要な証拠を抽出する必要がある。 これは能力評価の新しい次元であり、現在のLLMのインテリジェンスレベルとより一致している。 探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。 最後に、中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供した。 我々は、商用およびオープンソースモデルを含む、DectiveQA上の多くの長文LLMを評価し、その結果、既存の長文LLMは、真の長文依存質問を効果的に処理するために、依然としてかなりの進歩を必要としていることを示す。

With the rapid advancement of Large Language Models (LLMs), long-context information understanding and processing have become a hot topic in academia and industry. However, benchmarks for evaluating the ability of LLMs to handle long-context information do not seem to have kept pace with the development of LLMs. Despite the emergence of various long-context evaluation benchmarks, the types of capability assessed are still limited, without new capability dimensions. In this paper, we introduce DetectiveQA, a narrative reasoning benchmark featured with an average context length of over 100K tokens. DetectiveQA focuses on evaluating the long-context reasoning ability of LLMs, which not only requires a full understanding of context but also requires extracting important evidences from the context and reasoning according to extracted evidences to answer the given questions. This is a new dimension of capability evaluation, which is more in line with the current intelligence level of LLMs. We use detective novels as data sources, which naturally have various reasoning elements. Finally, we manually annotated 600 questions in Chinese and then also provided an English edition of the context information and questions. We evaluate many long-context LLMs on DetectiveQA, including commercial and open-sourced models, and the results indicate that existing long-context LLMs still require significant advancements to effectively process true long-context dependency questions.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# ランダム化測定による量子時間相関の証明:理論と実験

Certifying Quantum Temporal Correlation via Randomized Measurements: Theory and Experiment ( http://arxiv.org/abs/2409.02470v1 )

ライセンス: Link先を確認
Hongfeng Liu, Zhenhuan Liu, Shu Chen, Xinfang Nie, Xiangjing Liu, Dawei Lu, (参考訳) 時間領域への密度行列の拡張である擬似密度行列(PDM)を用いた時間量子相関の証明を検討する。 これらの相関を検出する従来の方法はPDMトモグラフィーに依存しており、過度な冗長な情報と指数的な資源を必要とすることが多い。 本研究では,PDMを1つの時間スライス内で仮想的に作成し,その2次モーメントをランダム化計測を用いて推定することにより,時間的相関検出のための効率的なプロトコルを開発する。 サンプルの複雑性分析により,我々のプロトコルは一定数の計測ベースしか必要とせず,量子ビット数に関係なく一定の実行時複雑性を維持できるため,アンサンブル平均測定を利用したシステムにとって特に有利であることを示す。 実験結果が理論的予測と密接に一致し,提案プロトコルの有効性が確認できる,典型的な熱力学量子システムである核磁気共鳴プラットフォーム上で,我々のプロトコルを実験的に検証する。

We consider the certification of temporal quantum correlations using the pseudo-density matrix (PDM), an extension of the density matrix to the time domain, where negative eigenvalues are key indicators of temporal correlations. Conventional methods for detecting these correlations rely on PDM tomography, which often involves excessive redundant information and requires exponential resources. In this work, we develop an efficient protocol for temporal correlation detection by virtually preparing the PDM within a single time slice and estimating its second-order moments using randomized measurements. Through sample complexity analysis, we demonstrate that our protocol requires only a constant number of measurement bases, making it particularly advantageous for systems utilizing ensemble average measurements, as it maintains constant runtime complexity regardless of the number of qubits. We experimentally validate our protocol on a nuclear magnetic resonance platform, a typical thermodynamic quantum system, where the experimental results closely align with theoretical predictions, confirming the effectiveness of our protocol.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 未知の枠組みにおける回帰と分類のデモグラフィックパリティ

Demographic parity in regression and classification within the unawareness framework ( http://arxiv.org/abs/2409.02471v1 )

ライセンス: Link先を確認
Vincent Divol, Solenne Gaucher, (参考訳) 本稿では, 異なる治療が禁止されている無意識の枠組みにおいて, 人口格差の制約の下での公正回帰の理論的基礎を考察し, 既存の治療が許可されている結果を拡張した。 具体的には,2次損失を最小化する際に最適値回帰関数を特徴付けることを目的とする。 本結果から, 輸送コストが最適であるバリセンタ問題に対する解法により, この関数が与えられることが明らかとなった。 さらに,最適公正コスト感性分類と最適公正回帰の関連について検討した。 分類器の決定集合のネスト性は、分類と回帰の等価性の形式を確立するのに必要かつ十分であることを示す。 このネステッドネスの仮定の下では、最適回帰関数にしきい値を適用することで最適分類器を導出することができる。

This paper explores the theoretical foundations of fair regression under the constraint of demographic parity within the unawareness framework, where disparate treatment is prohibited, extending existing results where such treatment is permitted. Specifically, we aim to characterize the optimal fair regression function when minimizing the quadratic loss. Our results reveal that this function is given by the solution to a barycenter problem with optimal transport costs. Additionally, we study the connection between optimal fair cost-sensitive classification, and optimal fair regression. We demonstrate that nestedness of the decision sets of the classifiers is both necessary and sufficient to establish a form of equivalence between classification and regression. Under this nestedness assumption, the optimal classifiers can be derived by applying thresholds to the optimal fair regression function; conversely, the optimal fair regression function is characterized by the family of cost-sensitive classifiers.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# ログ解析のための大規模言語モデルの比較検討

A Comparative Study on Large Language Models for Log Parsing ( http://arxiv.org/abs/2409.02474v1 )

ライセンス: Link先を確認
Merve Astekin, Max Hort, Leon Moonen, (参考訳) 背景: ログメッセージは、ソフトウェアシステムの現状に関する貴重な情報を提供する。 この情報は構造化されていない方法で提供され、関連するパラメータを抽出するための自動アプローチが適用される。 このプロセスを簡単にするために、ログ解析を適用し、ログメッセージを構造化されたログテンプレートに変換する。 近年の言語モデルの発展により、ChatGPTをログ解析のタスクに適用し、有望な結果が得られるようになった。 しかし、ログ解析タスクにおける他の最先端の大規模言語モデル(LLM)の性能は、まだ不明である。 Aims: 本研究は, ログ解析における最先端LCMの現在の能力について検討する。 方法: 有償プロプライエタリ(GPT-3.5, Claude 2.1)と4つのフリーユースオープンモデルを含む6つの最近のLCMを選択し, 成熟したオープンソースプロジェクトの選択から得られたシステムログの性能を比較した。 我々は2つの異なるプロンプトアプローチを設計し、16の異なるプロジェクトにわたる1,354のログテンプレートにLSMを適用する。 提案手法の有効性, 正しく同定されたテンプレート数, 生成したテンプレートと基礎的真実との構文的類似性について検討した。 結果: CodeLlamaはGPT-3.5よりも10%多くのログテンプレートを抽出する。 さらに、言語モデルのユーザビリティに関する質的な洞察(例えば、その応答の使いやすさなど)も提供します。 結論: この結果から, より小型で無償のLCMでは, 有償のプロプライエタリな競合, 特にコード特化モデルと比較して, ログ解析をかなり支援できることが明らかとなった。

Background: Log messages provide valuable information about the status of software systems. This information is provided in an unstructured fashion and automated approaches are applied to extract relevant parameters. To ease this process, log parsing can be applied, which transforms log messages into structured log templates. Recent advances in language models have led to several studies that apply ChatGPT to the task of log parsing with promising results. However, the performance of other state-of-the-art large language models (LLMs) on the log parsing task remains unclear. Aims: In this study, we investigate the current capability of state-of-the-art LLMs to perform log parsing. Method: We select six recent LLMs, including both paid proprietary (GPT-3.5, Claude 2.1) and four free-to-use open models, and compare their performance on system logs obtained from a selection of mature open-source projects. We design two different prompting approaches and apply the LLMs on 1, 354 log templates across 16 different projects. We evaluate their effectiveness, in the number of correctly identified templates, and the syntactic similarity between the generated templates and the ground truth. Results: We found that free-to-use models are able to compete with paid models, with CodeLlama extracting 10% more log templates correctly than GPT-3.5. Moreover, we provide qualitative insights into the usability of language models (e.g., how easy it is to use their responses). Conclusions: Our results reveal that some of the smaller, free-to-use LLMs can considerably assist log parsing compared to their paid proprietary competitors, especially code-specialized models.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 自動質問分類のためのグラフ畳み込みネットワークにおける単語とフレーズの特徴

Word and Phrase Features in Graph Convolutional Network for Automatic Question Classification ( http://arxiv.org/abs/2409.02481v1 )

ライセンス: Link先を確認
Junyoung Lee, Ninad Dixit, Kaustav Chakrabarti, S. Supraja, (参考訳) 効果的な質問分類は、AIによる教育ツールにとって不可欠であり、適応学習システムでは、質問をスキル領域、難易度、能力によって分類することができる。 この分類は、教育診断や分析だけでなく、関連するカテゴリに質問を関連付けることで、情報検索や質問応答といった複雑なタスクも強化する。 伝統的な手法は、しばしば単語の埋め込みと従来の分類法に基づいており、自然言語のニュアンスな関係を捉えるのに苦労し、最適以下のパフォーマンスをもたらす。 そこで本稿では,Phrase Question-Graph Convolutional Network (PQ-GCN) というグラフ畳み込みネットワーク(GCN)を活用する新しい手法を提案する。 質問をグラフとして表現することで -- 単語やフレーズ,エッジが構文的あるいは意味的な関係を表すノード -- を表現することで,GCNが言語間の相互接続性から,より効果的に学習することができるのです。 さらに、特に低リソース環境において、分類精度を高めるためにフレーズベースの特徴の組み入れについて検討する。 これらの特徴を付加したGCNが,グラフニューラルネットワーク研究と実践的教育応用のギャップを埋める,より正確でコンテキスト対応の質問分類のための,有望なソリューションを提供することを示す。

Effective question classification is crucial for AI-driven educational tools, enabling adaptive learning systems to categorize questions by skill area, difficulty level, and competence. This classification not only supports educational diagnostics and analytics but also enhances complex tasks like information retrieval and question answering by associating questions with relevant categories. Traditional methods, often based on word embeddings and conventional classifiers, struggle to capture the nuanced relationships in natural language, leading to suboptimal performance. To address this, we propose a novel approach leveraging graph convolutional networks (GCNs), named Phrase Question-Graph Convolutional Network (PQ-GCN) to better model the inherent structure of questions. By representing questions as graphs -- where nodes signify words or phrases and edges denote syntactic or semantic relationships -- our method allows GCNs to learn from the interconnected nature of language more effectively. Additionally, we explore the incorporation of phrase-based features to enhance classification accuracy, especially in low-resource settings. Our findings demonstrate that GCNs, augmented with these features, offer a promising solution for more accurate and context-aware question classification, bridging the gap between graph neural network research and practical educational applications.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 体積曲面:多重メッシュによるファジィジオメトリの表現

Volumetric Surfaces: Representing Fuzzy Geometries with Multiple Meshes ( http://arxiv.org/abs/2409.02482v1 )

ライセンス: Link先を確認
Stefano Esposito, Anpei Chen, Christian Reiser, Samuel Rota Bulò, Lorenzo Porzi, Katja Schwarz, Christian Richardt, Michael Zollhöfer, Peter Kontschieder, Andreas Geiger, (参考訳) 高品質なリアルタイムビュー合成法は、ボリュームレンダリング、スプレイティング、サーフェスレンダリングに基づいている。 表面ベースの手法は一般的に最速であるが、毛髪のようなファジィ幾何学を忠実にモデル化することはできない。 逆に、アルファブレンディング技術はファジィ材料を表現するのに優れているが、1光線当たりのサンプルの無拘束数を必要とする(P1)。 さらに、ボリュームレンダリングにおける空の空間スキップ(P2)とスプレイティングにおける入力プリミティブのソート(P3)により、オーバーヘッドが増大する(P3)。 これらの問題は、低パフォーマンスのグラフィックスハードウェア、例えばモバイルデバイスでさらに悪化している。 本稿では, (P1) 個のサンプリング位置が小さく, 有界であり, (P2) サンプリング位置はラスタライズにより効率的に検出され, (P3) レンダリングはソートフリーであるリアルタイムビュー合成のための新しい表現を提案する。 オブジェクトを半透明な多層メッシュとして表現し、最外側から最内側の固定層オーダーでレンダリングする。 トレーニング中に学習した最適な間隔でメッシュ層をSDFシェルとしてモデル化する。 焼いた後、紫外線テクスチャを対応するメッシュに適合させる。 提案手法は,ローエンドおよびモバイル機器におけるボリュームベースおよびスプラッティングベース手法よりも高いフレームレートを達成しつつ,困難なファジィオブジェクトを表現可能であることを示す。

High-quality real-time view synthesis methods are based on volume rendering, splatting, or surface rendering. While surface-based methods generally are the fastest, they cannot faithfully model fuzzy geometry like hair. In turn, alpha-blending techniques excel at representing fuzzy materials but require an unbounded number of samples per ray (P1). Further overheads are induced by empty space skipping in volume rendering (P2) and sorting input primitives in splatting (P3). These problems are exacerbated on low-performance graphics hardware, e.g. on mobile devices. We present a novel representation for real-time view synthesis where the (P1) number of sampling locations is small and bounded, (P2) sampling locations are efficiently found via rasterization, and (P3) rendering is sorting-free. We achieve this by representing objects as semi-transparent multi-layer meshes, rendered in fixed layer order from outermost to innermost. We model mesh layers as SDF shells with optimal spacing learned during training. After baking, we fit UV textures to the corresponding meshes. We show that our method can represent challenging fuzzy objects while achieving higher frame rates than volume-based and splatting-based methods on low-end and mobile devices.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# TASAR: 骨格行動認識におけるトランスファー可能な攻撃

TASAR: Transferable Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2409.02483v1 )

ライセンス: Link先を確認
Yunfeng Diao, Baiqi Wu, Ruixuan Zhang, Ajian Liu, Xingxing Wei, Meng Wang, He Wang, (参考訳) 骨格配列は、人間の行動のよく構造化された表現であり、ヒト活動認識(HAR)において重要である。 敵の骨格配列の転送性は、自律運転、インテリジェントな監視、人間とコンピュータの相互作用など、現実世界のHARシナリオでの攻撃を可能にする。 しかし、既存のSkeleton-based HAR (S-HAR) 攻撃は弱い対向性を示すため、真のS-HAR攻撃とはみなせない。 さらに重要なことは、この失敗の理由ははっきりしていない。 本稿では、この現象を損失面のレンズを通して研究し、そのシャープさがS-HARの透過率の低下に寄与することを示した。 本研究は,S-HARの対向移動性が向上する可能性があると仮定し,実証的に検証した。 そこで我々は,最初のトランスファー・ベース・アタック・オン・スケルタル・アクション・アタック(TASAR)を提案する。 TASARは、事前訓練されたサロゲートを再訓練することなく、滑らかなモデル後部を探索する。 さらに、各フレームを独立に扱い、シーケンス内の時間的コヒーレンスを無視する以前の転送ベースの攻撃とは異なり、TASARはベイズ攻撃勾配に運動力学を取り入れ、S-HARの時空間コヒーレンスを効果的に破壊する。 提案手法の有効性を徹底的に評価するために,S-HARモデル7,攻撃方法10,S-HARデータセット3,防衛モデル2の大規模頑健なS-HARベンチマークを構築した。 大規模な結果はTASARの優位性を示している。 我々のベンチマークは、補足材料で利用可能なコードを使って、将来の研究を簡単に比較できる。

Skeletal sequences, as well-structured representations of human behaviors, are crucial in Human Activity Recognition (HAR). The transferability of adversarial skeletal sequences enables attacks in real-world HAR scenarios, such as autonomous driving, intelligent surveillance, and human-computer interactions. However, existing Skeleton-based HAR (S-HAR) attacks exhibit weak adversarial transferability and, therefore, cannot be considered true transfer-based S-HAR attacks. More importantly, the reason for this failure remains unclear. In this paper, we study this phenomenon through the lens of loss surface, and find that its sharpness contributes to the poor transferability in S-HAR. Inspired by this observation, we assume and empirically validate that smoothening the rugged loss landscape could potentially improve adversarial transferability in S-HAR. To this end, we propose the first Transfer-based Attack on Skeletal Action Recognition, TASAR. TASAR explores the smoothed model posterior without re-training the pre-trained surrogates, which is achieved by a new post-train Dual Bayesian optimization strategy. Furthermore, unlike previous transfer-based attacks that treat each frame independently and overlook temporal coherence within sequences, TASAR incorporates motion dynamics into the Bayesian attack gradient, effectively disrupting the spatial-temporal coherence of S-HARs. To exhaustively evaluate the effectiveness of existing methods and our method, we build the first large-scale robust S-HAR benchmark, comprising 7 S-HAR models, 10 attack methods, 3 S-HAR datasets and 2 defense models. Extensive results demonstrate the superiority of TASAR. Our benchmark enables easy comparisons for future studies, with the code available in the supplementary material.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 機械学習による可視化における敵対的攻撃

Adversarial Attacks on Machine Learning-Aided Visualizations ( http://arxiv.org/abs/2409.02485v1 )

ライセンス: Link先を確認
Takanori Fujiwara, Kostiantyn Kucher, Junpeng Wang, Rafael M. Martins, Andreas Kerren, Anders Ynnerman, (参考訳) ML4VISの研究は、可視化を生成するために機械学習(ML)技術をどのように使うかを調べ、その分野は社会的に高い影響で急速に成長している。 しかし、MLプロセスを利用する他の計算パイプラインと同様に、ML4VISアプローチはML固有の敵攻撃の幅に影響を受けやすい。 これらの攻撃は視覚化世代を操作でき、アナリストが騙され、判断が損なわれる。 可視化とMLの両方の観点からの合成が欠如しているため、このセキュリティの側面は現在のML4VISの文献でほとんど見過ごされている。 このギャップを埋めるために、可視化とMLの両視点の全体像レンズを用いて、敵攻撃からのML支援視覚化の潜在的な脆弱性について検討する。 まず、ML支援視覚化においてユニークな攻撃面(すなわち、攻撃エントリポイント)を識別する。 次に、我々は5つの異なる敵攻撃を例示する。 これらの例は、攻撃面と複数の異なる敵の能力を考慮して、攻撃の可能性の範囲を強調している。 この結果から,ML推論に影響を及ぼす入力属性を体系的に同定することにより,任意の視覚的かつ欺くような攻撃を回避できることが示唆された。 攻撃面の特徴と攻撃事例の観察から,ML4VISコミュニティに対する緊急の呼びかけとして,セキュリティ問題と防衛機構の包括的研究の重要性を浮き彫りにしている。

Research in ML4VIS investigates how to use machine learning (ML) techniques to generate visualizations, and the field is rapidly growing with high societal impact. However, as with any computational pipeline that employs ML processes, ML4VIS approaches are susceptible to a range of ML-specific adversarial attacks. These attacks can manipulate visualization generations, causing analysts to be tricked and their judgments to be impaired. Due to a lack of synthesis from both visualization and ML perspectives, this security aspect is largely overlooked by the current ML4VIS literature. To bridge this gap, we investigate the potential vulnerabilities of ML-aided visualizations from adversarial attacks using a holistic lens of both visualization and ML perspectives. We first identify the attack surface (i.e., attack entry points) that is unique in ML-aided visualizations. We then exemplify five different adversarial attacks. These examples highlight the range of possible attacks when considering the attack surface and multiple different adversary capabilities. Our results show that adversaries can induce various attacks, such as creating arbitrary and deceptive visualizations, by systematically identifying input attributes that are influential in ML inferences. Based on our observations of the attack surface characteristics and the attack examples, we underline the importance of comprehensive studies of security issues and defense mechanisms as a call of urgency for the ML4VIS community.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# メタ初期化によるゼロショットクロスデータセット単一画像屋内深度への一般化性の向上

Boosting Generalizability towards Zero-Shot Cross-Dataset Single-Image Indoor Depth by Meta-Initialization ( http://arxiv.org/abs/2409.02486v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Yiqi Zhong, Junying Wang, Ulrich Neumann, (参考訳) 室内ロボットは、ナビゲーションや障害物検出などのタスクを行うために深度に依存する。 屋内でのシングルイメージの深度予測は、システム展開の現場での堅牢性に関係して、目に見えないデータセットに対するモデル一般化性に重点を置いている。 この研究は勾配に基づくメタラーニングを活用し、ゼロショットのクロスデータセット推論における高い一般化性を得る。 明示的なクラスラベルに関連付けられた画像分類の最も研究されているメタラーニングとは異なり、オブジェクト配置やシーン構成に関して高度に変化する屋内環境に関連する連続的な深度値に対して、明確なタスク境界は存在しない。 メタラーニングの定式化において,RGB-Dミニバッチをタスクとして扱う細粒度タスクを提案する。 まず, 制限データに対する手法により, RMSEでは最大27.8%) の精度が向上することを示した。 そして、メタ学習初期化の微調整は、メタアプローチなしでベースラインを一貫して上回る。 一般化を目的としたゼロショット・クロスデータセットプロトコルを提案し,メタ初期化によって誘導される高次一般化性を,既存の多くの深度推定手法の簡易かつ有用なプラグインとして検証する。 深度とメタラーニングの交差点でのこの研究は、両方の研究を、実用的なロボットと機械認識の使用に近づける可能性がある。

Indoor robots rely on depth to perform tasks like navigation or obstacle detection, and single-image depth estimation is widely used to assist perception. Most indoor single-image depth prediction focuses less on model generalizability to unseen datasets, concerned with in-the-wild robustness for system deployment. This work leverages gradient-based meta-learning to gain higher generalizability on zero-shot cross-dataset inference. Unlike the most-studied meta-learning of image classification associated with explicit class labels, no explicit task boundaries exist for continuous depth values tied to highly varying indoor environments regarding object arrangement and scene composition. We propose fine-grained task that treats each RGB-D mini-batch as a task in our meta-learning formulation. We first show that our method on limited data induces a much better prior (max 27.8% in RMSE). Then, finetuning on meta-learned initialization consistently outperforms baselines without the meta approach. Aiming at generalization, we propose zero-shot cross-dataset protocols and validate higher generalizability induced by our meta-initialization, as a simple and useful plugin to many existing depth estimation methods. The work at the intersection of depth and meta-learning potentially drives both research to step closer to practical robotic and machine perception usage.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# NeuroSpex:クロスモーダルアテンションを用いたニューロガイド型話者抽出

NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention ( http://arxiv.org/abs/2409.02489v1 )

ライセンス: Link先を確認
Dashanka De Silva, Siqi Cai, Saurav Pahuja, Tanja Schultz, Haizhou Li, (参考訳) 聴覚的注意研究において,脳波(EEG)で測定可能な,参加者の音声と誘発された神経反応との間には強い相関関係があることが判明した。 そのため、脳波信号内で利用可能な注意情報を用いて、カクテルパーティーにおける対象話者の抽出を計算的に導くことができる。 本稿では,脳神経誘導型話者抽出モデル,すなわちNeuroSpexについて,聴取者の脳波応答を単独の補助的基準キューとして用いて,単音混合音声から参加者音声を抽出する。 注目情報をキャプチャする新しい脳波信号エンコーダを提案する。 さらに、話者抽出マスクを生成することで、音声特徴表現を強化するクロスアテンション(CA)機構を提案する。 公開データセットを用いた実験結果から,提案モデルが各種評価指標において2つのベースラインモデルより優れていることが示された。

In the study of auditory attention, it has been revealed that there exists a robust correlation between attended speech and elicited neural responses, measurable through electroencephalography (EEG). Therefore, it is possible to use the attention information available within EEG signals to guide the extraction of the target speaker in a cocktail party computationally. In this paper, we present a neuro-guided speaker extraction model, i.e. NeuroSpex, using the EEG response of the listener as the sole auxiliary reference cue to extract attended speech from monaural speech mixtures. We propose a novel EEG signal encoder that captures the attention information. Additionally, we propose a cross-attention (CA) mechanism to enhance the speech feature representations, generating a speaker extraction mask. Experimental results on a publicly available dataset demonstrate that our proposed model outperforms two baseline models across various evaluation metrics.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# TP-GMOT:動き提示コスト(MAC)SORTを用いたテキストプロンプトによるジェネリック多重物体の追跡

TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT ( http://arxiv.org/abs/2409.02490v1 )

ライセンス: Link先を確認
Duy Le Dinh Anh, Kim Hoang Tran, Ngan Hoang Le, (参考訳) マルチオブジェクト追跡(MOT)はかなり進歩してきたが、事前知識に大きく依存し、予め定義されたカテゴリに限られている。 対照的に、類似した外観を持つ複数のオブジェクトを追跡するジェネリック・マルチオブジェクト追跡(GMOT)は、ターゲットに関する事前情報が少ないが、視点、照明、オクルージョン、解像度などのバリエーションによる課題に直面している。 私たちのコントリビューションは、ビデオの集合である‘textbf{\text{Refer-GMOT dataset}}の導入から始まり、それぞれの属性の詳細なテキスト記述が伴います。 次に,テキストプロンプトをベースとしたオープン語彙GMOTフレームワークである‘textbf{\text{TP-GMOT}}を導入する。 text{TP-GMOT} フレームワークでは、2つの新しいコンポーネントを紹介します。 i) {\textbf{\text{TP-OD}} テキストプロンプトによるオブジェクト検出で、特定の特徴を持つ未確認オブジェクトを正確に検出する。 (II)モーションアプライアンスコスト SORT \textbf{\text{MAC-SORT}} は、複数のジェネリックオブジェクトを高い類似性で追跡する複雑なタスクに取り組むために、動きと外観に基づくマッチング戦略を包括的に統合する新しいオブジェクトアソシエーションアプローチである。 私たちのコントリビューションは、GMOTタスクのtext{Refer-GMOT}データセットでベンチマークされます。 また,提案した‘text{TP-GMOT}フレームワークの一般化性と,‘text{MAC-SORT}トラッカーの有効性を評価するために,MOTタスクのためのDanceTrackおよびMOT20データセットのアブレーション研究を行う。 私たちのデータセット、コード、モデルは、https://fsoft-aic.github.io/TP-GMOTで公開されます。

While Multi-Object Tracking (MOT) has made substantial advancements, it is limited by heavy reliance on prior knowledge and limited to predefined categories. In contrast, Generic Multiple Object Tracking (GMOT), tracking multiple objects with similar appearance, requires less prior information about the targets but faces challenges with variants like viewpoint, lighting, occlusion, and resolution. Our contributions commence with the introduction of the \textbf{\text{Refer-GMOT dataset}} a collection of videos, each accompanied by fine-grained textual descriptions of their attributes. Subsequently, we introduce a novel text prompt-based open-vocabulary GMOT framework, called \textbf{\text{TP-GMOT}}, which can track never-seen object categories with zero training examples. Within \text{TP-GMOT} framework, we introduce two novel components: (i) {\textbf{\text{TP-OD}}, an object detection by a textual prompt}, for accurately detecting unseen objects with specific characteristics. (ii) Motion-Appearance Cost SORT \textbf{\text{MAC-SORT}}, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking multiple generic objects with high similarity. Our contributions are benchmarked on the \text{Refer-GMOT} dataset for GMOT task. Additionally, to assess the generalizability of the proposed \text{TP-GMOT} framework and the effectiveness of \text{MAC-SORT} tracker, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models will be publicly available at: https://fsoft-aic.github.io/TP-GMOT
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 信頼性の高い深拡散テンソル推定:データ駆動最適化ルーチンのパワーを再考する

Reliable Deep Diffusion Tensor Estimation: Rethinking the Power of Data-Driven Optimization Routine ( http://arxiv.org/abs/2409.02492v1 )

ライセンス: Link先を確認
Jialong Li, Zhicheng Zhang, Yunwei Chen, Qiqi Lu, Ye Wu, Xiaoming Liu, QianJin Feng, Yanqiu Feng, Xinyuan Zhang, (参考訳) 拡散テンソルイメージング(DTI)は臨床診断や神経科学研究において重要な役割を担っている。 しかし、従来のモデルベースのフィッティング法は、しばしばノイズに対する感度に悩まされ、DTIパラメータの推定精度が低下する。 従来のデータ駆動型ディープラーニング手法は精度と効率の面で可能性を示しているが、トレーニング外の分散データへの限定的な一般化は、センター、スキャナー、研究にまたがる多様なスキャンプロトコルのために、より広範な応用を妨げる。 本研究の目的は,データ駆動型最適化手法であるDoDTIを導入することにより,これらの課題に対処し,DTIの利用を促進することである。 DoDTIは重み付き線形最小二乗フィッティングアルゴリズムとデノジング手法による正規化を組み合わせた。 前者は、様々な取得設定から拡散テンソル場にDW画像を適合させ、後者は、DW画像の代わりに拡散テンソルフィールドを正規化するためのディープラーニングベースのデノイザを適用し、ネットワークの固定チャネル割り当ての制限が不要となる。 最適化対象を乗算器の交互方向法を用いて解き、次にアンロールしてディープニューラルネットワークを構築し、ネットワークパラメータを学習するためのデータ駆動戦略を活用する。 内部シミュレーションデータセットと外部から得られたインビビオデータセットの両方を用いて、広範囲な検証実験を行う。 その結果, DTIパラメータ推定において, 定性解析と定量的解析の両面から, 提案手法が最先端性能を達成できることが示唆された。 特に、より優れた一般化、精度、効率を示し、この分野の幅広い応用に高い信頼性を与えている。

Diffusion tensor imaging (DTI) holds significant importance in clinical diagnosis and neuroscience research. However, conventional model-based fitting methods often suffer from sensitivity to noise, leading to decreased accuracy in estimating DTI parameters. While traditional data-driven deep learning methods have shown potential in terms of accuracy and efficiency, their limited generalization to out-of-training-distribution data impedes their broader application due to the diverse scan protocols used across centers, scanners, and studies. This work aims to tackle these challenges and promote the use of DTI by introducing a data-driven optimization-based method termed DoDTI. DoDTI combines the weighted linear least squares fitting algorithm and regularization by denoising technique. The former fits DW images from diverse acquisition settings into diffusion tensor field, while the latter applies a deep learning-based denoiser to regularize the diffusion tensor field instead of the DW images, which is free from the limitation of fixed-channel assignment of the network. The optimization object is solved using the alternating direction method of multipliers and then unrolled to construct a deep neural network, leveraging a data-driven strategy to learn network parameters. Extensive validation experiments are conducted utilizing both internally simulated datasets and externally obtained in-vivo datasets. The results, encompassing both qualitative and quantitative analyses, showcase that the proposed method attains state-of-the-art performance in DTI parameter estimation. Notably, it demonstrates superior generalization, accuracy, and efficiency, rendering it highly reliable for widespread application in the field.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# 平面2深度:単眼深度推定のための階層型適応平面誘導

Plane2Depth: Hierarchical Adaptive Plane Guidance for Monocular Depth Estimation ( http://arxiv.org/abs/2409.02494v1 )

ライセンス: Link先を確認
Li Liu, Ruijie Zhu, Jiacheng Deng, Ziyang Song, Wenfei Yang, Tianzhu Zhang, (参考訳) 単眼深度推定は、コンピュータビジョンの基本的なタスクである1つの画像から高密度深度マップを推定することを目的としている。 多くの先行研究は、注意深く設計されたネットワーク構造を通して、印象的な深さ推定結果を示してきたが、通常は平面情報を無視するので、室内の低テクスチャ領域では不十分である。 本論文では,平面情報を適応的に利用し,階層的枠組み内での深度予測を改善するPlane2Depthを提案する。 具体的には,提案した平面案内深度発生器 (PGDG) において,シーン内の平面をソフトにモデル化し,画素ごとの平面係数を予測するためのプロトタイプとして,平面クエリのセットを設計する。 そして、予測平面係数をピンホールカメラモデルを用いてメートル法深さ値に変換することができる。 提案するアダプティブ・プレーン・クエリー・アグリゲーション(APGA)モジュールでは,マルチスケールの平面特徴のアグリゲーションをトップダウン方式で改善する新たな特徴相互作用手法を提案する。 特に低テクスチャ領域や反復領域において,本手法が優れた性能を発揮することを示す。 さらに,同じバックボーンネットワーク下では,NYU-Depth-v2データセットの最先端手法よりも優れ,最先端手法のKITTIデータセットと競合する結果が得られる。

Monocular depth estimation aims to infer a dense depth map from a single image, which is a fundamental and prevalent task in computer vision. Many previous works have shown impressive depth estimation results through carefully designed network structures, but they usually ignore the planar information and therefore perform poorly in low-texture areas of indoor scenes. In this paper, we propose Plane2Depth, which adaptively utilizes plane information to improve depth prediction within a hierarchical framework. Specifically, in the proposed plane guided depth generator (PGDG), we design a set of plane queries as prototypes to softly model planes in the scene and predict per-pixel plane coefficients. Then the predicted plane coefficients can be converted into metric depth values with the pinhole camera model. In the proposed adaptive plane query aggregation (APGA) module, we introduce a novel feature interaction approach to improve the aggregation of multi-scale plane features in a top-down manner. Extensive experiments show that our method can achieve outstanding performance, especially in low-texture or repetitive areas. Furthermore, under the same backbone network, our method outperforms the state-of-the-art methods on the NYU-Depth-v2 dataset, achieves competitive results with state-of-the-art methods KITTI dataset and can be generalized to unseen scenes effectively.
翻訳日:2024-09-05 20:02:12 公開日:2024-09-04
# CoAst:クロスラウンド評価に基づくフェデレーション学習のためのバリデーションフリーコントリビューションアセスメント

CoAst: Validation-Free Contribution Assessment for Federated Learning based on Cross-Round Valuation ( http://arxiv.org/abs/2409.02495v1 )

ライセンス: Link先を確認
Hao Wu, Likun Zhang, Shucheng Li, Fengyuan Xu, Sheng Zhong, (参考訳) フェデレートラーニング(FL)プロセスでは、各参加者が保持するデータが異なるため、どの参加者がモデルの性能に高い貢献をしているかを理解する必要がある。 効果的なコントリビューションアセスメントは、データ所有者がFLトレーニングに参加する動機付けに役立つ。 この分野での研究は、検証データセットが必要かどうかに基づいて2つの方向に分けられる。 検証に基づく手法ではモデルの精度を測定するために代表的検証データを使う必要があり、実際のFLシナリオでは入手が困難である。 既存の検証不要な手法では,1回のトレーニングラウンドにおいて,局所モデルとグローバルモデルのパラメータと勾配に基づいてコントリビューションを評価することができる。 本研究では,検証データにアクセスせずにFL参加者のコントリビューションを評価するための実践的手法であるCoAstを提案する。 CoAstの中核的な考え方は2つの側面である: 1つは重み付け量子化によってモデルパラメータの最も重要な部分だけを数えることであり、もう1つは現在のローカルパラメータとその後の複数の通信ラウンドにおけるグローバルパラメータの更新との類似性に基づく、クロスラウンドな評価である。 大規模な実験により、CoAstは既存のバリデーションベースのメソッドと同等の評価信頼性を持ち、既存のバリデーションフリーメソッドより優れていることが示された。

In the federated learning (FL) process, since the data held by each participant is different, it is necessary to figure out which participant has a higher contribution to the model performance. Effective contribution assessment can help motivate data owners to participate in the FL training. Research works in this field can be divided into two directions based on whether a validation dataset is required. Validation-based methods need to use representative validation data to measure the model accuracy, which is difficult to obtain in practical FL scenarios. Existing validation-free methods assess the contribution based on the parameters and gradients of local models and the global model in a single training round, which is easily compromised by the stochasticity of model training. In this work, we propose CoAst, a practical method to assess the FL participants' contribution without access to any validation data. The core idea of CoAst involves two aspects: one is to only count the most important part of model parameters through a weights quantization, and the other is a cross-round valuation based on the similarity between the current local parameters and the global parameter updates in several subsequent communication rounds. Extensive experiments show that CoAst has comparable assessment reliability to existing validation-based methods and outperforms existing validation-free methods.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# マルチクロモフォリック系における励起エネルギー移動のダイナミクスへの自己整合的アプローチ

Self-consistent approach to the dynamics of excitation energy transfer in multichromophoric systems ( http://arxiv.org/abs/2409.02496v1 )

ライセンス: Link先を確認
Veljko Janković, Tomáš Mančal, (参考訳) 構造ボソニック環境に浸漬された分子集合体におけるエキシトン輸送の研究方法として,計算可能で信頼性の高い近似的手法が盛んに開発されている。 一般化された量子マスター方程式のメモリカーネルの最低階(ボーン)近似を超えると、典型的には複雑でおそらく分岐した式が生じる。 ボイン近似のメモリカーネルから始めて、量子マスター方程式をグリーン関数理論のダイソン方程式として認識し、自己整合ボルン近似を定式化し、エキシトン-環境相互作用の力でメモリ-カーネル摂動系列を再開する。 我々の定式化は、リウヴィル空間と周波数領域にあり、任意のエキシトン環境スペクトル密度を扱う。 過大な振動子環境に結合した分子二量体において、自己整合サイクルはボルン近似エネルギー移動力学を著しく改善する。 自己一貫性ボルン近似の力学は、強い励起子-環境相互作用、緩やかな環境、低温といった最も困難な状態を含む、幅広いパラメータの階層的な運動方程式の解とよく一致する。 これは純粋復号化モデルにおけるコヒーレンス-復号化力学の解析的考察によって合理化される。 その結果, 自励式ボルン近似は, 励起子エネルギーギャップを持つ振動共振器 (オフ共振器) によって変調されたエネルギー伝達を記述するのによい(弱い)ことが判明した。 それでも、過度に損傷された連続体と過度に損傷された振動の両方からなる現実的な環境で、フェンナ・マシューズ・オルソン錯体の7サイトモデルにおける励起子力学を合理的に記述している。

Computationally tractable and reliable, albeit approximate, methods for studying exciton transport in molecular aggregates immersed in structured bosonic environments have been actively developed. Going beyond the lowest-order (Born) approximation for the memory kernel of the generalized quantum master equation typically results in complicated and possibly divergent expressions. Starting from the memory kernel in the Born approximation, and recognizing the quantum master equation as the Dyson equation of the Green's functions theory, we formulate the self-consistent Born approximation to resum the memory-kernel perturbation series in powers of the exciton-environment interaction. Our formulation is in the Liouville space and frequency domain, and handles arbitrary exciton-environment spectral densities. In a molecular dimer coupled to an overdamped oscillator environment, we conclude that the self-consistent cycle significantly improves the Born-approximation energy-transfer dynamics. The dynamics in the self-consistent Born approximation agree well with solutions of hierarchical equations of motion over a wide range of parameters, including the most challenging regimes of strong exciton-environment interactions, slow environments, and low temperatures. This is rationalized by analytical considerations of coherence-dephasing dynamics in the pure-dephasing model. We find that the self-consistent Born approximation is good (poor) at describing energy transfer modulated by an underdamped vibration resonant (off-resonant) with the exciton energy gap. Nevertheless, it reasonably describes exciton dynamics in the seven-site model of the Fenna-Matthews-Olson complex in a realistic environment comprising both an overdamped continuum and underdamped vibrations.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# RAW再構成のための学習可能な色補正マトリックス

A Learnable Color Correction Matrix for RAW Reconstruction ( http://arxiv.org/abs/2409.02497v1 )

ライセンス: Link先を確認
Anqi Liu, Shiyi Mu, Shugong Xu, (参考訳) 自律運転アルゴリズムは通常、人間の視覚システムとの互換性のため、モデル入力としてsRGBイメージを使用する。 しかし、SRGB画像はRAW画像と比較すると、下流タスクに準最適である可能性がある。 RAW画像の入手は,実世界の運転データ収集の難しさとアノテーションの問題点に制約されている。 この制限に対処し、RAWドメイン駆動知覚における研究を支援するために、新しい超軽量RAW再構成法を設計する。 提案モデルでは,1つの畳み込み層のみを用いて複雑な逆画像信号処理(ISP)を近似する学習可能な色補正行列(CCM)を提案する。 実験により,本手法により生成されたRAW(simRAW)画像は,RAWドメインオブジェクト検出器の事前学習において,より複雑な逆ISP法で生成された画像と同等の性能向上を実現し,本手法の有効性と実用性を強調した。

Autonomous driving algorithms usually employ sRGB images as model input due to their compatibility with the human visual system. However, visually pleasing sRGB images are possibly sub-optimal for downstream tasks when compared to RAW images. The availability of RAW images is constrained by the difficulties in collecting real-world driving data and the associated challenges of annotation. To address this limitation and support research in RAW-domain driving perception, we design a novel and ultra-lightweight RAW reconstruction method. The proposed model introduces a learnable color correction matrix (CCM), which uses only a single convolutional layer to approximate the complex inverse image signal processor (ISP). Experimental results demonstrate that simulated RAW (simRAW) images generated by our method provide performance improvements equivalent to those produced by more complex inverse ISP methods when pretraining RAW-domain object detectors, which highlights the effectiveness and practicality of our approach.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 時空カイラル構造の幾何学

Geometry of temporal chiral structures ( http://arxiv.org/abs/2409.02500v1 )

ライセンス: Link先を確認
Andres F. Ordonez, Aycke Roos, Pablo M. Maier, David Ayuso, Olga Smirnova, (参考訳) 非相対論的物理学において、幾何学と位相の概念は通常、空間構造や運動量空間の構造を特徴づけるために用いられる。 時間的幾何学の概念は、時間的形状の幾何学的および位相的特性、すなわちベクトル空間における時間依存ベクトルの先端によって追跡される軌跡を包含する。 超高速電子電流のベクトルやキラル分子の誘導偏極に応用する。 時間幾何学の中心的な概念である曲率と接続は、光励起非平衡キラル電子力学のユビキタスな特徴として現れる。 私たちは曲率と接続性を実証します i) 分子キラリティの相互作用と光パルスの偏光特性に依存する。 (ii)は多光子過程に導入でき、 3) レーザー磁場によって励起される非平衡電子動力学によるエナンチオ感受性幾何観測装置の制御 我々の発見は、超高速で、トポロジカルに非自明で、エナンチオ感受性の化学動力学への道を開くかもしれない。

In non-relativistic physics the concepts of geometry and topology are usually applied to characterise spatial structures, or structures in momentum space. We introduce the concept of temporal geometry, which encompasses the geometric and topological properties of temporal shapes, i.e. trajectories traced by a tip of a time-dependent vector in vector space. We apply it to vectors of ultrafast electron current or induced polarization in chiral molecules. The central concepts of temporal geometry - curvature and connection - emerge as ubiquitous features of photoexcited, non-equilibrium, chiral electron dynamics. We demonstrate that curvature and connection (i) rely on the interplay of molecular chirality and the polarization properties of light pulses, (ii) can be introduced for multiphoton processes, and (iii) control enantio-sensitive geometric observables via non-equilibrium electronic dynamics excited by tailored laser fields. Our findings may open a way to ultrafast, topologically non-trivial, and enantio-sensitive chemical dynamics.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 量子クリロフ部分空間対角化における有限サンプリング誤差の低減

Reduction of Finite Sampling Error in Quantum Krylov Subspace Diagonalization ( http://arxiv.org/abs/2409.02504v1 )

ライセンス: Link先を確認
Gwonhak Lee, Seonghoon Choi, Joonsuk Huh, Artur F. Izmaylov, (参考訳) 早期フォールトトレラント量子コンピューティング(EFTQC)の領域において、量子クリロフ部分空間対角化(QKSD)は量子クリロフ部分空間への射影による近似ハミルトン対角化のための有望な量子アルゴリズムとして最近登場した。 しかし、このアルゴリズムの適用はしばしば、誤った行列対に付随する不条件の一般化固有値問題(GEVP)を解くことを必要とし、解にかなりの歪みをもたらす。 EFTQCは小さなスケールで誤差補正を仮定するので、行列の誤差はサンプリング誤差が有限である。 本研究は、ハミルトニアン分解に基づく2つの測定手法(ユニタリと対角化可能なフラグメントの線形結合)を考えることにより、射影ハミルトニアンの行列要素の測定におけるサンプリング誤差の定量化に焦点をあてる。 さらに,量子回路繰り返しにおけるサンプリング誤差を最小限に抑えるための2つの測定方法,シフト法と係数分割法を提案する。 シフト技術は、ブラまたはケット状態の1つを消滅させるハミルトニアンからの冗長な部分を除去する。 係数分割法は、異なる回路で測定できる各共通項の割り当てを最適化する。 小分子の電子構造を用いた数値実験は、これらの戦略の有効性を示し、サンプリングコストを20~500倍に削減した。

Within the realm of early fault-tolerant quantum computing (EFTQC), quantum Krylov subspace diagonalization (QKSD) has recently emerged as a promising quantum algorithm for the approximate Hamiltonian diagonalization through projection onto the quantum Krylov subspace. However, the application of this algorithm often entails solving an ill-conditioned generalized eigenvalue problem (GEVP) associated with an erroneous matrix pair, which can cause significant distortion to the solution. Because EFTQC assumes error correction albeit on a small scale, errors in the matrices are predominant due to finite sampling error. This work focuses on quantifying the sampling error within the measurement of matrix element of projected Hamiltonian by considering two measurement approaches based on the Hamiltonian decompositions: linear combination of unitaries and diagonalizable fragments. Furthermore, we propose two measurement strategies to minimize the sampling error with a given budget for quantum circuit repetitions: the shifting technique and coefficient splitting. The shifting technique removes redundant parts from the Hamiltonian that annihilate one of the bra or ket states. The coefficient splitting method optimizes the allocation of each common term that can be measured in different circuits. Numerical experiments with electronic structures of small molecules demonstrate the effectiveness of these strategies, showing a reduction in sampling costs by a factor of 20-500.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# フォールトトレラント量子フーリエ変換におけるCNOT-complexityの正確な下界

The exact lower bound of CNOT-complexity for fault-tolerant quantum Fourier transform ( http://arxiv.org/abs/2409.02506v1 )

ライセンス: Link先を確認
Qiqing Xia, Huiqin Xie, Li Yang, (参考訳) 量子フーリエ変換(QFT)は多くの量子アルゴリズムにおいて重要なサブルーチンである。 本稿では,耐故障性QFTにおけるCNOTゲート複雑性の正確な下限問題について検討する。 まず、QFT論理回路におけるアンシラフリー制御-$R_k$を標準の普遍ゲートセットで近似し、Tゲートの数を最小化することを検討する。 制御されたR_k$が異なる方法で分解された場合、CNOTゲートに加えて、様々な単一ビットゲートが生成される。 その後、QFTのTゲート複雑性の正確な下界問題はNP完全であることが証明された。 さらに、普遍的な量子ゲートの超越的な実装を提案し、それが最小数のCNOTゲートを持つことを証明し、Tゲートを超越的に実装するための最小のCNOTカウントを分析する。 次に, 耐故障性QFTに対するCNOTゲートの正確な下限を, 現在の耐故障性精度10^{-2}で正確に計算する。 我々の研究は、量子環境におけるアクティブディフェンスに基づくアルゴリズム設計のリファレンスを提供することができる。

The quantum Fourier transform (QFT) is a crucial subroutine in many quantum algorithms. In this paper, we study the exact lower bound problem of CNOT gate complexity for fault-tolerant QFT. First, we consider approximating the ancilla-free controlled-$R_k$ in the QFT logical circuit with a standard set of universal gates, aiming to minimize the number of T gates. Various single-qubit gates are generated in addition to CNOT gates when the controlled-$R_k$ is decomposed in different ways, we propose an algorithm that combines numerical and analytical methods to exactly compute the minimum T gate count for approximating any single-qubit gate with any given accuracy. Afterwards, we prove that the exact lower bound problem of T gate complexity for the QFT is NP-complete. Furthermore, we provide the transversal implementation of universal quantum gates and prove that it has the minimum number of CNOT gates and analyze the minimum CNOT count for transversally implementing the T gate. We then exactly compute the exact lower bound of CNOT gate complexity for fault-tolerant QFT with the current maximum fault-tolerant accuracy 10^{-2}. Our work can provide a reference for designing algorithms based on active defense in a quantum setting.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# TLD:車載ライト信号データセットとベンチマーク

TLD: A Vehicle Tail Light signal Dataset and Benchmark ( http://arxiv.org/abs/2409.02508v1 )

ライセンス: Link先を確認
Jinhao Chai, Shiyi Mu, Shugong Xu, (参考訳) 他のドライバーの意図を理解することは安全な運転に不可欠である。 これらの意図を伝える上でのテールライトの役割は、現在の自律運転システムでは強調されていない。 正確なテールライト信号の同定は、車両の挙動の予測と衝突の防止に不可欠である。 オープンソースのテールライトデータセットは少なく、しばしば小さく、一貫性のない注釈付きである。 このギャップに対処するため、我々はTLDと呼ばれる大規模テールライトデータセットを導入しました。 グローバルにソースされた私たちのデータセットは、さまざまなトラフィックシナリオをカバーしています。 我々の知る限り、TLDは実際の運転シナリオでブレーキライトと信号を別々にアノテートする最初のデータセットである。 われわれは17.78時間分の動画をインターネットから収集した。 このデータセットは、152kのラベル付き画像フレームを2Hzの速度でサンプリングし、150万のラベルなしのフレームを全周に散らばっている。 さらに,車両検知器とテールライト分類器の2つの主要モジュールからなる2段階の車両光検出モデルを開発した。 当初、YOLOv10とDeepSORTは連続した車両画像を撮影していた。 その後、2つの分類器が同時に動作し、ブレーキライトの状態を判定し、信号を回す。 次に、後処理手順を用いて、誤識別によるノイズを除去し、所定の時間枠内で車両のテールライト状態を提供する。 提案手法は,車両のテールライト検出のためのベンチマークを構築し,データセット上での異常な性能を示す。 データセットはhttps://huggingface.co/datasets/ChaiJohn/TLD/tree/mainで利用可能である。

Understanding other drivers' intentions is crucial for safe driving. The role of taillights in conveying these intentions is underemphasized in current autonomous driving systems. Accurately identifying taillight signals is essential for predicting vehicle behavior and preventing collisions. Open-source taillight datasets are scarce, often small and inconsistently annotated. To address this gap, we introduce a new large-scale taillight dataset called TLD. Sourced globally, our dataset covers diverse traffic scenarios. To our knowledge, TLD is the first dataset to separately annotate brake lights and turn signals in real driving scenarios. We collected 17.78 hours of driving videos from the internet. This dataset consists of 152k labeled image frames sampled at a rate of 2 Hz, along with 1.5 million unlabeled frames interspersed throughout. Additionally, we have developed a two-stage vehicle light detection model consisting of two primary modules: a vehicle detector and a taillight classifier. Initially, YOLOv10 and DeepSORT captured consecutive vehicle images over time. Subsequently, the two classifiers work simultaneously to determine the states of the brake lights and turn signals. A post-processing procedure is then used to eliminate noise caused by misidentifications and provide the taillight states of the vehicle within a given time frame. Our method shows exceptional performance on our dataset, establishing a benchmark for vehicle taillight detection. The dataset is available at https://huggingface.co/datasets/ChaiJohn/TLD/tree/main
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# エンタングルメント鍛造とテレポーテーションによる分散量子計算

Distributed Quantum Computation via Entanglement Forging and Teleportation ( http://arxiv.org/abs/2409.02509v1 )

ライセンス: Link先を確認
Tian-Ren Jin, Kai Xu, Heng Fan, (参考訳) 分散量子計算は、限られたサイズの量子プロセッサ上での大規模量子計算の実用的な方法である。 空飛ぶ量子ビットにおける直接量子チャネルによって実現することができる。 さらに、予め確立された量子絡み合いは、局所的な演算と古典的なチャネルを持つ量子チャネルの役割も果たせる。 しかし、量子チャネルやエンタングルメントのような量子相関がなければ、エンタングルメント鍛造技術は局所的な操作と古典的なチャネルのみで古典的に絡み合った状態をフォージすることができる。 本稿では,古典的に鍛造されたベル状態とのテレポーテーションが量子状態トモグラフィと等価であるという事実に基づいて,量子相関のない2つの量子プロセッサ上で非局所量子回路を実装する手法を実証する。 補償として、単発測定のオーバーヘッドが増加し、いくつかの補助量子ビットが要求される。 我々の結果は量子プロセッサの統合の可能性を広げた。 提案手法は,分散量子計算のツールボックスを補完し,量子計算の規模を拡大することを期待する。

Distributed quantum computation is a practical method for large-scale quantum computation on quantum processors with limited size. It can be realized by direct quantum channels in flying qubits. Moreover, the pre-established quantum entanglements can also play the role of quantum channels with local operations and classical channels. However, without quantum correlations like quantum channels and entanglements, the entanglement forging technique allows us to classically forge the entangled states with local operations and classical channels only. In this paper, we demonstrate the methods to implement a nonlocal quantum circuit on two quantum processors without any quantum correlations, which is based on the fact that teleportation with classically forged Bell states is equivalent to quantum state tomography. In compensation, the overhead of single-shot measurement will increase, and several auxiliary qubits are required. Our results extend the possibility of integrating quantum processors. We expect that our methods will complement the toolbox of distributed quantum computation, and facilitate the extension of the scale of quantum computations.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# ベルパラメータの単対測定結果

Consequences of the single-pair measurement of the Bell parameter ( http://arxiv.org/abs/2409.02510v1 )

ライセンス: Link先を確認
Marco Genovese, Fabrizio Piacentini, (参考訳) ベルの不等式は、量子基礎研究と技術応用(例えば、量子通信と絡み合い証明)の両方において、現代物理学のマイルストーンである。 ループホールフリーテストは近年実施されているが、ベルの不等式テストの実際の意味について、例えばベルの定理に追加の仮説(最終的なループホール)を含める可能性や、量子力学の特定の解釈の意味について、強い議論が続いている。 最近の作品[S。 Virz\`i et al , Quantum Sci 技術系。 9, 045027 (2024)] この議論のいくつかに挑戦し、弱い相互作用に基づく測定手法により、単一の絡み合ったペアからベル-CHSHパラメータ全体を実験的に評価した。 ここでは、この結果が量子力学の基礎研究に与える影響を分析し、前述のベルの不等式テストの解釈や、より一般的には量子力学自体の解釈にどのように対処できるかを解説する。

Bell inequalities represent a milestone for contemporary Physics, both for quantum foundations investigation and technological applications (e.g., quantum communication and entanglement certification). Although loophole-free tests have been recently performed, a strong debate is still ongoing on the actual meaning of Bell inequality tests, for example on the possible additional hypotheses (end eventual loopholes) to be included in Bell's theorem, as well as on the implications for certain interpretations of quantum mechanics. A recent work [S. Virz\`i et al., Quantum Sci. Technol. 9, 045027 (2024)] challenges some of the statements appeared in this debate, achieving for the first time an experimental estimation of the entire Bell-CHSH parameter from a single entangled pair thanks to a weak-interaction-based measurement approach. Here we analyse the implications of this result for quantum mechanics foundations investigation, illustrating how it can tackle some of the aforementioned interpretations of Bell inequality tests and, more in general, of quantum mechanics itself.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 連続ディフューザ(CoD):経験的リハーサルによるオフライン強化学習の習得

Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal ( http://arxiv.org/abs/2409.02512v1 )

ライセンス: Link先を確認
Jifeng Hu, Li Shen, Sili Huang, Zhejian Yang, Hechang Chen, Lichao Sun, Yi Chang, Dacheng Tao, (参考訳) 人工知能、特に最近の拡散モデルでは、トレーニングタスクのデータセットが通常静的であるゲーム、制御、QAシステムにおいて顕著な優位性を示している。 しかし、強化学習(RL)のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。 この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。 そこで本研究では,連続ディフューザ(CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。 具体的には、まず、複数のドメインから90のタスクを含むオフラインベンチマークを構築します。 そして、各タスクのCoDを逐次モデリングと条件生成で訓練し、意思決定を行う。 次に、前回のデータセットのごく一部をリハーサルバッファとして保存し、取得した知識を保持するために再生する。 一連のタスクに関する大規模な実験は、CoDが有望な可塑性-安定性トレードオフを実現し、既存の拡散ベースの手法やほとんどのタスクにおける代表的ベースラインを上回ります。

Artificial neural networks, especially recent diffusion-based models, have shown remarkable superiority in gaming, control, and QA systems, where the training tasks' datasets are usually static. However, in real-world applications, such as robotic control of reinforcement learning (RL), the tasks are changing, and new tasks arise in a sequential order. This situation poses the new challenge of plasticity-stability trade-off for training an agent who can adapt to task changes and retain acquired knowledge. In view of this, we propose a rehearsal-based continual diffusion model, called Continual Diffuser (CoD), to endow the diffuser with the capabilities of quick adaptation (plasticity) and lasting retention (stability). Specifically, we first construct an offline benchmark that contains 90 tasks from multiple domains. Then, we train the CoD on each task with sequential modeling and conditional generation for making decisions. Next, we preserve a small portion of previous datasets as the rehearsal buffer and replay it to retain the acquired knowledge. Extensive experiments on a series of tasks show CoD can achieve a promising plasticity-stability trade-off and outperform existing diffusion-based methods and other representative baselines on most tasks.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# SG-MIM:Dense Predictionのための構造化知識ガイド付き事前学習

SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction ( http://arxiv.org/abs/2409.02513v1 )

ライセンス: Link先を確認
Sumin Son, Hyesong Choi, Dongbo Min, (参考訳) Masked Image Modeling (MIM)技術はコンピュータビジョンのランドスケープを再定義し、訓練済みのモデルが幅広いタスクで例外的なパフォーマンスを達成することを可能にする。 その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。 既存のMIMアプローチは、主に単一イメージの入力に依存しており、重要な構造化された情報をキャプチャすることは困難であり、きめ細かい特徴表現を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 これらの制約に対処するため,SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。 SG-MIMは軽量なリレーショナルガイダンスフレームワークを採用しており、従来のマルチモーダル事前学習法で一般的なように、同じアーキテクチャ内のピクセルレベルでネイティブに組み合わせるのではなく、特徴レベルで構造化された知識を個別にガイドすることができる。 このアプローチにより、トレーニング前タスクと下流タスクの相違を最小限に抑えながら、本質的な情報を効率的にキャプチャできる。 さらに、SG-MIMは、構造化知識を取り入れ、汎用表現学習と構造化知識固有学習の相乗効果を最大化する選択的マスキング戦略を採用している。 我々の手法は追加のアノテーションを必要としないため、広範囲のアプリケーションに対して汎用的で効率的なソリューションである。 KITTI,NYU-v2,ADE20kデータセットに対する評価は,SG-MIMが単眼深度推定および意味的セグメンテーションにおいて優れていることを示す。

Masked Image Modeling (MIM) techniques have redefined the landscape of computer vision, enabling pre-trained models to achieve exceptional performance across a broad spectrum of tasks. Despite their success, the full potential of MIM-based methods in dense prediction tasks, particularly in depth estimation, remains untapped. Existing MIM approaches primarily rely on single-image inputs, which makes it challenging to capture the crucial structured information, leading to suboptimal performance in tasks requiring fine-grained feature representation. To address these limitations, we propose SG-MIM, a novel Structured knowledge Guided Masked Image Modeling framework designed to enhance dense prediction tasks by utilizing structured knowledge alongside images. SG-MIM employs a lightweight relational guidance framework, allowing it to guide structured knowledge individually at the feature level rather than naively combining at the pixel level within the same architecture, as is common in traditional multi-modal pre-training methods. This approach enables the model to efficiently capture essential information while minimizing discrepancies between pre-training and downstream tasks. Furthermore, SG-MIM employs a selective masking strategy to incorporate structured knowledge, maximizing the synergy between general representation learning and structured knowledge-specific learning. Our method requires no additional annotations, making it a versatile and efficient solution for a wide range of applications. Our evaluations on the KITTI, NYU-v2, and ADE20k datasets demonstrate SG-MIM's superiority in monocular depth estimation and semantic segmentation.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 特徴平滑化に基づく高品質TSシステムのためのユニバーサルヴォコーダの訓練

Training Universal Vocoders with Feature Smoothing-Based Augmentation Methods for High-Quality TTS Systems ( http://arxiv.org/abs/2409.02517v1 )

ライセンス: Link先を確認
Jeongmin Liu, Eunwoo Song, (参考訳) 普遍的なヴォコーダは多様な声質で有能な波形生成を実現しているが、テキスト音声(TTS)タスクへの統合は、しばしば合成品質の劣化をもたらす。 この課題に対処するために、ユニバーサルヴォコーダをトレーニングするための新しい拡張手法を提案する。 学習手法は, 線形な平滑化フィルタをランダムに応用して音響特性を入力し, 広範囲の平滑化におけるボコーダの一般化を容易にする。 音響モデルが過度に滑らかな特徴を生じる場合でも、トレーニング推論ミスマッチを著しく軽減し、合成出力の自然性を高める。 特に,本手法は,特定の音響モデルに設計上の変更や依存を必要とせず,任意のボコーダに適用可能である。 実験の結果,従来の方法よりもボコーダの方が優れており,Tacotron 2 と FastSpeech 2 TTS の音響モデルを統合した場合,平均評価スコアが 11.99% と 12.05% 向上した。

While universal vocoders have achieved proficient waveform generation across diverse voices, their integration into text-to-speech (TTS) tasks often results in degraded synthetic quality. To address this challenge, we present a novel augmentation technique for training universal vocoders. Our training scheme randomly applies linear smoothing filters to input acoustic features, facilitating vocoder generalization across a wide range of smoothings. It significantly mitigates the training-inference mismatch, enhancing the naturalness of synthetic output even when the acoustic model produces overly smoothed features. Notably, our method is applicable to any vocoder without requiring architectural modifications or dependencies on specific acoustic models. The experimental results validate the superiority of our vocoder over conventional methods, achieving 11.99% and 12.05% improvements in mean opinion scores when integrated with Tacotron 2 and FastSpeech 2 TTS acoustic models, respectively.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# AirFogSim:UAV内蔵Vehicular Fog Computingのための軽量モジュールシミュレータ

AirFogSim: A Light-Weight and Modular Simulator for UAV-Integrated Vehicular Fog Computing ( http://arxiv.org/abs/2409.02518v1 )

ライセンス: Link先を確認
Zhiwei Wei, Chenran Huang, Bing Li, Yiting Zhao, Xiang Cheng, Liuqing Yang, Rongqing Zhang, (参考訳) VFC(Vehicular Fog Computing)は、インテリジェントトランスポーテーションシステム(ITS)の効率、安全性、計算能力を大幅に向上させており、無人航空機(UAV)の統合により、柔軟で補助的なサービスを取り入れることで、これらの利点をさらに高めている。 この進化するUAV統合VFCパラダイムは、協調計算フレームワーク内でユニークな複雑さを示しながら、新しい扉を開く。 主な課題は、地上のインタラクティブ・コンピューティング・ネットワークの複雑な力学をモデル化することであり、包括的で柔軟なシミュレーション・プラットフォームが存在しないことがこの分野の探索を妨げる可能性がある。 本論文は,多目的ツールの必要性に触発されて,AirFogSimと呼ばれる軽量でモジュール型の地上共同シミュレーションプラットフォームを提供する。 本稿では,AirFogSimの設計と実装について紹介し,UAV統合VFCの領域における5つの重要なミッションでその汎用性を実証する。 AirFogSimの有効性を検証するために、UAVトラジェクトリ、タスクオフロード、リソース割り当て、ブロックチェーンなど、提案されているAirFogSimのいくつかの統合的な側面を含む、多面的なユースケースが実行される。 一般論として、AirFogSimは、UAV統合VFCシミュレーションにおける新たな先例を設定し、理論設計と実用的検証のギャップを埋め、将来のインテリジェントな輸送ドメインの道を開くことを想定している。 私たちのコードはhttps://github.com/ZhiweiWei-NAMI/AirFogSim.comで公開されます。

Vehicular Fog Computing (VFC) is significantly enhancing the efficiency, safety, and computational capabilities of Intelligent Transportation Systems (ITS), and the integration of Unmanned Aerial Vehicles (UAVs) further elevates these advantages by incorporating flexible and auxiliary services. This evolving UAV-integrated VFC paradigm opens new doors while presenting unique complexities within the cooperative computation framework. Foremost among the challenges, modeling the intricate dynamics of aerial-ground interactive computing networks is a significant endeavor, and the absence of a comprehensive and flexible simulation platform may impede the exploration of this field. Inspired by the pressing need for a versatile tool, this paper provides a lightweight and modular aerial-ground collaborative simulation platform, termed AirFogSim. We present the design and implementation of AirFogSim, and demonstrate its versatility with five key missions in the domain of UAV-integrated VFC. A multifaceted use case is carried out to validate AirFogSim's effectiveness, encompassing several integral aspects of the proposed AirFogSim, including UAV trajectory, task offloading, resource allocation, and blockchain. In general, AirFogSim is envisioned to set a new precedent in the UAV-integrated VFC simulation, bridge the gap between theoretical design and practical validation, and pave the way for future intelligent transportation domains. Our code will be available at https://github.com/ZhiweiWei-NAMI/AirFogSim.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 言語が過度に分析されるとき - 具体的理論駆動型プロンプトによる暗黙的推論を解き放つ

Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven Prompts ( http://arxiv.org/abs/2409.02519v1 )

ライセンス: Link先を確認
Arianna Muti, Federico Ruggeri, Khalid Al-Khatib, Alberto Barrón-Cedeño, Tommaso Caselli, (参考訳) 本稿では,日本語とイタリア語の両方で誤語を伝達する暗黙的推論を理解するために,大規模言語モデル(LLM)の能力について検討する。 中心的な目的は、メッセージと誤字をエンコードする暗黙の意味の間の欠落した推論リンクを生成することである。 本研究は議論理論を基礎としてゼロショットと少数ショットの両方でプロンプトの集合を形成する。 これらのプロンプトは、チェーン・オブ・ソート推論や強化された知識など、さまざまなテクニックを統合する。 以上の結果から, LLM は疑義的コメントに対する推論能力に乏しく, インダクティブ推論よりもインダクティブ推論(インダクティブ推論)を創出するために, 女性に関する内在的な共通ステレオタイプに起因した暗黙的知識に大きく依存していることが示唆された。

We propose misogyny detection as an Argumentative Reasoning task and we investigate the capacity of large language models (LLMs) to understand the implicit reasoning used to convey misogyny in both Italian and English. The central aim is to generate the missing reasoning link between a message and the implied meanings encoding the misogyny. Our study uses argumentation theory as a foundation to form a collection of prompts in both zero-shot and few-shot settings. These prompts integrate different techniques, including chain-of-thought reasoning and augmented knowledge. Our findings show that LLMs fall short on reasoning capabilities about misogynistic comments and that they mostly rely on their implicit knowledge derived from internalized common stereotypes about women to generate implied assumptions, rather than on inductive reasoning.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# Cog-GA: 連続環境における視覚言語ナビゲーションのための大規模言語モデルに基づく生成エージェント

Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2409.02522v1 )

ライセンス: Link先を確認
Zhiyuan Li, Yanfeng Lu, Yao Mu, Hong Qiao, (参考訳) Vision Language Navigation in Continuous Environments (VLN-CE) は、AIを具現化したフロンティアであり、エージェントは自然言語命令のみでガイドされる、無制限の3D空間で自由にナビゲートすることを要求している。 この課題は、マルチモーダル理解、空間的推論、意思決定において異なる課題をもたらす。 これらの課題に対処するために,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。 Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。 まず、認知マップを構築し、時間的、空間的、意味的な要素を統合することで、LCM内の空間記憶の開発を容易にする。 第二に、Cog-GAは経路ポイントの予測機構を採用し、探索軌道を戦略的に最適化して航法効率を最大化する。 各経路ポイントには2チャンネルのシーン記述が伴い、環境の手がかりを脳として「何」と「どこで」の流れに分類する。 この分離はエージェントの注意力を高め、ナビゲーションのための関連する空間情報を識別することを可能にする。 反射メカニズムは、これらの戦略を補完し、事前のナビゲーション経験からのフィードバックを捉え、継続的な学習と適応的な再計画を容易にする。 VLN-CEベンチマークで実施された広範囲な評価は、Cog-GAの最先端性能と人間のようなナビゲーション動作をシミュレートする能力を検証する。 この研究は、戦略的かつ解釈可能なVLN-CEエージェントの開発に大きく貢献する。

Vision Language Navigation in Continuous Environments (VLN-CE) represents a frontier in embodied AI, demanding agents to navigate freely in unbounded 3D spaces solely guided by natural language instructions. This task introduces distinct challenges in multimodal comprehension, spatial reasoning, and decision-making. To address these challenges, we introduce Cog-GA, a generative agent founded on large language models (LLMs) tailored for VLN-CE tasks. Cog-GA employs a dual-pronged strategy to emulate human-like cognitive processes. Firstly, it constructs a cognitive map, integrating temporal, spatial, and semantic elements, thereby facilitating the development of spatial memory within LLMs. Secondly, Cog-GA employs a predictive mechanism for waypoints, strategically optimizing the exploration trajectory to maximize navigational efficiency. Each waypoint is accompanied by a dual-channel scene description, categorizing environmental cues into 'what' and 'where' streams as the brain. This segregation enhances the agent's attentional focus, enabling it to discern pertinent spatial information for navigation. A reflective mechanism complements these strategies by capturing feedback from prior navigation experiences, facilitating continual learning and adaptive replanning. Extensive evaluations conducted on VLN-CE benchmarks validate Cog-GA's state-of-the-art performance and ability to simulate human-like navigation behaviors. This research significantly contributes to the development of strategic and interpretable VLN-CE agents.
翻訳日:2024-09-05 19:41:01 公開日:2024-09-04
# 圧縮できないものをサンプルする

Sample what you cant compress ( http://arxiv.org/abs/2409.02529v1 )

ライセンス: Link先を確認
Vighnesh Birodkar, Gabriel Barcik, James Lyon, Sergey Ioffe, David Minnen, Joshua V. Dillon, (参考訳) 学習画像表現では、基本オートエンコーダはしばしばぼやけた結果を生成する。 逆境(GAN)や知覚的損失などの追加の罰則を取り入れることで、再建の質を向上させることができる。 これらのアプローチには原則的な解釈が欠如している。 同時に、生成的セッティングの拡散は、鮮明で高品質な結果を生み出す顕著な能力を示し、(変分推論からフィッシャーダイバージェンスとして直接研究まで)しっかりとした理論的基盤を持っている。 我々の研究は、自己エンコーダ表現学習と拡散を組み合わせ、拡散に基づく損失の下で連続エンコーダとデコーダを共同で学習する効果を初めて示すものである。 提案手法は,GANベースのオートエンコーダに比べてチューニングが容易でありながら,再構築品質が向上することを示す。 また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。 我々のデコーダは確率的であるため、そうでない決定論的潜在表現にエンコードされていない詳細を生成することができる。

For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate the efficacy of jointly learning a continuous encoder and decoder under a diffusion-based loss. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach "Sample what you can't compress", or SWYCC for short.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 大規模マルチモーダルモデルによるeGFR軌道とキドニー関数の減少の理解

Understanding eGFR Trajectories and Kidney Function Decline via Large Multimodal Models ( http://arxiv.org/abs/2409.02530v1 )

ライセンス: Link先を確認
Chih-Yuan Li, Jun-Ting Wu, Chan Hsu, Ming-Yen Lin, Yihuang Kang, (参考訳) 糸球体ろ過速度 (eGFR) は, 臨床における腎機能の指標として重要である。 臨床および実験データを用いた従来の方程式と機械学習(ML)モデルはeGFRを推定できるが、腎学者やML研究者にとって、将来のeGFRレベルを正確に予測することは重要な課題である。 近年の進歩は,Large Language Models (LLMs) とLarge Multimodal Models (LMMs) が,多様なアプリケーションのための堅牢な基盤モデルとして機能することを実証している。 本研究は,50例の検査値と臨床値からなるデータセットを用いて,将来のeGFRレベルを予測するLMMの可能性について検討した。 LMMの様々なプロンプト技術とアンサンブルを統合することにより、これらのモデルとeGFRトラジェクトリの正確なプロンプトと視覚表現を組み合わせることで、既存のMLモデルに匹敵する予測性能が得られることが示唆された。 本研究は、基礎モデルの適用を拡大し、複雑な医療予測課題に対処するためにこれらのモデルを活用するための今後の研究の道筋を提案する。

The estimated Glomerular Filtration Rate (eGFR) is an essential indicator of kidney function in clinical practice. Although traditional equations and Machine Learning (ML) models using clinical and laboratory data can estimate eGFR, accurately predicting future eGFR levels remains a significant challenge for nephrologists and ML researchers. Recent advances demonstrate that Large Language Models (LLMs) and Large Multimodal Models (LMMs) can serve as robust foundation models for diverse applications. This study investigates the potential of LMMs to predict future eGFR levels with a dataset consisting of laboratory and clinical values from 50 patients. By integrating various prompting techniques and ensembles of LMMs, our findings suggest that these models, when combined with precise prompts and visual representations of eGFR trajectories, offer predictive performance comparable to existing ML models. This research extends the application of foundation models and suggests avenues for future studies to harness these models in addressing complex medical forecasting challenges.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 未来のシーディングライト:光学による量子ニューラルネットワークの探索

Shedding Light on the Future: Exploring Quantum Neural Networks through Optics ( http://arxiv.org/abs/2409.02533v1 )

ライセンス: Link先を確認
Shang Yu, Zhian Jia, Aonan Zhang, Ewan Mer, Zhenghao Li, Valerio Crescimanna, Kuan-Cheng Chen, Raj B. Patel, Ian A. Walmsley, Dagomir Kaszlikowski, (参考訳) 人工知能と量子技術のダイナミックネクサスにおいて、量子ニューラルネットワーク(QNN)は、急速に発展する量子機械学習分野において、新しい技術として重要な役割を果たす。 この発展は量子コンピューティングの応用に革命をもたらす。 本稿では,QNNの概念とその物理的実現,特に量子光学に基づく実装について概説する。 まず、量子原理と古典的ニューラルネットワークアーキテクチャの統合について検討し、QNNを作成する。 量子パーセプトロン、量子畳み込みニューラルネットワーク、量子ボルツマンマシンなど、いくつかの具体例について論じる。 その後、フォトニクスによるQNNの実現可能性について分析する。 ここでの重要な課題は、要求される非線形ゲートを達成することであり、測定によるアプローチは有望であるように思える。 QNNの計算ポテンシャルを解き放つためには、量子光学による複雑性のスケーリングという課題に対処することが不可欠である。 光の量子状態の制御の進歩は、フィールドを継続的に前進させている。 さらに,非ガウス演算により異なるQNNアーキテクチャを統一できることが判明した。 この洞察は、より複雑なQNN回路の理解と開発に役立つだろう。

At the dynamic nexus of artificial intelligence and quantum technology, quantum neural networks (QNNs) play an important role as an emerging technology in the rapidly developing field of quantum machine learning. This development is set to revolutionize the applications of quantum computing. This article reviews the concept of QNNs and their physical realizations, particularly implementations based on quantum optics . We first examine the integration of quantum principles with classical neural network architectures to create QNNs. Some specific examples, such as the quantum perceptron, quantum convolutional neural networks, and quantum Boltzmann machines are discussed. Subsequently, we analyze the feasibility of implementing QNNs through photonics. The key challenge here lies in achieving the required non-linear gates, and measurement-induced approaches, among others, seem promising. To unlock the computational potential of QNNs, addressing the challenge of scaling their complexity through quantum optics is crucial. Progress in controlling quantum states of light is continuously advancing the field. Additionally, we have discovered that different QNN architectures can be unified through non-Gaussian operations. This insight will aid in better understanding and developing more complex QNN circuits.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# StyleTokenizer: 拡散モデルを制御する単一インスタンスによるイメージスタイルの定義

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models ( http://arxiv.org/abs/2409.02543v1 )

ライセンス: Link先を確認
Wen Li, Muyuan Fang, Cheng Zou, Biao Gong, Ruobing Zheng, Meng Wang, Jingdong Chen, Ming Yang, (参考訳) 拡散過程を制御する革新的な方法が爆発的に増えているにもかかわらず、テキスト・画像生成における画像スタイルを効果的に制御することは難しい課題である。 多くのアダプタベースの手法は、画像制御を達成するためにデノナイジングプロセスに画像表現条件を課す。 しかし、これらの条件は単語の埋め込み空間と一致しないため、画像とテキストの制御条件の干渉や、テキストプロンプトからの意味情報が失われる可能性がある。 この問題に対処するには2つの重要な課題がある。 まず、制御におけるテキスト表現の有効性を損なうことなく、どのようにスタイル表現を注入するか。 第二に、単一の参照画像から正確なスタイル表現を得る方法。 これらの課題に対処するために、スタイルトークン化器を用いてスタイル表現とテキスト表現を整列するゼロショットスタイル制御画像生成法であるStyleTokenizerを導入する。 このアライメントは、テキストプロンプトの有効性への影響を効果的に最小化する。 さらに、Style30kというラベル付きスタイルデータセットを収集し、他のコンテンツ情報を除いて、スタイルを正確に表現できるスタイル特徴抽出器を訓練する。 実験の結果,提案手法は参照画像のスタイル特性を完全に把握し,ターゲット画像のスタイルとテキストのプロンプトに整合した魅力的な画像を生成する。 コードとデータセットはhttps://github.com/alipay/style-tokenizer.comから入手できる。

Despite the burst of innovative methods for controlling the diffusion process, effectively controlling image styles in text-to-image generation remains a challenging task. Many adapter-based methods impose image representation conditions on the denoising process to accomplish image control. However these conditions are not aligned with the word embedding space, leading to interference between image and text control conditions and the potential loss of semantic information from the text prompt. Addressing this issue involves two key challenges. Firstly, how to inject the style representation without compromising the effectiveness of text representation in control. Secondly, how to obtain the accurate style representation from a single reference image. To tackle these challenges, we introduce StyleTokenizer, a zero-shot style control image generation method that aligns style representation with text representation using a style tokenizer. This alignment effectively minimizes the impact on the effectiveness of text prompts. Furthermore, we collect a well-labeled style dataset named Style30k to train a style feature extractor capable of accurately representing style while excluding other content information. Experimental results demonstrate that our method fully grasps the style characteristics of the reference image, generating appealing images that are consistent with both the target image style and text prompt. The code and dataset are available at https://github.com/alipay/style-tokenizer.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# UniTT-Stereo:強化ステレオマッチングのための変圧器の統一トレーニング

UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching ( http://arxiv.org/abs/2409.02545v1 )

ライセンス: Link先を確認
Soomin Kim, Hyesong Choi, Jihye Ahn, Dongbo Min, (参考訳) トランスフォーマーベースのアプローチがますます一般的になりつつある他の視覚タスクとは異なり、ステレオ深度推定は畳み込みベースのアプローチに支配されている。 これは主に、トランスフォーマーベースのステレオアプローチの性能向上における制限要因であるステレオマッチングの現実的真実の可用性の制限によるものである。 本論文では,教師付き学習に基づくステレオマッチングフレームワークの事前学習に使用する自己教師付き学習を統合することで,トランスフォーマーベースのステレオアーキテクチャの可能性の最大化を図る手法であるUniTT-Stereoを提案する。 具体的には,入力画像中のマスキング部分の特徴を再構成すると同時に,局所性帰納バイアスの観点から他の画像の対応する点を予測することの有効性について検討する。 さらに, 復元・予測の困難な課題に対処するために, ステレオモデルにステレオ調整損失を伴ってトレーニングを行う際に, マスキング率を変化させる新たな戦略を提案する。 UniTT-Stereoの最先端性能は、ETH3D、KITTI 2012、KITTI 2015データセットなどの様々なベンチマークで検証されている。 最後に,提案手法の利点を検討するため,特徴写像の周波数解析とアテンションマップに基づく局所性帰納バイアスの解析を行う。

Unlike other vision tasks where Transformer-based approaches are becoming increasingly common, stereo depth estimation is still dominated by convolution-based approaches. This is mainly due to the limited availability of real-world ground truth for stereo matching, which is a limiting factor in improving the performance of Transformer-based stereo approaches. In this paper, we propose UniTT-Stereo, a method to maximize the potential of Transformer-based stereo architectures by unifying self-supervised learning used for pre-training with stereo matching framework based on supervised learning. To be specific, we explore the effectiveness of reconstructing features of masked portions in an input image and at the same time predicting corresponding points in another image from the perspective of locality inductive bias, which is crucial in training models with limited training data. Moreover, to address these challenging tasks of reconstruction-and-prediction, we present a new strategy to vary a masking ratio when training the stereo model with stereo-tailored losses. State-of-the-art performance of UniTT-Stereo is validated on various benchmarks such as ETH3D, KITTI 2012, and KITTI 2015 datasets. Lastly, to investigate the advantages of the proposed approach, we provide a frequency analysis of feature maps and the analysis of locality inductive bias based on attention maps.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# リアルタイムダイナミック・スケール・アウェア・フュージョン検出ネットワーク:道路損傷検出を例に

Real-Time Dynamic Scale-Aware Fusion Detection Network: Take Road Damage Detection as an example ( http://arxiv.org/abs/2409.02546v1 )

ライセンス: Link先を確認
Weichao Pan, Xu Wang, Wenqing Huan, (参考訳) 無人航空機(UAV)をベースとした道路被害検知(RDD)は、特に労働コストを大幅に削減する上で、都市における日々のメンテナンスと安全のために重要である。 しかし、現在のUAVベースのRDD研究は依然として多くの課題に直面している。 例えば、不規則な大きさと方向の損傷、背景による損傷のマスキング、背景からの損傷の識別の困難さは、日々の検査において道路損傷を検出するUAVの能力に大きく影響する。 これらの課題を解決し, リアルタイム道路損傷検出におけるUAVの性能を向上させるために, 形状と背景に柔軟に適応する特徴抽出モジュール, マルチスケールの知覚を融合させ, 形状と背景に適応するモジュール, 効率的なダウンサンプリングモジュールの3つのモジュールの設計と提案を行った。 これらのモジュールに基づいて,動的スケール・アウェア・フュージョン検出モデル (RT-DSAFDet) と呼ばれる,背景干渉を自動的に除去できるマルチスケール適応道路損傷検出モデルを設計した。 UAV-PDD2023公開データセットによる実験結果から,我々のモデルRT-DSAFDetは,最新のリアルタイムオブジェクト検出モデルYOLOv10の効率的な変種であるYOLOv10-mよりも11.1%高い54.2%のmAP50を達成し,パラメータの量は1.8MとFLOPsにそれぞれ4.6Gに減少し,それぞれ88%,93%減少した。 さらに、大規模な一般化オブジェクト検出公開データセットMS COCO2017では、mAP50-95によるモデルの優位性もYOLOv9-tと同じであるが、0.5%のmAP50、10%のパラメータボリューム、40%のFLOPを持つ。

Unmanned Aerial Vehicle (UAV)-based Road Damage Detection (RDD) is important for daily maintenance and safety in cities, especially in terms of significantly reducing labor costs. However, current UAV-based RDD research is still faces many challenges. For example, the damage with irregular size and direction, the masking of damage by the background, and the difficulty of distinguishing damage from the background significantly affect the ability of UAV to detect road damage in daily inspection. To solve these problems and improve the performance of UAV in real-time road damage detection, we design and propose three corresponding modules: a feature extraction module that flexibly adapts to shape and background; a module that fuses multiscale perception and adapts to shape and background ; an efficient downsampling module. Based on these modules, we designed a multi-scale, adaptive road damage detection model with the ability to automatically remove background interference, called Dynamic Scale-Aware Fusion Detection Model (RT-DSAFDet). Experimental results on the UAV-PDD2023 public dataset show that our model RT-DSAFDet achieves a mAP50 of 54.2%, which is 11.1% higher than that of YOLOv10-m, an efficient variant of the latest real-time object detection model YOLOv10, while the amount of parameters is reduced to 1.8M and FLOPs to 4.6G, with a decreased by 88% and 93%, respectively. Furthermore, on the large generalized object detection public dataset MS COCO2017 also shows the superiority of our model with mAP50-95 is the same as YOLOv9-t, but with 0.5% higher mAP50, 10% less parameters volume, and 40% less FLOPs.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 周辺同定のための逐次意思決定モデル

A Sequential Decision-Making Model for Perimeter Identification ( http://arxiv.org/abs/2409.02549v1 )

ライセンス: Link先を確認
Ayal Taitler, (参考訳) 周囲の識別は、指定された領域またはゾーンの境界を確認し、トラフィックフローの監視、制御、最適化を必要とする。 これらの範囲を正確に定義するためには様々な手法や技術が存在するが、効率的な問題記述のためには、専門的な機器、正確なマッピング、包括的なデータを必要とすることが多い。 本研究では,リアルタイムに効率的に動作し,公開情報のみを必要とする周辺探索のためのシーケンシャルな意思決定フレームワークを提案する。 エージェントの目的は、現在の周辺を逐次改善することで最適な周辺を識別することである。 ゲームモデルについて詳述し、最適周波の定義を決定する際の適応性について論じる。 最終的に、実世界のシナリオを通してモデルの有効性を示し、対応する最適周波の同定を強調した。

Perimeter identification involves ascertaining the boundaries of a designated area or zone, requiring traffic flow monitoring, control, or optimization. Various methodologies and technologies exist for accurately defining these perimeters; however, they often necessitate specialized equipment, precise mapping, or comprehensive data for effective problem delineation. In this study, we propose a sequential decision-making framework for perimeter search, designed to operate efficiently in real-time and require only publicly accessible information. We conceptualize the perimeter search as a game between a playing agent and an artificial environment, where the agent's objective is to identify the optimal perimeter by sequentially improving the current perimeter. We detail the model for the game and discuss its adaptability in determining the definition of an optimal perimeter. Ultimately, we showcase the model's efficacy through a real-world scenario, highlighting the identification of corresponding optimal perimeters.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# ResiLogic: 構成性と多様性を活用してフォールトと侵入耐性チップを設計する

ResiLogic: Leveraging Composability and Diversity to Design Fault and Intrusion Resilient Chips ( http://arxiv.org/abs/2409.02553v1 )

ライセンス: Link先を確認
Ahmad T. Sheikh, Ali Shoker, Suhaib A. Fahmy, Paulo Esteves-Verissimo, (参考訳) 長年の課題は、故障や不具合に耐性のあるチップの設計である。 細粒度ゲートの多様性と粗粒度モジュラー冗長性は過去にも用いられてきた。 しかし、これらのアプローチは、サプライチェーンの利害関係者が信頼できない他の脅威モデルの下では十分に研究されていない。 デジタル主権の緊張が高まると、外国のオフザシェルフツールやIPの使用、あるいはオフソース製造に関する懸念が高まり、この脅威モデルの下でレジリエントチップの設計に関する研究が進められる。 本稿では, レジリエンスに対する3つの関連する攻撃(分布, 粒子, 複合攻撃)を考慮に入れた脅威モデルについて述べる。 これらの攻撃を緩和するために、我々は、より小さな多様な回路からなる多様な回路を設計により構築する、 \textit{Diversity by Composability} を利用する \textt{ResiLogic} フレームワークを導入する。 これにより設計者は、空間やコストの余分な冗長性を必要とせず、設計時に回路を作成することができる。 異なる粒度レベルでのこのアプローチを用いることで,回路設計のレジリエンスを5倍に向上させることが示される。 さらに、E-Graphsが与えられた書き直し規則の下で様々な回路を生成するためにどのように利用できるかを示すケースも作成する。

A long-standing challenge is the design of chips resilient to faults and glitches. Both fine-grained gate diversity and coarse-grained modular redundancy have been used in the past. However, these approaches have not been well-studied under other threat models where some stakeholders in the supply chain are untrusted. Increasing digital sovereignty tensions raise concerns regarding the use of foreign off-the-shelf tools and IPs, or off-sourcing fabrication, driving research into the design of resilient chips under this threat model. This paper addresses a threat model considering three pertinent attacks to resilience: distribution, zonal, and compound attacks. To mitigate these attacks, we introduce the \texttt{ResiLogic} framework that exploits \textit{Diversity by Composability}: constructing diverse circuits composed of smaller diverse ones by design. This gives designer the capability to create circuits at design time without requiring extra redundancy in space or cost. Using this approach at different levels of granularity is shown to improve the resilience of circuit design in \texttt{ResiLogic} against the three considered attacks by a factor of five. Additionally, we also make a case to show how E-Graphs can be utilized to generate diverse circuits under given rewrite rules.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# クロスリゾリューション型コントラスト蒸留による低解像度物体認識

Low-Resolution Object Recognition with Cross-Resolution Relational Contrastive Distillation ( http://arxiv.org/abs/2409.02555v1 )

ライセンス: Link先を確認
Kangkai Zhang, Shiming Ge, Ruixin Shi, Dan Zeng, (参考訳) 低解像度画像における物体の認識は、情報的詳細が欠如しているため難しい課題である。 近年の研究では,高分解能教師モデルから低分解能学生モデルへの知識伝達を,クロスレゾリューション表現の整合化によって効果的に行うことができることが示されている。 しかし、これらのアプローチは、認識されたオブジェクトがトレーニングとテスト画像の間に大きな相違点を示す状況に適応する際の限界に直面している。 本研究では,低分解能物体認識を容易にするクロスレゾリューションリレーショナルコントラスト蒸留法を提案する。 提案手法は,高精細度物体の同定に高精度な教師モデルの動作を模倣することを可能にする。 十分な知識を抽出するために、学生の学習は、対照的な表現空間における様々な関係構造の類似性を保った、対照的な関係蒸留損失によって監督される。 このように、慣れ親しんだ低解像度物体の欠損した詳細を回復する能力は効果的に向上し、より良い知識伝達につながる。 低分解能物体分類と低分解能顔認証に関する大規模な実験は、我々のアプローチの有効性と適応性を明確に示している。

Recognizing objects in low-resolution images is a challenging task due to the lack of informative details. Recent studies have shown that knowledge distillation approaches can effectively transfer knowledge from a high-resolution teacher model to a low-resolution student model by aligning cross-resolution representations. However, these approaches still face limitations in adapting to the situation where the recognized objects exhibit significant representation discrepancies between training and testing images. In this study, we propose a cross-resolution relational contrastive distillation approach to facilitate low-resolution object recognition. Our approach enables the student model to mimic the behavior of a well-trained teacher model which delivers high accuracy in identifying high-resolution objects. To extract sufficient knowledge, the student learning is supervised with contrastive relational distillation loss, which preserves the similarities in various relational structures in contrastive representation space. In this manner, the capability of recovering missing details of familiar low-resolution objects can be effectively enhanced, leading to a better knowledge transfer. Extensive experiments on low-resolution object classification and low-resolution face recognition clearly demonstrate the effectiveness and adaptability of our approach.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# サブギガヘルツ系における低特性インピーダンス超伝導タドポール共振器

Low-characteristic-impedance superconducting tadpole resonators in the sub-gigahertz regime ( http://arxiv.org/abs/2409.02558v1 )

ライセンス: Link先を確認
Miika Rasola, Samuel Klaver, Jian Ma, Priyank Singh, Tuomas Uusnäkki, Heikki Suominen, Mikko Möttönen, (参考訳) 共平面導波路の一端に短絡し、他方端に大きな平行平板コンデンサを配置し、簡易で多目的な共振器設計を実証する。 構造形状のため、タドポール共振器と命名する。 この設計により、低値を必要とするアプリケーションに特に適合するように、共振器の特性インピーダンスを調整できる。 Z_c = 2\,{\Omega}$ から 10\,{\Omega}$ および周波数範囲が$f_0 = 290\,\mathrm{MHz}$ から $1.1\,\mathrm{GHz}$ の内的品質要因に到達する一方で、$Q_{\mathrm{int}} = 8.5\times 10^3$ の損失接点への変換を$\tan({\delta}) = 1.2\times 10^{-4} の損失接点への変換を行う。 これらのタドポール共振器は、チップのフットプリントを小さく保ちながら、低周波数・低文字インピーダンスを必要とするアプリケーションに適していると結論付けている。 タッドポール共振器の低特性インピーダンスは、他のマイクロ波成分との強い誘導結合を達成するための有望な候補となる。

We demonstrate a simple and versatile resonator design based on a short strip of a typical coplanar waveguide shorted at one end to the ground and shunted at the other end with a large parallel-plate capacitor. Due to the shape of the structure, we coin it the tadpole resonator. The design allows tailoring the characteristic impedance of the resonator to especially suit applications requiring low values. We demonstrate characteristic impedances ranging from $Z_c = 2\,{\Omega}$ to $10\,{\Omega}$ and a frequency range from $f_0 = 290\,\mathrm{MHz}$ to $1.1\,\mathrm{GHz}$ while reaching internal quality factors of order $Q_{\mathrm{int}} = 8.5\times 10^3$ translating into a loss tangent of $\tan({\delta}) = 1.2\times 10^{-4}$ for the aluminium oxide used as the dielectric in the parallel plate capacitor. We conclude that these tadpole resonators are well suited for applications requiring low frequency and low charactersitic impedance while maintaining a small footprint on chip. The low characteristic impedance of the tadpole resonator renders it a promising candidate for achieving strong inductive coupling to other microwave components.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 熱密度汎関数論の量子熱力学への応用

Thermal density functional theory approach to quantum thermodynamics ( http://arxiv.org/abs/2409.02559v1 )

ライセンス: Link先を確認
Antonio Palamara, Francesco Plastina, Antonello Sindona, Irene D'Amico, (参考訳) 多体量子系の熱力学的性質の理解と微妙な法則からの出現は、その根本的意味と広範な実用的応用によって大きな意味を持つトピックである。 これらのシステムを制御し、準備するための実験技術の最近の進歩は、量子技術の発展を促進する可能性を秘めているため、この分野への関心が高まっている。 本研究では,有限温度における量子クエンチに関連する仕事統計と不可逆エントロピーに関する詳細な情報を抽出する密度汎関数理論を提案する。 具体的には、これらの量は熱的および非平衡密度の関数として表され、有限温度多体過程を理解するための基本的な変数として機能することが示される。 そこで,本手法を不均一ハバードモデルに適用し,密度汎関数論に基づくアプローチが,そのような系の熱力学特性における相互作用と外部ポテンシャルの特異な役割を明らかにするのに有用であることを示す。

Understanding the thermodynamic properties of many-body quantum systems and their emergence from microscopic laws is a topic of great significance due to its profound fundamental implications and extensive practical applications. Recent advances in experimental techniques for controlling and preparing these systems have increased interest in this area, as they have the potential to drive the development of quantum technologies. In this study, we present a density-functional theory approach to extract detailed information about the statistics of work and the irreversible entropy associated with quantum quenches at finite temperature. Specifically, we demonstrate that these quantities can be expressed as functionals of thermal and out-of-equilibrium densities, which may serve as fundamental variables for understanding finite-temperature many-body processes. We, then, apply our method to the case of the inhomogeneous Hubbard model, showing that our density functional theory based approach can be usefully employed to unveil the distinctive roles of interaction and external potential on the thermodynamic properties of such a system.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 連続学習による視覚言語ナビゲーション

Vision-Language Navigation with Continual Learning ( http://arxiv.org/abs/2409.02561v1 )

ライセンス: Link先を確認
Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao, (参考訳) 視覚言語ナビゲーション(VLN)は組み込みインテリジェンスにおいて重要なドメインであり、エージェントは自然言語命令に基づいて3D環境をナビゲートする必要がある。 従来のVLN研究は、環境理解と意思決定の精度の向上に重点を置いてきた。 しかし、これらの手法は、エージェントが新しい環境にデプロイされる場合、主に訓練データの多様性が限られているため、大きなパフォーマンスギャップを生じることが多い。 幅広い環境をカバーするためにデータセットを拡張することは非現実的でコストがかかる。 本稿では、この課題に対処するために、VLNCL(Vision-Language Navigation with Continual Learning)パラダイムを提案する。 このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。 VLNCLは、エージェントが環境記憶を維持し、関連する知識を抽出し、既存の情報を保持しながら、新しい環境への迅速な適応を可能にする。 本稿では、VLNエージェントと統合された脳記憶リプレイ機構にインスパイアされた新しいデュアルループシナリオ・リプレイ法(Dual-SR)を提案する。 この方法は過去の経験の統合を促進し、新しいタスクをまたいだ一般化を促進する。 マルチシナリオメモリバッファを利用することで、エージェントはタスク記憶を効率的に整理、再生し、新しい環境に迅速に適応し、破滅的な忘れを緩和する能力を増強する。 我々の研究は、VLNエージェントにおける継続的な学習の先駆者であり、新しい実験的なセットアップと評価指標を導入している。 本稿では,VLNCLパラダイムのベンチマークの確立と評価を通じて,提案手法の有効性を実証する。 既存の連続学習法とVLN法との比較実験により,先行知識を保ちながら迅速な適応を実現するためのアプローチの可能性を強調した。

Vision-language navigation (VLN) is a critical domain within embedded intelligence, requiring agents to navigate 3D environments based on natural language instructions. Traditional VLN research has focused on improving environmental understanding and decision accuracy. However, these approaches often exhibit a significant performance gap when agents are deployed in novel environments, mainly due to the limited diversity of training data. Expanding datasets to cover a broader range of environments is impractical and costly. We propose the Vision-Language Navigation with Continual Learning (VLNCL) paradigm to address this challenge. In this paradigm, agents incrementally learn new environments while retaining previously acquired knowledge. VLNCL enables agents to maintain an environmental memory and extract relevant knowledge, allowing rapid adaptation to new environments while preserving existing information. We introduce a novel dual-loop scenario replay method (Dual-SR) inspired by brain memory replay mechanisms integrated with VLN agents. This method facilitates consolidating past experiences and enhances generalization across new tasks. By utilizing a multi-scenario memory buffer, the agent efficiently organizes and replays task memories, thereby bolstering its ability to adapt quickly to new environments and mitigating catastrophic forgetting. Our work pioneers continual learning in VLN agents, introducing a novel experimental setup and evaluation metrics. We demonstrate the effectiveness of our approach through extensive evaluations and establish a benchmark for the VLNCL paradigm. Comparative experiments with existing continual learning and VLN methods show significant improvements, achieving state-of-the-art performance in continual learning ability and highlighting the potential of our approach in enabling rapid adaptation while preserving prior knowledge.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 相互作用型複数モデルベース共同ホログラフィ行列と複数物体状態推定

Interacting Multiple Model-based Joint Homography Matrix and Multiple Object State Estimation ( http://arxiv.org/abs/2409.02562v1 )

ライセンス: Link先を確認
Paul Johannes Claasen, Johan Pieter de Villiers, (参考訳) 新たなMOTアルゴリズムであるIMMジョイントホモグラフィ状態推定(IMM-JHSE)を提案する。 IMM-JHSEは、カメラプロジェクション行列をトラック状態ベクトルの一部として共同でモデル化することにより、カメラモーション補償技術が予測トラック位置に与える影響を排除し、これは以前のアプローチで一般的であった。 この拡張により、静的および動的カメラモーションモデルが、IMMフィルタを用いて結合される。 単純なバウンディングボックス動作モデルを用いて、境界ボックスの位置を予測し、画像平面情報を組み込む。 カメラ動作にIMMを適用することに加え、非標準IMMアプローチでは、バウンディングボックスベースのBIoUスコアと地平面ベースのマハラノビス距離を混合してアソシエーションのみを行う。 最後に、IMM-JHSEは動的プロセスと計測ノイズ推定技術を利用する。 IMM-JHSEは、DanceTrackとKITTI-carのデータセットに関する関連技術を改善し、HOTAを2.64と2.11に増加させ、MOT17、MOT20、KITTI-pedestrianデータセット上での競合性能を提供する。

A novel MOT algorithm, IMM Joint Homography State Estimation (IMM-JHSE), is proposed. By jointly modelling the camera projection matrix as part of track state vectors, IMM-JHSE removes the explicit influence of camera motion compensation techniques on predicted track position states, which was prevalent in previous approaches. Expanding upon this, static and dynamic camera motion models are combined through the use of an IMM filter. A simple bounding box motion model is used to predict bounding box positions to incorporate image plane information. In addition to applying an IMM to camera motion, a non-standard IMM approach is applied where bounding-box-based BIoU scores are mixed with ground-plane-based Mahalanobis distances in an IMM-like fashion to perform association only. Finally, IMM-JHSE makes use of dynamic process and measurement noise estimation techniques. IMM-JHSE improves upon related techniques on the DanceTrack and KITTI-car datasets, increasing HOTA by 2.64 and 2.11, respectively, while offering competitive performance on the MOT17, MOT20 and KITTI-pedestrian datasets.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# 顔をどう知覚するか : 心的表現のモデル化によるマルチモーダルコンテキストにおける表情認識

How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations ( http://arxiv.org/abs/2409.02566v1 )

ライセンス: Link先を確認
Florian Blume, Runfeng Qu, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich, (参考訳) 人間の表情知覚は、本質的には事前の知識と文脈の手がかりに依存し、効率的で柔軟な処理に寄与する。 例えば、マルチモーダルな感情的文脈(声色、感情的テキスト、身体のポーズなど)は、客に客観的に中立な顔の感情的表現を知覚させる。 そこからインスピレーションを得て、簡単な分類タスクを超えて、表情の分類に新しいアプローチを導入する。 本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。 これにより、私たちのモデルは、内部の意思決定プロセスに関する視覚的な洞察を提供する。 VAE-GANアーキテクチャを用いて、コンテンツとコンテキストの独立した2つの表現を学習することで、これを実現する。 次に,コンテキスト依存型特徴適応のための新しいアテンション機構を提案する。 適応表現は分類に使われ、文脈拡張表現を生成する。 本研究では,人間の心的表現の近似を効果的に生成することを示す。 我々は、RAVDESSデータセットで81.01%、MEADデータセットで79.34%の最先端の分類精度を達成した。 コードを公開しています。

Facial expression perception in humans inherently relies on prior knowledge and contextual cues, contributing to efficient and flexible processing. For instance, multi-modal emotional context (such as voice color, affective text, body pose, etc.) can prompt people to perceive emotional expressions in objectively neutral faces. Drawing inspiration from this, we introduce a novel approach for facial expression classification that goes beyond simple classification tasks. Our model accurately classifies a perceived face and synthesizes the corresponding mental representation perceived by a human when observing a face in context. With this, our model offers visual insights into its internal decision-making process. We achieve this by learning two independent representations of content and context using a VAE-GAN architecture. Subsequently, we propose a novel attention mechanism for context-dependent feature adaptation. The adapted representation is used for classification and to generate a context-augmented expression. We evaluate synthesized expressions in a human study, showing that our model effectively produces approximations of human mental representations. We achieve State-of-the-Art classification accuracies of 81.01% on the RAVDESS dataset and 79.34% on the MEAD dataset. We make our code publicly available.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# クラスに依存しないインスタンスレベルのセグメンテーションのためのSAM 2の評価

Evaluation Study on SAM 2 for Class-agnostic Instance-level Segmentation ( http://arxiv.org/abs/2409.02567v1 )

ライセンス: Link先を確認
Tiantian Zhang, Zhangjun Zhou, Jialun Pei, (参考訳) Segment Anything Model (SAM) は自然界において強力なゼロショットセグメンテーション性能を示した。 最近リリースされたSegment Anything Model 2 (SAM2)は、イメージセグメンテーション機能に対する研究者の期待をさらに高めた。 クラスに依存しないインスタンスレベルのセグメンテーションタスクにおけるSAM2の性能を評価するために、Salient Instance Segmentation (SIS)、Camouflaged Instance Segmentation (CIS)、Shadow Instance Detection (SID)の3つのシナリオにおいて、SAM2のインスタンスレベルのタスクに対処するための異なるプロンプト戦略を採用した。 さらに, 粒状オブジェクトのセグメンテーションにおけるSAM2の有効性について検討するため, 高分解能ディコトコス画像セグメンテーション (DIS) ベンチマークを用いて細粒度セグメンテーション機能の評価を行った。 定性的および定量的な実験結果から、SAM2の性能は異なるシナリオで大きく異なることが示唆された。 さらに、SAM2は高解像度の細部をセグメンテーションするのに特に敏感ではない。 この技術レポートがSAM2ベースのアダプタの出現を加速し,クラスに依存しないインスタンスセグメンテーションタスクにおいて,大規模視覚モデルの性能向上を図ることを願っている。

Segment Anything Model (SAM) has demonstrated powerful zero-shot segmentation performance in natural scenes. The recently released Segment Anything Model 2 (SAM2) has further heightened researchers' expectations towards image segmentation capabilities. To evaluate the performance of SAM2 on class-agnostic instance-level segmentation tasks, we adopt different prompt strategies for SAM2 to cope with instance-level tasks for three relevant scenarios: Salient Instance Segmentation (SIS), Camouflaged Instance Segmentation (CIS), and Shadow Instance Detection (SID). In addition, to further explore the effectiveness of SAM2 in segmenting granular object structures, we also conduct detailed tests on the high-resolution Dichotomous Image Segmentation (DIS) benchmark to assess the fine-grained segmentation capability. Qualitative and quantitative experimental results indicate that the performance of SAM2 varies significantly across different scenarios. Besides, SAM2 is not particularly sensitive to segmenting high-resolution fine details. We hope this technique report can drive the emergence of SAM2-based adapters, aiming to enhance the performance ceiling of large vision models on class-agnostic instance segmentation tasks.
翻訳日:2024-09-05 19:30:37 公開日:2024-09-04
# さらに詳しく - 大規模言語モデルへの追加バイアス

More is More: Addition Bias in Large Language Models ( http://arxiv.org/abs/2409.02569v1 )

ライセンス: Link先を確認
Luca Santagata, Cristiano De Nobili, (参考訳) 本稿では,Large Language Models (LLMs) における付加的バイアスの存在を考察し,個人が減量的変化よりも付加的バイアスを好む傾向にある人間において観察される認知的バイアスと平行に描いている。 GPT-3.5 Turbo、Claude 3.5 Sonnet、Mistral、Math$\Sigma$tral、Llama 3.1など、一連の制御された実験により、加算と減算の正当性を測定するために、様々なLCMを試験した。 以上の結果から, 試験対象モデル全体において, 付加的変化が顕著に好適であることが示唆された。 例えば、パリンドローム作成タスクでは、Llama 3.1 はそれらを除去する代わりに文字を97.85%追加することを好んだ。 同様に、レゴのタワーバランスタスクでは、GPT-3.5ターボはブロックの76.38%を外すのではなく追加することを選んだ。 テキスト要約タスクでは、Mistral 7Bは、自身の執筆を改善するよう依頼されたケースの59.40%から75.10%の長い要約を作成した。 これらの結果は、LLMがヒトと同様、顕著な添加バイアスを示しており、LLMを大規模に使用した場合に影響を及ぼす可能性があることを示唆している。 付加バイアスは資源利用と環境への影響を増大させ、過剰消費と廃棄物による経済的コストを上昇させる可能性がある。 このバイアスは、バランスよく効率的な問題解決アプローチを確保するため、LLMの開発と応用において考慮すべきである。

In this paper, we investigate the presence of additive bias in Large Language Models (LLMs), drawing a parallel to the cognitive bias observed in humans where individuals tend to favor additive over subtractive changes. Using a series of controlled experiments, we tested various LLMs, including GPT-3.5 Turbo, Claude 3.5 Sonnet, Mistral, Math$\Sigma$tral, and Llama 3.1, on tasks designed to measure their propensity for additive versus subtractive modifications. Our findings demonstrate a significant preference for additive changes across all tested models. For example, in a palindrome creation task, Llama 3.1 favored adding letters 97.85% of the time over removing them. Similarly, in a Lego tower balancing task, GPT-3.5 Turbo chose to add a brick 76.38% of the time rather than remove one. In a text summarization task, Mistral 7B produced longer summaries in 59.40% to 75.10% of cases when asked to improve its own or others' writing. These results indicate that, similar to humans, LLMs exhibit a marked additive bias, which might have implications when LLMs are used on a large scale. Addittive bias might increase resource use and environmental impact, leading to higher economic costs due to overconsumption and waste. This bias should be considered in the development and application of LLMs to ensure balanced and efficient problem-solving approaches.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# ルールベースAIと大規模言語モデルによるサイバーインシデントタイムライン分析の促進

Advancing Cyber Incident Timeline Analysis Through Rule Based AI and Large Language Models ( http://arxiv.org/abs/2409.02572v1 )

ライセンス: Link先を確認
Fatma Yasmine Loumachi, Mohamed Chahine Ghanem, (参考訳) タイムライン分析(英: Timeline Analysis, TA)は、主にタイムスタンプや、イベントログ、ファイルメタデータ、その他の関連データから得られた時間的デジタルアーティファクトを調べ、分析し、サイバーインシデントに起因する事象を関連付け、時系列を再構築することに焦点を当てた、デジタルフォサイシクス(DF)におけるタイムラインフォサイシクス(TF)の重要な部分である。 従来のツールは、DF調査やインシデント対応(IR)プロセスで取得した膨大な量のデータを効率的に処理するのに苦労することが多い。 本稿では,ルールベース人工知能(R-BAI)アルゴリズムとLarge Language Models(LLM)アルゴリズムを組み合わせた新しいフレームワークGenDFIRを提案する。 提案手法は, R-BAIを用いて, 予め定義されたルールに基づいて, 異常なデジタルアーティファクトを特定し, 選択する。 2) 選択されたアーティファクトは、検索補助生成(RAG)エージェントの助けを借りて、LCMにより処理するための埋め込みに変換される。 LLMはその能力を活用して、アーティファクト上で自動TAを実行し、潜在的なインシデントシナリオを予測する。 我々は,GenDFIRの性能,効率,信頼性を,総合サイバーインシデントシミュレーションのシナリオで評価した。 本稿では, TA に R-BAI と LLM を統合する可能性を示す概念実証について述べる。 この新しいアプローチは、ジェネレーティブAI(GenAI)、特にLLMの力を強調し、高度な脅威検出とインシデント再構築のための新たな道を開く。

Timeline Analysis (TA) is a key part of Timeline Forensics (TF) in Digital Forensics (DF), focusing primarily on examining and analysing temporal digital artefacts such as timestamps, derived from event logs, file metadata, and other related data to correlate events resulting from cyber incidents and reconstruct their chronological timeline. Traditional tools often struggle to efficiently process the vast volume and variety of data acquired during DF investigations and Incident Response (IR) processes. This paper presents a novel framework, GenDFIR, that combines Rule-Based Artificial Intelligence (R-BAI) algorithms with Large Language Models (LLMs) to advance and automate the TA process. Our approach consists of two main stages (1) We use R-BAI to identify and select anomalous digital artefacts based on predefined rules. (2) The selected artefacts are then converted into embeddings for processing by an LLM with the help of a Retrieval-Augmented Generation (RAG) agent. The LLM consequently leverages its capabilities to perform automated TA on the artefacts and predict potential incident scenarios. To validate our framework, we evaluate GenDFIR performance, efficiency, and reliability using various metrics across synthetic cyber incident simulation scenarios. This paper presents a proof of concept, where the findings demonstrate the significant potential of integrating R-BAI and LLMs for TA. This novel approach highlights the power of Generative AI (GenAI), specifically LLMs, and opens new avenues for advanced threat detection and incident reconstruction, representing a significant step forward in the field.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# 画像拡散モデルを用いたビデオ逆問題の解法

Solving Video Inverse Problems Using Image Diffusion Models ( http://arxiv.org/abs/2409.02574v1 )

ライセンス: Link先を確認
Taesung Kwon, Jong Chul Ye, (参考訳) 近年,拡散モデルに基づく逆問題解法(DIS)が,画像超解像,デブロアリング,インペイントなど,逆問題に対処するための最先端のアプローチとして出現している。 しかし、時空間劣化に起因するビデオ逆問題へのそれらの応用は、ビデオ拡散モデルの訓練上の課題のため、ほとんど解明されていない。 本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。 具体的には, 画像拡散モデルのバッチ次元としてビデオの時間次元を扱い, 各画像拡散モデルから導出した離散時間バッチ内の時空間最適化問題を解く。 さらに,画像拡散モデルにおける確率的雑音成分を同期させることにより,バッチ間の一貫性を促進するバッチ一貫性拡散サンプリング戦略を導入する。 提案手法は,バッチ一貫性サンプリングと各逆拡散ステップにおける離散時空間バッチの同時最適化を相乗的に組み合わせることで,ビデオ逆拡散問題に対する新規かつ効率的な拡散サンプリング戦略を実現する。 実験結果から,ビデオの逆問題における時空間劣化に効果的に対処し,現状の再現を達成できることが示唆された。 プロジェクトページ: https://solving-video-inverse.github.io/main/

Recently, diffusion model-based inverse problem solvers (DIS) have emerged as state-of-the-art approaches for addressing inverse problems, including image super-resolution, deblurring, inpainting, etc. However, their application to video inverse problems arising from spatio-temporal degradation remains largely unexplored due to the challenges in training video diffusion models. To address this issue, here we introduce an innovative video inverse solver that leverages only image diffusion models. Specifically, by drawing inspiration from the success of the recent decomposed diffusion sampler (DDS), our method treats the time dimension of a video as the batch dimension of image diffusion models and solves spatio-temporal optimization problems within denoised spatio-temporal batches derived from each image diffusion model. Moreover, we introduce a batch-consistent diffusion sampling strategy that encourages consistency across batches by synchronizing the stochastic noise components in image diffusion models. Our approach synergistically combines batch-consistent sampling with simultaneous optimization of denoised spatio-temporal batches at each reverse diffusion step, resulting in a novel and efficient diffusion sampling strategy for video inverse problems. Experimental results demonstrate that our method effectively addresses various spatio-temporal degradations in video inverse problems, achieving state-of-the-art reconstructions. Project page: https://solving-video-inverse.github.io/main/
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# 短期量子ハードウェアの高精度測定技術:分子エネルギー推定の事例研究

Practical techniques for high precision measurements on near-term quantum hardware: a Case Study in Molecular Energy Estimation ( http://arxiv.org/abs/2409.02575v1 )

ライセンス: Link先を確認
Keijo Korhonen, Hetta Vappula, Adam Glos, Marco Cattaneo, Zoltán Zimborás, Elsi-Mari Borrelli, Matteo A. C. Rossi, Guillermo García-Pérez, Daniel Cavalcanti, (参考訳) 近い将来の量子デバイス上での高精度な測定は、量子コンピューティングアプリケーションの進歩に不可欠である。 本稿では, ランダム化計測による測定精度向上のための実用的手法について検討し, 撮影オーバーヘッドの最小化, 回路オーバーヘッド, 計測ノイズ, 時間依存性測定ノイズに着目した。 提案手法では, 局所偏差ランダム測定を用いて撮影オーバーヘッドを低減し, 繰り返し設定と並列量子検出器トモグラフィーにより回路オーバーヘッドを低減し, 測定ノイズを低減する。 さらに、時間依存計測ノイズを軽減するため、混合スケジューリング手法を用いる。 我々は,IBM Eagle r3コンピュータ上でのHartree-Fock状態を用いたBODIPY分子の分子エネルギー推定のケーススタディにより,これらの手法の有効性を実証し,測定精度の大幅な向上を示す。 これらの戦略は、特に正確な分子エネルギー計算を必要とするアプリケーションにおいて、より信頼性が高く正確な量子計算の道を開く。

Achieving high-precision measurements on near-term quantum devices is critical for advancing quantum computing applications. In this paper, we explore several practical techniques to enhance measurement accuracy using randomized measurements, focusing on minimizing shot overhead, circuit overhead, measurement noise, and time-dependent measurement noise. Our approach leverages locally biased random measurements to reduce shot overhead, in addition to repeated settings and parallel quantum detector tomography to reduce circuit overhead and mitigate measurement noise. Additionally, we employ a blended scheduling technique to mitigate time-dependent measurement noise. We demonstrate the effectiveness of these techniques through a case study on the molecular energy estimation of the BODIPY molecule using the Hartree-Fock state on an IBM Eagle r3 computer, showcasing significant improvements in measurement precision. These strategies pave the way for more reliable and accurate quantum computations, particularly in applications requiring precise molecular energy calculations.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# AlignGroup: グループ勧告に対するメンバの選好によるグループ合意の学習と調整

AlignGroup: Learning and Aligning Group Consensus with Member Preferences for Group Recommendation ( http://arxiv.org/abs/2409.02580v1 )

ライセンス: Link先を確認
Jinfeng Xu, Zheyu Chen, Jinze Li, Shuo Yang, Hewei Wang, Edith C. -H. Ngai, (参考訳) グループ活動は、人間の社会において重要な行動であり、グループに対してパーソナライズされたレコメンデーションを提供することをグループレコメンデーションタスクと呼ぶ。 既存の方法は通常、グループの選好を推測する2つの戦略に分類することができる。 1【メンバーのパーソナライズされた嗜好を集約してグループ選好を決定する】 2)共通妥協後のグループメンバーのコヒーレントな決定を捉えることでグループコンセンサスを推測する。 しかし、前者はグループレベルの考慮の欠如に悩まされ、後者は個々のユーザの細かい好みを見落としている。 そこで本研究では,グループ・コンセンサスとグループ・コンセンサス(グループ・コンセンサス)とグループ・コンセンサス(グループ・コンセンサス)の両方に着目したグループ・リコメンデーション手法であるAlignGroupを提案する。 具体的には、AlignGroupは、グループ内およびグループ間関係を効率的に学習する、よく設計されたハイパーグラフニューラルネットワークを通じてグループコンセンサスを探索する。 さらに、AlignGroupは、グループコンセンサスをメンバーの共通の嗜好と整合させることで、グループ決定をきめ細かいものにするために、自己教師付きアライメントタスクを革新的に活用する。 2つの実世界のデータセットに対する大規模な実験は、AlignGroupがグループ推薦タスクとユーザ推薦タスクの両方で最先端を、そしてほとんどのベースラインの効率を上回ることを示した。

Group activities are important behaviors in human society, providing personalized recommendations for groups is referred to as the group recommendation task. Existing methods can usually be categorized into two strategies to infer group preferences: 1) determining group preferences by aggregating members' personalized preferences, and 2) inferring group consensus by capturing group members' coherent decisions after common compromises. However, the former would suffer from the lack of group-level considerations, and the latter overlooks the fine-grained preferences of individual users. To this end, we propose a novel group recommendation method AlignGroup, which focuses on both group consensus and individual preferences of group members to infer the group decision-making. Specifically, AlignGroup explores group consensus through a well-designed hypergraph neural network that efficiently learns intra- and inter-group relationships. Moreover, AlignGroup innovatively utilizes a self-supervised alignment task to capture fine-grained group decision-making by aligning the group consensus with members' common preferences. Extensive experiments on two real-world datasets validate that our AlignGroup outperforms the state-of-the-art on both the group recommendation task and the user recommendation task, as well as outperforms the efficiency of most baselines.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# スパースビューからのモノクロ6次元ポス推定のためのオブジェクトガウス

Object Gaussian for Monocular 6D Pose Estimation from Sparse Views ( http://arxiv.org/abs/2409.02581v1 )

ライセンス: Link先を確認
Luqing Luo, Shichu Sun, Jiangang Yang, Linfang Zheng, Jinwei Du, Jian Liu, (参考訳) コンピュータビジョンやロボティクスにおいて重要なタスクである単眼オブジェクトのポーズ推定は、しばしば手軽に利用できないコストの高いCADモデルを必要とする2D-3Dの正確な対応に大きく依存する。 オブジェクト3D再構成手法は、近年の3Dガウス・スプラッティング(3DGS)の進歩によって、説得力のある可能性を秘めている。 しかし、そのパフォーマンスは依然として苦しめられ、入力ビューが少ないほど過度に適合する傾向がある。 この課題を受け入れるために,ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介した。 最大10ビューのSGPoseは、ランダムな立方体初期化から始まり、従来の3DGS法で要求されるようなStructure-from-Motion (SfM)パイプライン由来の幾何学に依存することによって、幾何学的認識表現を生成する。 SGPoseは、画像と再構成されたモデル間の密度の高い2D-3D対応をスパース入力とランダム初期化から退避させ、CADモデルへの依存を取り除く。 典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れており、現実世界のアプリケーションにおいてその潜在能力を過小評価している。

Monocular object pose estimation, as a pivotal task in computer vision and robotics, heavily depends on accurate 2D-3D correspondences, which often demand costly CAD models that may not be readily available. Object 3D reconstruction methods offer an alternative, among which recent advancements in 3D Gaussian Splatting (3DGS) afford a compelling potential. Yet its performance still suffers and tends to overfit with fewer input views. Embracing this challenge, we introduce SGPose, a novel framework for sparse view object pose estimation using Gaussian-based methods. Given as few as ten views, SGPose generates a geometric-aware representation by starting with a random cuboid initialization, eschewing reliance on Structure-from-Motion (SfM) pipeline-derived geometry as required by traditional 3DGS methods. SGPose removes the dependence on CAD models by regressing dense 2D-3D correspondences between images and the reconstructed model from sparse input and random initialization, while the geometric-consistent depth supervision and online synthetic view warping are key to the success. Experiments on typical benchmarks, especially on the Occlusion LM-O dataset, demonstrate that SGPose outperforms existing methods even under sparse view constraints, under-scoring its potential in real-world applications.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# 畳み込みニューラルネットワークを用いた手書き英語文字からのBMI予測

BMI Prediction from Handwritten English Characters Using a Convolutional Neural Network ( http://arxiv.org/abs/2409.02584v1 )

ライセンス: Link先を確認
N. T. Diba, N. Akter, S. A. H. Chowdhury, J. E. Giti, (参考訳) 人の身体質量指数(BMI)は、健康を評価するために最も広く用いられる指標である。 BMIは、身体脂肪と相関しているため、高い体脂肪レベルで起こる可能性のある潜在的な疾患の予測因子である。 逆に、BMIを用いて、コミュニティまたは個人の栄養状態を決定することができる。 深層学習モデルは、顔写真やその他のデータからBMIを推定するためにいくつかの研究で用いられているが、以前の研究では、筆跡解析のための深層学習技術とBMI予測との明確な関係が確立されていない。 本稿では、畳み込みニューラルネットワーク(CNN)を開発し、手書き文字からBMIを推定するディープラーニングアプローチを用いて、この研究ギャップに対処する。 BMI予測タスクのために、小文字の英語スクリプトの48人のサンプルを含むデータセットを正常にキャプチャする。 提案されたCNNベースのアプローチでは、補正可能な精度は99.92%である。 他の一般的なCNNアーキテクチャと比較すると、AlexNetとInceptionV3がそれぞれ99.69%と99.53%の精度で2番目に高いパフォーマンスを達成したことが分かる。

A person's Body Mass Index, or BMI, is the most widely used parameter for assessing their health. BMI is a crucial predictor of potential diseases that may arise at higher body fat levels because it is correlated with body fat. Conversely, a community's or an individual's nutritional status can be determined using the BMI. Although deep learning models are used in several studies to estimate BMI from face photos and other data, no previous research established a clear connection between deep learning techniques for handwriting analysis and BMI prediction. This article addresses this research gap with a deep learning approach to estimating BMI from handwritten characters by developing a convolutional neural network (CNN). A dataset containing samples from 48 people in lowercase English scripts is successfully captured for the BMI prediction task. The proposed CNN-based approach reports a commendable accuracy of 99.92%. Performance comparison with other popular CNN architectures reveals that AlexNet and InceptionV3 achieve the second and third-best performance, with the accuracy of 99.69% and 99.53%, respectively.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# DNA結合タンパク質予測のためのマルチビューランダムベクトル機能リンクネットワーク

Multiview Random Vector Functional Link Network for Predicting DNA-Binding Proteins ( http://arxiv.org/abs/2409.02588v1 )

ライセンス: Link先を確認
A. Quadir, M. Sajid, M. Tanveer, (参考訳) DNA結合タンパク質(DBP)の同定は、様々な生物活性に大きな影響を与えるため、重要な課題である。 タンパク質とDNAの相互作用のメカニズムを理解することは、様々な生命活動の解明に不可欠である。 近年,機械学習に基づくモデルはDBP予測に顕著に利用されている。 本稿では、DBPを予測するために、マルチビュー学習とニューラルネットワークアーキテクチャを融合したMvRVFL(Multiview random vector functional link)と呼ばれる新しいフレームワークを提案する。 提案したMvRVFLモデルは、後期および初期融合の利点を組み合わせることで、異なるビューをまたいだ個別の正規化パラメータと、未知のパラメータを効率的に決定するクローズド・フォーム・ソリューションを利用することができる。 主目的関数は、すべてのビューから生じるエラーの合成を最小化する結合項を含む。 DBPデータセットの3つのタンパク質ビューから5つの特徴を抽出した。 これらの機能は、モデルトレーニングプロセス中に隠れた機能を組み込むことで融合される。 DBPデータセット上で提案したMvRVFLモデルの性能はベースラインモデルよりも優れており、その優れた効果を示している。 さらに、提案したモデルの実用性を確立するため、UCI、KEEL、AwA、Corel5kデータセットに評価を拡張した。 整合性誤差境界、一般化誤差境界、経験的発見は厳密な統計解析と相まって、ベースラインモデルと比較してMvRVFLモデルの優れた一般化能力を確認する。

The identification of DNA-binding proteins (DBPs) is a critical task due to their significant impact on various biological activities. Understanding the mechanisms underlying protein-DNA interactions is essential for elucidating various life activities. In recent years, machine learning-based models have been prominently utilized for DBP prediction. In this paper, to predict DBPs, we propose a novel framework termed a multiview random vector functional link (MvRVFL) network, which fuses neural network architecture with multiview learning. The proposed MvRVFL model combines the benefits of late and early fusion, allowing for distinct regularization parameters across different views while leveraging a closed-form solution to determine unknown parameters efficiently. The primal objective function incorporates a coupling term aimed at minimizing a composite of errors stemming from all views. From each of the three protein views of the DBP datasets, we extract five features. These features are then fused together by incorporating a hidden feature during the model training process. The performance of the proposed MvRVFL model on the DBP dataset surpasses that of baseline models, demonstrating its superior effectiveness. Furthermore, we extend our assessment to the UCI, KEEL, AwA, and Corel5k datasets, to establish the practicality of the proposed models. The consistency error bound, the generalization error bound, and empirical findings, coupled with rigorous statistical analyses, confirm the superior generalization capabilities of the MvRVFL model compared to the baseline models.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# BEST-RQを用いた線形複雑注意置換体の解析

An Analysis of Linear Complexity Attention Substitutes with BEST-RQ ( http://arxiv.org/abs/2409.02596v1 )

ライセンス: Link先を確認
Ryan Whetten, Titouan Parcollet, Adel Moumen, Marco Dinarelli, Yannick Estève, (参考訳) 自己監督学習(SSL)は、音声処理を含む様々な領域で有効であることが証明されている。 しかし、SSLは計算量が多く、メモリは高価である。 これは、MHSA(Multi-head self-attention)の二次的な複雑さによるものである。 MHSAの代替案が提案され、音声領域で使用されているが、SSL設定ではまだ適切に調査されていない。 本研究では,MHSAを線形複雑性を持つ最近の最先端の代替品であるHyperMixing, Fastformer, SummaryMixing, Mambaに置き換える効果について検討する。 SSL MP3Sベンチマークの速度, VRAM消費量, 性能を調べた結果, これらの手法の評価を行った。 その結果,20秒から80秒間の入力シーケンスでは,VRAM使用量を約20%から60%削減し,7%から65%に高速化した。

Self-Supervised Learning (SSL) has proven to be effective in various domains, including speech processing. However, SSL is computationally and memory expensive. This is in part due the quadratic complexity of multi-head self-attention (MHSA). Alternatives for MHSA have been proposed and used in the speech domain, but have yet to be investigated properly in an SSL setting. In this work, we study the effects of replacing MHSA with recent state-of-the-art alternatives that have linear complexity, namely, HyperMixing, Fastformer, SummaryMixing, and Mamba. We evaluate these methods by looking at the speed, the amount of VRAM consumed, and the performance on the SSL MP3S benchmark. Results show that these linear alternatives maintain competitive performance compared to MHSA while, on average, decreasing VRAM consumption by around 20% to 60% and increasing speed from 7% to 65% for input sequences ranging from 20 to 80 seconds.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# SurgTrack:CADのないリアルな手術器具の3D追跡

SurgTrack: CAD-Free 3D Tracking of Real-world Surgical Instruments ( http://arxiv.org/abs/2409.02598v1 )

ライセンス: Link先を確認
Wenwu Guo, Jinlin Wu, Zhen Chen, Qingxiang Zhao, Miao Xu, Zhen Lei, Hongbin Liu, (参考訳) 視覚に基づく手術ナビゲーションは、非侵襲的で費用対効果があり柔軟な利点のために注目されている。 特に、視覚ベースのナビゲーションシステムの重要な要素は、手術器具を追跡することである。 2次元計器追跡法と比較すると, 3次元計器追跡法は臨床実践においてより大きな価値を持っているが, テクスチャの弱さ, 閉塞性, 3次元登録のためのコンピュータ支援設計(CAD)モデルが欠如していることから, より困難である。 これらの課題を解決するために,CADフリーで堅牢な実世界のアプリケーションのための2段階の3D機器追跡手法であるSurgTrackを提案する。 第1登録段階では,楽器の3次元表現をモデル化し,CADフリーな3次元登録を実現する。 これにより、ビデオストリームと登録されたSDFモデルとをマッチングすることにより、3次元空間における楽器の位置と向きを求めることができる。 第2の追跡段階において、姿勢グラフ最適化モジュールを考案し、姿勢記憶プールの履歴追跡結果を利用して追跡結果を最適化し、閉塞堅牢性を向上させる。 さらに,手術器具の3D追跡を総合的に評価するために,インスツルメンツ3Dデータセットを収集した。 SurgTrackの優れた性能とスケーラビリティは、最先端技術よりも優れたパフォーマンスで実現されている。 コードとデータセットはhttps://github.com/wenwucode/SurgTrack.comから入手できる。

Vision-based surgical navigation has received increasing attention due to its non-invasive, cost-effective, and flexible advantages. In particular, a critical element of the vision-based navigation system is tracking surgical instruments. Compared with 2D instrument tracking methods, 3D instrument tracking has broader value in clinical practice, but is also more challenging due to weak texture, occlusion, and lack of Computer-Aided Design (CAD) models for 3D registration. To solve these challenges, we propose the SurgTrack, a two-stage 3D instrument tracking method for CAD-free and robust real-world applications. In the first registration stage, we incorporate an Instrument Signed Distance Field (SDF) modeling the 3D representation of instruments, achieving CAD-freed 3D registration. Due to this, we can obtain the location and orientation of instruments in the 3D space by matching the video stream with the registered SDF model. In the second tracking stage, we devise a posture graph optimization module, leveraging the historical tracking results of the posture memory pool to optimize the tracking results and improve the occlusion robustness. Furthermore, we collect the Instrument3D dataset to comprehensively evaluate the 3D tracking of surgical instruments. The extensive experiments validate the superiority and scalability of our SurgTrack, by outperforming the state-of-the-arts with a remarkable improvement. The code and dataset are available at https://github.com/wenwucode/SurgTrack.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# 双曲空間におけるファッション項目推薦モデル

A Fashion Item Recommendation Model in Hyperbolic Space ( http://arxiv.org/abs/2409.02599v1 )

ライセンス: Link先を確認
Ryotaro Shimizu, Yu Wang, Masanari Kimura, Yuki Hirakawa, Takashi Wada, Yuki Saito, Julian McAuley, (参考訳) 本研究では,メタボリックな幾何学をユーザおよびアイテム表現に組み込んだファッションアイテム推薦モデルを提案する。 メタボリック空間を用いて視覚的データとユーザの購入履歴に基づいて,アイテム間の暗黙の階層をキャプチャすることを目的としている。 トレーニング中,多タスク学習フレームワークを適用し,損失関数における双曲的距離とユークリッド距離を両立させる。 3つのデータセットに対する実験により、ユークリッド空間でのみ訓練された従来のモデルよりも優れた性能を示し、モデルの有効性を確認した。 本研究は,マルチタスク学習が重要な役割を担い,ユークリッド損失の除去がモデル性能を著しく低下させることを示す。

In this work, we propose a fashion item recommendation model that incorporates hyperbolic geometry into user and item representations. Using hyperbolic space, our model aims to capture implicit hierarchies among items based on their visual data and users' purchase history. During training, we apply a multi-task learning framework that considers both hyperbolic and Euclidean distances in the loss function. Our experiments on three data sets show that our model performs better than previous models trained in Euclidean space only, confirming the effectiveness of our model. Our ablation studies show that multi-task learning plays a key role, and removing the Euclidean loss substantially deteriorates the model performance.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# ChatGPT vs. ソーシャルサーベイ

ChatGPT vs Social Surveys: Probing the Objective and Subjective Human Society ( http://arxiv.org/abs/2409.02601v1 )

ライセンス: Link先を確認
Muzhi Zhou, Lu Yu, Xiaomin Geng, Lan Luo, (参考訳) 大規模言語モデル(LLM)が社会調査のデータ生成過程をシミュレートできる範囲はいまだ不明である。 現在の研究は、言語モデルの枠組みの中で表現される社会デマトグラフィー人口の潜在的なバイアスを十分に評価していない。 加えて、LLMの主観的世界は、その反応が人間の回答者の群とどのように密接な関係を示すかに矛盾することが多い。 本稿では,ChatGPT-3.5を用いてサンプリングプロセスをシミュレートし,2020年の米国人口から6つの社会経済特性を生んだ。 また、GPTの主観的態度を探るため、所得格差やジェンダーの役割に関する質問に対する回答を分析した。 繰り返しランダムサンプリングを用いて,GPT生成集団のパラメータを同定するサンプリング分布を作成し,Censusデータと比較した。 以上の結果から、性別と年齢の一致は、2020年のアメリカにおける実際の人口と一致しているが、人種や教育団体の分布にミスマッチがあることが判明した。 さらに, GPTの反応の分布と自己報告態度には有意な差が認められた。 GPTの所得統計応答の総点推定は、人口の平均と時折一致しているように見えるが、その反応分布は人間の反応から分岐する正規分布に従う。 ジェンダー関係の観点では、GPTの回答は最も頻繁に答えられるカテゴリーに集まり、決定論的パターンを示す傾向がある。 LLMは最も適切な回答を予測することを目的としており、社会調査は社会集団間の異質性を明らかにすることを目指している。

The extent to which Large Language Models (LLMs) can simulate the data-generating process for social surveys remains unclear. Current research has not thoroughly assessed potential biases in the sociodemographic population represented within the language model's framework. Additionally, the subjective worlds of LLMs often show inconsistencies in how closely their responses match those of groups of human respondents. In this paper, we used ChatGPT-3.5 to simulate the sampling process and generated six socioeconomic characteristics from the 2020 US population. We also analyzed responses to questions about income inequality and gender roles to explore GPT's subjective attitudes. By using repeated random sampling, we created a sampling distribution to identify the parameters of the GPT-generated population and compared these with Census data. Our findings show some alignment in gender and age means with the actual 2020 US population, but we also found mismatches in the distributions of racial and educational groups. Furthermore, there were significant differences between the distribution of GPT's responses and human self-reported attitudes. While the overall point estimates of GPT's income attitudinal responses seem to align with the mean of the population occasionally, their response distributions follow a normal distribution that diverges from human responses. In terms of gender relations, GPT's answers tend to cluster in the most frequently answered category, demonstrating a deterministic pattern. We conclude by emphasizing the distinct design philosophies of LLMs and social surveys: LLMs aim to predict the most suitable answers, while social surveys seek to reveal the heterogeneity among social groups.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# LLMを用いた疑似因果変数の仮説化

Hypothesizing Missing Causal Variables with LLMs ( http://arxiv.org/abs/2409.02604v1 )

ライセンス: Link先を確認
Ivaxi Sheth, Sahar Abdelnabi, Mario Fritz, (参考訳) 科学的発見は、仮説生成、実験設計、データ評価、反復的仮定改善のサイクルによって駆動される、人間の知的進歩のための触媒である。 このプロセスは、重要なものの、仮説を作成し、科学サイクルをナビゲートするために、科学者のドメイン知識に大きく依存している。 この中心にあるのは因果関係であり、原因と効果の関係を確立する能力である。 科学的発見プロセスによって動機づけられたこの研究では、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は欠落変数に関する仮説であり、部分グラフを完成させる。 我々は、因果グラフに関する様々な難易度と知識仮定を持つベンチマークを設計する。 科学的な発見を支援するためにLLM(Large Language Models)の使用に関心が高まり、テストベッド上でオープンソースおよびクローズドなモデルをベンチマークします。 原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。 対照的に、彼らは原因と影響の変数自体を仮説化するのに不適当である。 また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。

Scientific discovery is a catalyst for human intellectual advances, driven by the cycle of hypothesis generation, experimental design, data evaluation, and iterative assumption refinement. This process, while crucial, is expensive and heavily dependent on the domain knowledge of scientists to generate hypotheses and navigate the scientific cycle. Central to this is causality, the ability to establish the relationship between the cause and the effect. Motivated by the scientific discovery process, in this work, we formulate a novel task where the input is a partial causal graph with missing variables, and the output is a hypothesis about the missing variables to complete the partial graph. We design a benchmark with varying difficulty levels and knowledge assumptions about the causal graph. With the growing interest in using Large Language Models (LLMs) to assist in scientific discovery, we benchmark open-source and closed models on our testbed. We show the strong ability of LLMs to hypothesize the mediation variables between a cause and its effect. In contrast, they underperform in hypothesizing the cause and effect variables themselves. We also observe surprising results where some of the open-source models outperform the closed GPT-4 model.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# 小児肺炎に対する医療用マルチモーダル大言語モデル

A Medical Multimodal Large Language Model for Pediatric Pneumonia ( http://arxiv.org/abs/2409.02608v1 )

ライセンス: Link先を確認
Weiwei Tian, Xinyu Huang, Tianhao Cheng, Wen He, Jinwu Fang, Rui Feng, Daoying Geng, Xiaobo Zhang, (参考訳) 小児肺炎は世界中で5歳未満の子どもの死因の主要な原因であり、家族に大きな負担がかかる。 現在、小児肺炎の診断と治療には3つの重要なハードルがある。 第一に、小児肺炎は他の呼吸器疾患と類似の症状を共有し、迅速かつ正確な鑑別診断を困難にしている。 第二に、主要な病院は十分な医療資源と経験豊富な医師が不足していることが多い。 最後に、パーソナライズされた診断報告と治療勧告を提供することは、労働集約的で時間を要する。 これらの課題に対処するため,小児肺炎(P2Med-MLLM)のための医療用マルチモーダル大規模言語モデルを提案した。 フリーテキストの放射線学レポートや医療記録を統一された枠組みで作成するなど、多様な臨床業務を扱うことができた。 具体的には、P2Med-MLLMは、広範かつ大規模なデータセット(P2Med-MD)に基づいてトレーニングされた純粋なテキストデータと画像テキストデータの両方を処理することができる。 本データセットは, 2次元胸部X線像, 3次元胸部CT像, 対応する放射線診断報告, 外来および入院記録から構成した。 我々はP2Med-MLLMが医療知識を理解できるように3段階のトレーニング戦略を設計し、様々な臨床業務の指示に従うようにした。 P2Med-MLLMの性能を厳格に評価するため,小児肺科専門医による642検体を用いたP2Med-MBenchを作成した。 自動スコアリングはP2Med-MLLMの優位性を示した。 本研究は, 疾患診断と治療計画の迅速な支援, 重症症状死亡率の低減, 医療資源の配分の最適化に重要な役割を担っている。

Pediatric pneumonia is the leading cause of death among children under five years worldwide, imposing a substantial burden on affected families. Currently, there are three significant hurdles in diagnosing and treating pediatric pneumonia. Firstly, pediatric pneumonia shares similar symptoms with other respiratory diseases, making rapid and accurate differential diagnosis challenging. Secondly, primary hospitals often lack sufficient medical resources and experienced doctors. Lastly, providing personalized diagnostic reports and treatment recommendations is labor-intensive and time-consuming. To tackle these challenges, we proposed a Medical Multimodal Large Language Model for Pediatric Pneumonia (P2Med-MLLM). It was capable of handling diverse clinical tasks, such as generating free-text radiology reports and medical records within a unified framework. Specifically, P2Med-MLLM can process both pure text and image-text data, trained on an extensive and large-scale dataset (P2Med-MD), including real clinical information from 163,999 outpatient and 8,684 inpatient cases. This dataset comprised 2D chest X-ray images, 3D chest CT images, corresponding radiology reports, and outpatient and inpatient records. We designed a three-stage training strategy to enable P2Med-MLLM to comprehend medical knowledge and follow instructions for various clinical tasks. To rigorously evaluate P2Med-MLLM's performance, we developed P2Med-MBench, a benchmark consisting of 642 meticulously verified samples by pediatric pulmonology specialists, covering six clinical decision-support tasks and a balanced variety of diseases. The automated scoring results demonstrated the superiority of P2Med-MLLM. This work plays a crucial role in assisting primary care doctors with prompt disease diagnosis and treatment planning, reducing severe symptom mortality rates, and optimizing the allocation of medical resources.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# GoT-CQA:グラフ・オブ・サード・ガイドによるチャート質問回答のための合成推論

GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering ( http://arxiv.org/abs/2409.02611v1 )

ライセンス: Link先を確認
Lingling Zhang, Muye Huang, QianYing Wang, Yaxian Wang, Wenjun Wu, Jun Liu, (参考訳) CQA(Chart Question Answering)は、チャートの要約、ビジネスデータ分析、データレポート生成において重要な役割を果たすビジュアルチャートの内容に基づいて、質問に答えることを目的としている。 CQAは、強いコンテキスト依存と複雑な推論要求のため、困難なマルチモーダルタスクである。 前者は、与えられたチャートの視覚的内容や内部データの分析に基づいて、厳密に答えることであり、後者は、回答予測プロセスに関わる様々な論理的および数値的推論を強調する。 本稿では,CQAタスクにおける複雑な推論にもっと注意を払うとともに,この問題を解決するために,新しいグラフ・オブ・ソート(GoT)ガイド付き合成推論モデルGoT-CQAを提案する。 まず、グラフ指向の質問を、局所化、数値化、論理演算子を含む複数の演算子ノードからなる有向非巡回GoTに変換する。 これは人間の脳の解法を直感的に反映している。 その後、GoTが指導する効率的な自動構成推論フレームワークを設計し、様々な質問の多段階推論操作を抽出する。 ChartQAとPlotQA-Dデータセットに関する総合的な実験によると、GoT-CQAは、特に複雑な人間記述や推論の質問において、最新の一般的なベースラインと比較して、優れたパフォーマンスを達成する。

Chart Question Answering (CQA) aims at answering questions based on the visual chart content, which plays an important role in chart sumarization, business data analysis, and data report generation. CQA is a challenging multi-modal task because of the strong context dependence and complex reasoning requirement. The former refers to answering this question strictly based on the analysis of the visual content or internal data of the given chart, while the latter emphasizes the various logical and numerical reasoning involved in answer prediction process. In this paper, we pay more attention on the complex reasoning in CQA task, and propose a novel Graph-of-Thought (GoT) guided compositional reasoning model called GoT-CQA to overcome this problem. At first, we transform the chart-oriented question into a directed acyclic GoT composed of multiple operator nodes, including localization, numerical and logical operator. It intuitively reflects the human brain's solution process to this question. After that, we design an efficient auto-compositional reasoning framework guided by the GoT, to excute the multi-step reasoning operations in various types of questions. Comprehensive experiments on ChartQA and PlotQA-D datasets show that GoT-CQA achieves outstanding performance, especially in complex human-written and reasoning questions, comparing with the latest popular baselines.
翻訳日:2024-09-05 19:10:42 公開日:2024-09-04
# デジタルプライバシ規制がユーザ信頼に及ぼす影響評価

Evaluating the Effects of Digital Privacy Regulations on User Trust ( http://arxiv.org/abs/2409.02614v1 )

ライセンス: Link先を確認
Mehmet Berk Cetin, (参考訳) 今日のデジタル社会では、デジタルプライバシに関する問題がますます重要になっている。 データ漏洩などの問題は、データの誤用、財務損失、サイバーいじめなど、デジタルサービスに対するユーザの信頼の低下につながる。 本研究は,オランダ,ガーナ,マレーシアにおけるディジタルプライバシ法がユーザ信頼に与える影響について検討した。 この研究は、デジタルプライバシ法の専門家、IT教育者、そして各国の消費者とのインタビューを含む、比較ケーススタディ手法を採用している。 オランダの一般データ保護規則(GDPR)は厳格だが、その実践的影響は執行上の課題によって制限されている。 ガーナでは、データ保護法(Data Protection Act)は、公共の認識が低く、執行が不十分なため、個人的保護措置に依存している。 マレーシアでは、デジタルサービスに対する信頼は、個人データ保護法ではなく、個々のプラットフォームのセキュリティプラクティスに大きく依存している。 この研究は、デジタルプライバシ法の有効性を形作る上で、公共の意識、効果的な執行、文化的配慮の重要性を強調している。 これらの知見に基づいて、デジタルプライバシの実践を強化するためのレコメンデーションフレームワークが提案され、また、デジタル化の課題をナビゲートする上で、政策立案者、企業、市民に貴重なガイダンスを提供することを目的としている。

In today's digital society, issues related to digital privacy have become increasingly important. Issues such as data breaches result in misuse of data, financial loss, and cyberbullying, which leads to less user trust in digital services. This research investigates the impact of digital privacy laws on user trust by comparing the regulations in the Netherlands, Ghana, and Malaysia. The study employs a comparative case study method, involving interviews with digital privacy law experts, IT educators, and consumers from each country. The main findings reveal that while the General Data Protection Regulation (GDPR) in the Netherlands is strict, its practical impact is limited by enforcement challenges. In Ghana, the Data Protection Act is underutilized due to low public awareness and insufficient enforcement, leading to reliance on personal protective measures. In Malaysia, trust in digital services is largely dependent on the security practices of individual platforms rather than the Personal Data Protection Act. The study highlights the importance of public awareness, effective enforcement, and cultural considerations in shaping the effectiveness of digital privacy laws. Based on these insights, a recommendation framework is proposed to enhance digital privacy practices, also aiming to provide valuable guidance for policymakers, businesses, and citizens in navigating the challenges of digitalization.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# PUB:Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation

PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation ( http://arxiv.org/abs/2409.02617v1 )

ライセンス: Link先を確認
Aneta Pawelec, Victoria Sara Wesołowska, Zuzanna Bączek, Piotr Sankowski, (参考訳) 大規模言語モデル(LLM)がデータの視覚的表現を解釈する能力は、データ分析や意思決定プロセスにおけるその応用を進める上で不可欠である。 本稿では, 時系列, ヒストグラム, ヴァイオリン, ボックスプロット, クラスタなど, 様々なデータ視覚化の形式を解釈する上で, LLMの習熟度を評価するために設計された新しい合成データセットを提案する。 我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。 画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、ChatGPTやGeminiといった最先端モデルのベンチマークを行い、その理解と解釈精度を評価した。 データ整合性を確保するため、ベンチマークデータセットは自動生成され、テスト対象のモデルに対する事前の露出から完全に新しく、不要になる。 この戦略により、モデルが真に解釈し、データを理解する能力を評価し、事前学習された応答の可能性を排除し、モデルの能力の偏りのない評価を可能にする。 また、モデルの性能を評価するための定量的指標を導入し、堅牢で包括的な評価ツールを提供します。 このデータセットでいくつかの最先端のLCMをベンチマークすると、様々な成功の度合いが示され、様々な種類の視覚データを解釈する際の特定の強みと弱点が浮き彫りにされている。 この結果は、LLMの現在の能力に関する貴重な洞察を与え、改善のための重要な領域を特定します。 本研究は,言語モデルの視覚的解釈能力の向上を目的とした,将来の研究開発のための基礎的ベンチマークを確立する。 将来的には、堅牢な視覚的解釈能力を備えたLLMの改善は、自動データ分析、科学研究、教育ツール、ビジネスインテリジェンスアプリケーションに大きく貢献する。

The ability of large language models (LLMs) to interpret visual representations of data is crucial for advancing their application in data analysis and decision-making processes. This paper presents a novel synthetic dataset designed to evaluate the proficiency of LLMs in interpreting various forms of data visualizations, including plots like time series, histograms, violins, boxplots, and clusters. Our dataset is generated using controlled parameters to ensure comprehensive coverage of potential real-world scenarios. We employ multimodal text prompts with questions related to visual data in images to benchmark several state-of-the-art models like ChatGPT or Gemini, assessing their understanding and interpretative accuracy. To ensure data integrity, our benchmark dataset is generated automatically, making it entirely new and free from prior exposure to the models being tested. This strategy allows us to evaluate the models' ability to truly interpret and understand the data, eliminating possibility of pre-learned responses, and allowing for an unbiased evaluation of the models' capabilities. We also introduce quantitative metrics to assess the performance of the models, providing a robust and comprehensive evaluation tool. Benchmarking several state-of-the-art LLMs with this dataset reveals varying degrees of success, highlighting specific strengths and weaknesses in interpreting diverse types of visual data. The results provide valuable insights into the current capabilities of LLMs and identify key areas for improvement. This work establishes a foundational benchmark for future research and development aimed at enhancing the visual interpretative abilities of language models. In the future, improved LLMs with robust visual interpretation skills can significantly aid in automated data analysis, scientific research, educational tools, and business intelligence applications.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 複数の視覚出力デバイスのためのソフトウェア可視化手法

A Software Visualization Approach for Multiple Visual Output Devices ( http://arxiv.org/abs/2409.02620v1 )

ライセンス: Link先を確認
Malte Hansen, Heiko Bielfeldt, Armin Bernstetter, Tom Kwasnitschka, Wilhelm Hasselbring, (参考訳) ソフトウェアシステムが成長するにつれて、ソフトウェアビジュアライゼーションを通じてプログラムの理解を促進するだけでなく、ソフトウェアシステムの協調的な探索を可能にする環境がますます重要になる。 ソフトウェアビジュアライゼーションへのほとんどのアプローチは、視覚的な出力デバイスとして単一のモニターに焦点を当てている。 最近のアプローチでは、没入性を高め、プログラムの理解を容易にするコラボレーションを可能にするために、拡張現実環境と仮想現実環境に対処している。 本稿では,複数のディスプレイやプロジェクタを用いて,既存のアプローチのギャップを埋めるソフトウェア都市によるソフトウェアビジュアライゼーションの新たなアプローチを提案する。 これにより、スクリーン不動産の増加と、コロケーション環境の新しいユースケースシナリオが実現される。 当社のWebベースのライブトレース可視化ツールであるExploreVizは、複数のブラウザインスタンス間で視覚化を同期するサービスで拡張されています。 複数のブラウザインスタンスは、所定の設定に関してお互いのビューを拡張したり補完したりすることができる。 5つのプロジェクターを備えた空間没入型可視化環境であるARENA2を用いて,本手法の実証を行った。 予備的な研究は、この環境がソフトウェア都市を共同で探究するのに有用であることを示唆している。 この出版物にはビデオが添付されている。 さらに、我々の実装はオープンソースであり、他の研究者に彼らのユースケースについて調査と適応を依頼します。 ビデオURL:https://youtu.be/OiutBn3zIl8

As software systems grow, environments that not only facilitate program comprehension through software visualization but also enable collaborative exploration of software systems become increasingly important. Most approaches to software visualization focus on a single monitor as a visual output device, which offers limited immersion and lacks in potential for collaboration. More recent approaches address augmented and virtual reality environments to increase immersion and enable collaboration to facilitate program comprehension. We present a novel approach to software visualization with software cities that fills a gap between existing approaches by using multiple displays or projectors. Thereby, an increase in screen real estate and new use case scenarios for co-located environments are enabled. Our web-based live trace visualization tool ExplorViz is extended with a service to synchronize the visualization across multiple browser instances. Multiple browser instances can then extend or complement each other's views with respect to a given configuration. The ARENA2, a spatially immersive visualization environment with five projectors, is used to showcase our approach. A preliminary study indicates that this environment can be useful for collaborative exploration of software cities. This publication is accompanied by a video. In addition, our implementation is open source and we invite other researchers to explore and adapt it for their use cases. Video URL: https://youtu.be/OiutBn3zIl8
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 例)アンサンブルのアンサンブル:大モデルにおけるてんかん性不確かさの崩壊

(Implicit) Ensembles of Ensembles: Epistemic Uncertainty Collapse in Large Models ( http://arxiv.org/abs/2409.02628v1 )

ライセンス: Link先を確認
Andreas Kirsch, (参考訳) 疫学的な不確実性は、安全クリティカルなアプリケーションとアウト・オブ・ディストリビューション検出タスクに不可欠である。 しかし、深層学習モデルのパラドックス現象を明らかにする: モデル複雑性が増加するにつれて、エピステマティックな不確実性が崩壊し、より大きなモデルがより良い不確実性定量化を提供するという仮定に挑戦する。 提案手法は,大規模モデル内での暗黙のアンサンブルに起因する。 この仮説を支持するために,我々は,アンサンブルと単純なMPPの明示的なアンサンブルから,ResNetsやVision Transformerを含む最先端のビジョンモデルに至るまで,さまざまなアーキテクチャで経験的にエピステミック不確実性崩壊を実証する。 我々はこれらの現象を理論的に正当化し、不確実性推定にその意味を探求する。

Epistemic uncertainty is crucial for safety-critical applications and out-of-distribution detection tasks. Yet, we uncover a paradoxical phenomenon in deep learning models: an epistemic uncertainty collapse as model complexity increases, challenging the assumption that larger models invariably offer better uncertainty quantification. We propose that this stems from implicit ensembling within large models. To support this hypothesis, we demonstrate epistemic uncertainty collapse empirically across various architectures, from explicit ensembles of ensembles and simple MLPs to state-of-the-art vision models, including ResNets and Vision Transformers -- for the latter, we examine implicit ensemble extraction and decompose larger models into diverse sub-models, recovering epistemic uncertainty. We provide theoretical justification for these phenomena and explore their implications for uncertainty estimation.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# AdvSecureNet: 敵機械学習のためのPythonツールキット

AdvSecureNet: A Python Toolkit for Adversarial Machine Learning ( http://arxiv.org/abs/2409.02629v1 )

ライセンス: Link先を確認
Melih Catal, Manuel Günther, (参考訳) 機械学習モデルは敵の攻撃に弱い。 これらの脆弱性を研究するためにいくつかのツールが開発されているが、包括的な機能や柔軟性が欠けていることが多い。 我々は、PyTorchベースの機械学習用ツールキットであるAdvSecureNetを紹介した。これは、攻撃、防御、評価のためのマルチGPUセットアップをネイティブにサポートする最初のツールである。 CLIとAPIインターフェースの両方と外部YAML設定ファイルをサポートし、汎用性と再現性を向上させる最初のツールキットである。 ツールキットには、複数のアタック、ディフェンス、評価メトリクスが含まれている。 高いコード品質と保守性を保証するために、厳格なソフトウェアエンジニアリングプラクティスが続きます。 プロジェクトはGitHubのhttps://github.com/melihcatal/advsecurenetでオープンソースプロジェクトとして利用可能で、PyPI経由でインストール可能である。

Machine learning models are vulnerable to adversarial attacks. Several tools have been developed to research these vulnerabilities, but they often lack comprehensive features and flexibility. We introduce AdvSecureNet, a PyTorch based toolkit for adversarial machine learning that is the first to natively support multi-GPU setups for attacks, defenses, and evaluation. It is the first toolkit that supports both CLI and API interfaces and external YAML configuration files to enhance versatility and reproducibility. The toolkit includes multiple attacks, defenses and evaluation metrics. Rigiorous software engineering practices are followed to ensure high code quality and maintainability. The project is available as an open-source project on GitHub at https://github.com/melihcatal/advsecurenet and installable via PyPI.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 離散変調連続可変量子鍵分布の一般攻撃対策への応用

Discrete-modulated continuous-variable quantum key distribution secure against general attacks ( http://arxiv.org/abs/2409.02630v1 )

ライセンス: Link先を確認
Ignatius William Primaatmaja, Wen Yu Kon, Charles Lim, (参考訳) 近年,離散変調型連続可変量子鍵分布 (DM-CV-QKD) は,コスト効率,簡易な状態調整,既存の通信技術との互換性といった実用的優位性により,注目を集めている。 本研究では,有限サイズ効果を含む一般的なシーケンシャル攻撃に対するDM-CV-QKDのセキュリティ解析を行う。 注目すべきは、我々の証明は独立でも同一でもない攻撃を考慮し、受信機のヒルベルト空間次元について仮定しないことである。 セキュリティを解析するために、最近の一般化エントロピー累積定理と準相対エントロピーに基づく数値手法を利用する。 また,エントロピー蓄積フレームワークと互換性のある新しい次元低減手法を開発した。 分析の結果,鍵レートに対する有意な有限サイズ補正が得られたが,実際的な利点から,特定のシナリオにメリットがある可能性がある。 私たちの研究は、将来のセキュリティ証明がこの作業で引き起こされたセキュリティ境界をどのように改善できるかに関する洞察も提供しています。

In recent years, discrete-modulated continuous-variable quantum key distribution (DM-CV-QKD) has gained traction due to its practical advantages: cost-effectiveness, simple state preparation, and compatibility with existing communication technologies. This work presents a security analysis of DM-CV-QKD against general sequential attacks, including finite-size effects. Remarkably, our proof considers attacks that are neither independent nor identical, and makes no assumptions about the Hilbert space dimension of the receiver. To analyse the security, we leverage the recent generalised entropy accumulation theorem and the numerical methods based on quasi-relative entropy. We also develop a novel dimension reduction technique which is compatible with the entropy accumulation framework. While our analysis reveals significant finite-size corrections to the key rate, the protocol might still offer advantages in specific scenarios due to its practical merits. Our work also offers some insights on how future security proofs can improve the security bounds derived in this work.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 探索エージェントを用いた環境評価

Evaluating Environments Using Exploratory Agents ( http://arxiv.org/abs/2409.02632v1 )

ライセンス: Link先を確認
Bobby Khaleque, Mike Cook, Jeremy Gow, (参考訳) 探索は多くのビデオゲームの重要な部分である。 探索エージェントを用いて,プロシージャ生成ゲームレベル5,エンゲージメントレベル5,アンエンハングレベル5の設計に対するフィードバックを提供する。 我々は,探索動機をモデル化し,環境の探索可能性を評価するための適合度関数を導入する,以前の研究で導入された枠組みを拡大する。 本研究は,我々の探索エージェントがエンゲージメントレベルとアンエンゲージメントレベルを明確に区別できることを示した。 以上の結果から,我々のエージェントは,プロシージャが生成するレベルを探索的に評価する有効なツールとして機能する可能性が示唆された。 この研究は、ゲーム環境がどのように評価され、プレイヤーの探索に最適化されるかについての新しい洞察を提供することで、AI駆動型ゲームデザインの分野に寄与する。

Exploration is a key part of many video games. We investigate the using an exploratory agent to provide feedback on the design of procedurally generated game levels, 5 engaging levels and 5 unengaging levels. We expand upon a framework introduced in previous research which models motivations for exploration and introduce a fitness function for evaluating an environment's potential for exploration. Our study showed that our exploratory agent can clearly distinguish between engaging and unengaging levels. The findings suggest that our agent has the potential to serve as an effective tool for assessing procedurally generated levels, in terms of exploration. This work contributes to the growing field of AI-driven game design by offering new insights into how game environments can be evaluated and optimised for player exploration.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# Loopy: 長期動作依存によるオーディオ駆動型ポートレートアバターのモデリング

Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency ( http://arxiv.org/abs/2409.02634v1 )

ライセンス: Link先を確認
Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng, (参考訳) 近年,拡散型映像生成技術の導入により,映像の自然さと肖像画の細部合成の両面で大きなブレークスルーを遂げている。 人間の動きを駆動する際の音声信号の制御が限られているため、既存の手法では運動を安定させるために補助的な空間信号を加えることが多く、運動の自然性と自由を損なう可能性がある。 本稿では,Loopyという,エンドツーエンドのオーディオ専用条件付きビデオ拡散モデルを提案する。 具体的には,データから長期動作情報を活用し,自然な動きパターンを学習し,音声と画像の移動相関を改善するために,クリップ内時間モジュールとオーディオ-音声間の時間モジュールを設計した。 この方法では、既存の手法で使われている手動の空間的動きテンプレートが、推論中の動きを制限する必要がなくなる。 大規模な実験によると、Loopyは近年のオーディオ駆動のポートレート拡散モデルより優れており、様々なシナリオでより生き生きとした高品質な結果をもたらす。

With the introduction of diffusion-based video generation techniques, audio-conditioned human video generation has recently achieved significant breakthroughs in both the naturalness of motion and the synthesis of portrait details. Due to the limited control of audio signals in driving human motion, existing methods often add auxiliary spatial signals to stabilize movements, which may compromise the naturalness and freedom of motion. In this paper, we propose an end-to-end audio-only conditioned video diffusion model named Loopy. Specifically, we designed an inter- and intra-clip temporal module and an audio-to-latents module, enabling the model to leverage long-term motion information from the data to learn natural motion patterns and improving audio-portrait movement correlation. This method removes the need for manually specified spatial motion templates used in existing methods to constrain motion during inference. Extensive experiments show that Loopy outperforms recent audio-driven portrait diffusion models, delivering more lifelike and high-quality results across various scenarios.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# MADiff:エゴセントリックビデオにおける手指軌跡予測のための運動認識型マンバ拡散モデル

MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos ( http://arxiv.org/abs/2409.02638v1 )

ライセンス: Link先を確認
Junyi Ma, Xieyuanli Chen, Wentao Bao, Jingyi Xu, Hesheng Wang, (参考訳) エゴセントリックなビデオを通して人間の意図や行動を理解することは、人工知能を具体化する道のりにおいて重要である。 エゴセントリックな視覚技術の一分野として、人間の動きのパターンを理解する上では、手動軌跡予測が重要な役割を果たす。 しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。 この難易度は、カメラの移動干渉や、ハンドウェイポイント分布の最適化を明示的に導くための空きラベルの欠如によって悪化する。 そこで本研究では,拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffという手動軌跡予測手法を提案する。 提案した動き認識型マンバでは、カメラ装着者の自我を統合して、動き駆動選択的スキャン(MDSS)を実現する。 視覚的特徴と言語的特徴を融合させてビデオクリップから高レベルの意味をキャプチャする基礎モデルを用いて,手とシナリオの関係を明らかにする。 既存の5つの公開データセットに対して実施した総合的な実験と,提案した新しい評価指標により,MADiffは最先端のベースラインと比較して,可分に合理的な手指の軌跡を予測し,リアルタイムな性能を実現することを示す。 私たちは、プロジェクトページで、MADiffのコードと事前訓練済みモデルをリリースします。

Understanding human intentions and actions through egocentric videos is important on the path to embodied artificial intelligence. As a branch of egocentric vision techniques, hand trajectory prediction plays a vital role in comprehending human motion patterns, benefiting downstream tasks in extended reality and robot manipulation. However, capturing high-level human intentions consistent with reasonable temporal causality is challenging when only egocentric videos are available. This difficulty is exacerbated under camera egomotion interference and the absence of affordance labels to explicitly guide the optimization of hand waypoint distribution. In this work, we propose a novel hand trajectory prediction method dubbed MADiff, which forecasts future hand waypoints with diffusion models. The devised denoising operation in the latent space is achieved by our proposed motion-aware Mamba, where the camera wearer's egomotion is integrated to achieve motion-driven selective scan (MDSS). To discern the relationship between hands and scenarios without explicit affordance supervision, we leverage a foundation model that fuses visual and language features to capture high-level semantics from video clips. Comprehensive experiments conducted on five public datasets with the existing and our proposed new evaluation metrics demonstrate that MADiff predicts comparably reasonable hand trajectories compared to the state-of-the-art baselines, and achieves real-time performance. We will release our code and pretrained models of MADiff at the project page: https://irmvlab.github.io/madiff.github.io.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 生体力学系におけるコンフォーマル予測

Conformal Prediction in Dynamic Biological Systems ( http://arxiv.org/abs/2409.02644v1 )

ライセンス: Link先を確認
Alberto Portela, Julio R. Banga, Marcos Matabuena, (参考訳) 不確実性定量化(英: Uncertainty Quantification、UQ)は、計算モデル予測における信頼度を体系的に決定し、特徴づける過程である。 システム生物学、特に動的モデルにおいて、UQは非線形性とパラメータ感度によって生じる課題に対処するので、複雑な生物学的システムの振る舞いを適切に理解し、外挿することができる。 ここでは、決定論的非線形常微分方程式で表される動的モデルに焦点を当てる。 この分野での現在の多くのUQアプローチはベイズ統計法に依存している。 強力ではあるが、これらの方法はしばしば強い事前仕様を必要とし、生物学的システムでは常に成り立たないパラメトリックな仮定を行う。 さらに、これらの手法はサンプルサイズが制限され、統計推論が制約される領域では問題に直面し、計算速度は生物学系の大規模モデルにおいてボトルネックとなる。 代案として、共形推論法を用い、2つの新しいアルゴリズムを導入し、いくつかの場合において、漸近的でない保証を提供し、様々なアプリケーションにまたがる堅牢性とスケーラビリティを向上する。 提案手法の有効性をいくつかのシナリオで実証し,ベイズ的手法に対する優位性を強調した。 提案手法は生体データ構造やシナリオに有望な結果を示し,生体システムの動的モデルに対する不確実性を定量化するための一般的な枠組みを提供する。

Uncertainty quantification (UQ) is the process of systematically determining and characterizing the degree of confidence in computational model predictions. In the context of systems biology, especially with dynamic models, UQ is crucial because it addresses the challenges posed by nonlinearity and parameter sensitivity, allowing us to properly understand and extrapolate the behavior of complex biological systems. Here, we focus on dynamic models represented by deterministic nonlinear ordinary differential equations. Many current UQ approaches in this field rely on Bayesian statistical methods. While powerful, these methods often require strong prior specifications and make parametric assumptions that may not always hold in biological systems. Additionally, these methods face challenges in domains where sample sizes are limited, and statistical inference becomes constrained, with computational speed being a bottleneck in large models of biological systems. As an alternative, we propose the use of conformal inference methods, introducing two novel algorithms that, in some instances, offer non-asymptotic guarantees, enhancing robustness and scalability across various applications. We demonstrate the efficacy of our proposed algorithms through several scenarios, highlighting their advantages over traditional Bayesian approaches. The proposed methods show promising results for diverse biological data structures and scenarios, offering a general framework to quantify uncertainty for dynamic models of biological systems.The software for the methodology and the reproduction of the results is available at https://zenodo.org/doi/10.5281/zenodo.13644870.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 創発的言語に関する調査

A Survey on Emergent Language ( http://arxiv.org/abs/2409.02645v1 )

ライセンス: Link先を確認
Jannik Peters, Constantin Waubert de Puiseau, Hasan Tercan, Arya Gopikrishnan, Gustavo Adolpho Lucas De Carvalho, Christian Bitter, Tobias Meisen, (参考訳) 創発言語分野は、人工知能分野、特にマルチエージェント強化学習の文脈における新しい研究領域を表している。 言語の出現を研究するという概念は新しいものではないが、初期のアプローチは主に人間の言語形成を説明することを目的としており、人工エージェントの潜在的有用性についてはほとんど考慮されていない。 対照的に、強化学習に基づく研究は、人間の言語に匹敵する、あるいは優れたエージェントのコミュニケーション能力を開発することを目的としている。 このように、自然言語処理研究に共通する学習された統計表現を超えて拡張される。 このことは、言語の出現の前提条件から、その成功を評価する基準まで、多くの根本的な疑問を引き起こします。 本稿では,人工知能における創発的言語に関する181の科学論文を包括的にレビューすることによって,これらの疑問に対処する。 その目的は、この分野に興味のある研究者や熟練した研究者の参考となることである。 その結果、主要な貢献は、一般的な用語の定義と概要、既存の評価方法とメトリクスの分析、特定された研究ギャップの記述である。

The field of emergent language represents a novel area of research within the domain of artificial intelligence, particularly within the context of multi-agent reinforcement learning. Although the concept of studying language emergence is not new, early approaches were primarily concerned with explaining human language formation, with little consideration given to its potential utility for artificial agents. In contrast, studies based on reinforcement learning aim to develop communicative capabilities in agents that are comparable to or even superior to human language. Thus, they extend beyond the learned statistical representations that are common in natural language processing research. This gives rise to a number of fundamental questions, from the prerequisites for language emergence to the criteria for measuring its success. This paper addresses these questions by providing a comprehensive review of 181 scientific publications on emergent language in artificial intelligence. Its objective is to serve as a reference for researchers interested in or proficient in the field. Consequently, the main contributions are the definition and overview of the prevailing terminology, the analysis of existing evaluation methods and metrics, and the description of the identified research gaps.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 先端機器クラスタレンダリングのための学習型誤り検出システム

Learning-Based Error Detection System for Advanced Vehicle Instrument Cluster Rendering ( http://arxiv.org/abs/2409.02647v1 )

ライセンス: Link先を確認
Cornelius Bürkle, Fabian Oboril, Kay-Ulrich Scholl, (参考訳) 自動車業界は現在、市場に出るあらゆる新しいモデルでデジタルディスプレイの選択肢を拡大している。 これは、次元、解像度、カスタマイズの選択肢の拡張だけでなく、ディスプレイクラスタのコンテンツを組み立てながらオーバーレイのような新しいディスプレイエフェクトを活用する能力も必要である。 残念ながら、これにより、レンダリングエラーを検出し、必要に応じて適切な対策を適用できる適切な監視システムの必要性が高まっている。 Cyclic Redundancy Checks (CRC)のような古典的なソリューションは、どんな種類のアルファブレンディングでも使えなくなるだろう。 そこで本研究では,表示内容の正当性を検証するための新しいモニタリング手法を提案する。 学習に基づくアプローチを用いて、人間の運転者が正しく理解する「良い」テルタルと、正しく認識されない「破損した」テルタルを区別する。 その結果、個々のピクセルエラーに対して固有のレジリエンスを持ち、背景の変更、オーバーレイ、スケーリング効果を暗黙的にサポートする。 テストパターンはすべて正しく分類されたが、誤報は発生しなかった。

The automotive industry is currently expanding digital display options with every new model that comes onto the market. This entails not just an expansion in dimensions, resolution, and customization choices, but also the capability to employ novel display effects like overlays while assembling the content of the display cluster. Unfortunately, this raises the need for appropriate monitoring systems that can detect rendering errors and apply appropriate countermeasures when required. Classical solutions such as Cyclic Redundancy Checks (CRC) will soon be no longer viable as any sort of alpha blending, warping of scaling of content can cause unwanted CRC violations. Therefore, we propose a novel monitoring approach to verify correctness of displayed content using telltales (e.g. warning signs) as example. It uses a learning-based approach to separate "good" telltales, i.e. those that a human driver will understand correctly, and "corrupted" telltales, i.e. those that will not be visible or perceived correctly. As a result, it possesses inherent resilience against individual pixel errors and implicitly supports changing backgrounds, overlay or scaling effects. This is underlined by our experimental study where all "corrupted" test patterns were correctly classified, while no false alarms were triggered.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 多相合金設計のためのリッチ材料情報を用いた組織遅延空間の構築

Creating a Microstructure Latent Space with Rich Material Information for Multiphase Alloy Design ( http://arxiv.org/abs/2409.02648v1 )

ライセンス: Link先を確認
Xudong Ma, Yuqi Zhang, Chenchong Wang, Ming Wang, Mingxin Huang, Wei Xu, (参考訳) 複雑なミクロ構造は多相合金における組成・加工・構造特性(CPSP)接続の基礎となる。 従来の合金設計法は、しばしば微細構造の詳細を見落とし、その結果の信頼性と有効性を低下させる。 本研究は, 高精度CPSP関係を確立するために, 真の微細構造情報を統合する改良された合金設計アルゴリズムを提案する。 このアプローチでは、変動オートエンコーダに基づくディープラーニングフレームワークを使用して、実際のマイクロ構造データを潜時空間にマッピングし、潜時空間ベクトルからの合成、処理ステップ、材料特性の予測を可能にする。 この深層学習モデルを潜時空間における特定のサンプリング戦略と統合することにより,多相合金設計のための新しい微細構造中心アルゴリズムを開発した。 このアルゴリズムは, 統一二相鋼の設計により実演され, 結果が3つの性能レベルで評価される。 さらに、モデルの潜在ベクトル空間を探索することで、シームレスな補間能力とリッチな材料情報の内容が強調される。 特に、潜伏空間の現在の構成は、特に合金設計に有利であり、多相合金に不可欠な微細構造、組成、加工、特性の徹底的な表現を提供する。

The intricate microstructure serves as the cornerstone for the composition/processing-structure-property (CPSP) connection in multiphase alloys. Traditional alloy design methods often overlook microstructural details, which diminishes the reliability and effectiveness of the outcomes. This study introduces an improved alloy design algorithm that integrates authentic microstructural information to establish precise CPSP relationships. The approach utilizes a deep-learning framework based on a variational autoencoder to map real microstructural data to a latent space, enabling the prediction of composition, processing steps, and material properties from the latent space vector. By integrating this deep learning model with a specific sampling strategy in the latent space, a novel, microstructure-centered algorithm for multiphase alloy design is developed. This algorithm is demonstrated through the design of a unified dual-phase steel, and the results are assessed at three performance levels. Moreover, an exploration into the latent vector space of the model highlights its seamless interpolation ability and its rich material information content. Notably, the current configuration of the latent space is particularly advantageous for alloy design, offering an exhaustive representation of microstructure, composition, processing, and property variations essential for multiphase alloys.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# 英語) OpenFact at CheckThat! 2024: Multiple Attack Methods for Effective Adversarial Text Generation (英語)

OpenFact at CheckThat! 2024: Combining Multiple Attack Methods for Effective Adversarial Text Generation ( http://arxiv.org/abs/2409.02649v1 )

ライセンス: Link先を確認
Włodzimierz Lewoniewski, Piotr Stolarski, Milena Stróżyna, Elzbieta Lewańska, Aleksandra Wojewoda, Ewelina Księżniak, Marcin Sawiński, (参考訳) 本稿では,CheckThatの実験結果を紹介する。 CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE) 本研究の主な目的は,信頼性評価問題に適用した場合に広く用いられているテキスト分類手法(細調整BERT, BiLSTM, RoBERTa)の堅牢性を評価するために, 5つの問題領域における逆例を生成することである。 本研究では,自然言語処理(NLP)モデルに対する敵対的攻撃を強化するために,アンサンブル学習の適用について検討する。 我々は,様々な誤情報タスクの5つのデータセットに対して,BERT-Attack,遺伝的アルゴリズム,TextFooler,CLAREなどの敵攻撃手法を体系的に検証し,改良した。 BERT-Attackおよびハイブリッド手法の修正版を開発することにより,攻撃効率を大幅に向上した。 本研究は,より高度で効果的な敵攻撃戦略を構築するために,複数の手法を改良・組み合わせることの可能性を示し,より堅牢でセキュアなシステムの開発に寄与する。

This paper presents the experiments and results for the CheckThat! Lab at CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE). The primary objective of this task was to generate adversarial examples in five problem domains in order to evaluate the robustness of widely used text classification methods (fine-tuned BERT, BiLSTM, and RoBERTa) when applied to credibility assessment issues. This study explores the application of ensemble learning to enhance adversarial attacks on natural language processing (NLP) models. We systematically tested and refined several adversarial attack methods, including BERT-Attack, Genetic algorithms, TextFooler, and CLARE, on five datasets across various misinformation tasks. By developing modified versions of BERT-Attack and hybrid methods, we achieved significant improvements in attack effectiveness. Our results demonstrate the potential of modification and combining multiple methods to create more sophisticated and effective adversarial attack strategies, contributing to the development of more robust and secure systems.
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# SoK:Bitcoin Layer Two (L2)

SoK: Bitcoin Layer Two (L2) ( http://arxiv.org/abs/2409.02650v1 )

ライセンス: Link先を確認
Minfeng Qi, Qin Wang, Zhipeng Wang, Manvir Schneider, Tianqing Zhu, Shiping Chen, William Knottenbelt, Thomas Hardjono, (参考訳) 本稿では,Bitcoinのレイヤ2(L2)ソリューション構築における知識の体系化(SoK)について紹介する。 我々は、現在進行中のBitcoin L2ソリューションの代表的サブセット(335件中40件)を慎重に検討し、2つのアプローチ(トランザクションの修正と証明の作成)を通じて、6つの古典的デザインパターンの簡潔かつ影響の少ない識別を提供する。 特に、銘文技術(2023年半ばに登場した)と関連する一連のイノベーションを取り入れたのは、私たちが初めてです。 さらに、Bitcoin L2ソリューションのセキュリティ面を評価するのに適した基準基準として機能し、より広範なL2アプリケーションにも拡張可能なリファレンスフレームワークを確立します。 調査した各プロジェクトを評価するために、このフレームワークを適用します。 入力ベースのアプローチは、Bitcoinシステムに新しい機能(プログラム可能性)を導入しているのに対して、既存の証明ベースのソリューションは主にスケーラビリティの問題に対処している。 当社のセキュリティ分析では,データ/状態(アベイラビリティ,検証),アセット(処理,リカバリ),ユーザ(意見,検閲)を対象とした新たな攻撃ベクトルが明らかになった。

We present the first Systematization of Knowledge (SoK) on constructing Layer Two (L2) solutions for Bitcoin. We carefully examine a representative subset of ongoing Bitcoin L2 solutions (40 out of 335 extensively investigated cases) and provide a concise yet impactful identification of six classic design patterns through two approaches (i.e., modifying transactions \& creating proofs). Notably, we are the first to incorporate the inscription technology (emerged in mid-2023), along with a series of related innovations. We further establish a reference framework that serves as a baseline criterion ideally suited for evaluating the security aspects of Bitcoin L2 solutions, and which can also be extended to broader L2 applications. We apply this framework to evaluate each of the projects we investigated. We find that the inscription-based approaches introduce new functionality (i.e., programability) to Bitcoin systems, whereas existing proof-based solutions primarily address scalability challenges. Our security analysis reveals new attack vectors targeting data/state (availability, verification), assets (withdrawal, recovery), and users (disputes, censorship).
翻訳日:2024-09-05 18:53:31 公開日:2024-09-04
# Skip-and-Play: 任意のオブジェクトに対する深さ駆動型Pose保存画像生成

Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any Objects ( http://arxiv.org/abs/2409.02653v1 )

ライセンス: Link先を確認
Kyungmin Jo, Jaegul Choo, (参考訳) 拡散モデルの出現により、テキストのみから多様な高品質な画像が生成されるようになり、これらのモデルの制御性を高める努力が進められた。 制御性の改善にもかかわらず、ポーズコントロールは特定の物体(例えば、人間)やポーズ(例えば、正面視)に限られており、ポーズは一般的にカメラパラメータ(例えば、回転角)やキーポイント(例えば、目、鼻)によって制御される。 特に、カメラパラメータ-条件付きポーズ制御モデルは、トレーニング用の3Dデータセットの小さなサイズのため、オブジェクトに応じて非現実的な画像を生成する。 また、キーポイントベースのアプローチは、様々なオブジェクト(例えば、教会)やポーズ(例えば、バックビュー)の信頼できるキーポイントを取得する際の課題に直面する。 これらの制約に対処するため、カメラパラメータやキーポイントとは異なり、物体やポーズに関わらず、深度マップが単一の深度推定モデルから容易に得ることができるように、深度に基づくポーズ制御を提案する。 しかし、奥行きマップはポーズだけでなく、生成された画像の形状にも影響を及ぼすため、奥行きベースのポーズ制御は形状依存性の問題に直面している。 そこで本研究では,深度条件制御ネットの3成分が生成画像のポーズと形状に与える影響を分析することによって,Skip-and-Play(SnP)を提案する。 分析により,ポーズを保ちながら奥行きマップの形状依存性を緩和するため,部品の一部を選択的にスキップする。 様々な実験を通じて,SnPがベースラインよりも優れていることを示すとともに,多様なオブジェクトやポーズの画像を生成するSnPの能力を示す。 SnPは、条件(eg,馬)とプロンプト(eg,ヘッジホッグ)が異なる場合でも、画像を生成する能力を示す。

The emergence of diffusion models has enabled the generation of diverse high-quality images solely from text, prompting subsequent efforts to enhance the controllability of these models. Despite the improvement in controllability, pose control remains limited to specific objects (e.g., humans) or poses (e.g., frontal view) due to the fact that pose is generally controlled via camera parameters (e.g., rotation angle) or keypoints (e.g., eyes, nose). Specifically, camera parameters-conditional pose control models generate unrealistic images depending on the object, owing to the small size of 3D datasets for training. Also, keypoint-based approaches encounter challenges in acquiring reliable keypoints for various objects (e.g., church) or poses (e.g., back view). To address these limitations, we propose depth-based pose control, as depth maps are easily obtainable from a single depth estimation model regardless of objects and poses, unlike camera parameters and keypoints. However, depth-based pose control confronts issues of shape dependency, as depth maps influence not only the pose but also the shape of the generated images. To tackle this issue, we propose Skip-and-Play (SnP), designed via analysis of the impact of three components of depth-conditional ControlNet on the pose and the shape of the generated images. To be specific, based on the analysis, we selectively skip parts of the components to mitigate shape dependency on the depth map while preserving the pose. Through various experiments, we demonstrate the superiority of SnP over baselines and showcase the ability of SnP to generate images of diverse objects and poses. Remarkably, SnP exhibits the ability to generate images even when the objects in the condition (e.g., a horse) and the prompt (e.g., a hedgehog) differ from each other.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# PoseTalk:ワンショットトーキングヘッド生成のためのテキスト・アンド・オーディオによるPose制御とモーションリファインメント

PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation ( http://arxiv.org/abs/2409.02657v1 )

ライセンス: Link先を確認
Jun Ling, Yiwen Wang, Han Xue, Rong Xie, Li Song, (参考訳) 従来の音声駆動型音声ヘッドジェネレーション(THG)法は、音声の駆動からヘッドポーズを生成するが、生成されたポーズや唇はオーディオとよく一致せず、編集もできない。 本研究では,テキストのプロンプトや音声に条件付けされた自由なポーズで,リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである「textbf{PoseTalk}」を提案する。 本手法の中核となる洞察は,視覚的,言語的,音声的信号の結合にヘッドポーズを用いることである。 まず、音声とテキストのプロンプトからポーズを生成し、音声は頭部の動きの短期的変化とリズム対応を提供し、テキストプロンプトは頭部の動きの長期的意味を記述する。 この目的を達成するために、ポーズ潜在空間におけるテキストプロンプトとオーディオキューから、ポーズ潜在拡散(PLD)モデルを作成する。 第2に, 唇領域の損失はポーズと唇の両方による再建損失の4倍以下であり, 唇形状よりも頭部運動に傾いている。 この問題に対処するために,2つのケースドネットワーク,すなわちCoarseNetとRefineNetを用いて,自然な会話映像を合成する改良型学習手法を提案する。 CoarseNetは、新しいポーズでアニメーション画像を生成するための粗い動きを推定し、RefineNetは、低解像度から高解像度までの唇の動きを段階的に推定することで、より細かい唇の動きを学習することに焦点を当て、唇同期性能を改善した。 実験では,テキストのみや音声のみと比較して,ポーズ予測の手法が多様性と現実性に優れており,ビデオジェネレータモデルは自然な頭部の動きによる音声映像の合成において,最先端の手法よりも優れていた。 プロジェクト:https://junleen.github.io/projects/posetalk。

While previous audio-driven talking head generation (THG) methods generate head poses from driving audio, the generated poses or lips cannot match the audio well or are not editable. In this study, we propose \textbf{PoseTalk}, a THG system that can freely generate lip-synchronized talking head videos with free head poses conditioned on text prompts and audio. The core insight of our method is using head pose to connect visual, linguistic, and audio signals. First, we propose to generate poses from both audio and text prompts, where the audio offers short-term variations and rhythm correspondence of the head movements and the text prompts describe the long-term semantics of head motions. To achieve this goal, we devise a Pose Latent Diffusion (PLD) model to generate motion latent from text prompts and audio cues in a pose latent space. Second, we observe a loss-imbalance problem: the loss for the lip region contributes less than 4\% of the total reconstruction loss caused by both pose and lip, making optimization lean towards head movements rather than lip shapes. To address this issue, we propose a refinement-based learning strategy to synthesize natural talking videos using two cascaded networks, i.e., CoarseNet, and RefineNet. The CoarseNet estimates coarse motions to produce animated images in novel poses and the RefineNet focuses on learning finer lip motions by progressively estimating lip motions from low-to-high resolutions, yielding improved lip-synchronization performance. Experiments demonstrate our pose prediction strategy achieves better pose diversity and realness compared to text-only or audio-only, and our video generator model outperforms state-of-the-art methods in synthesizing talking videos with natural head motions. Project: https://junleen.github.io/projects/posetalk.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# ジャイアンツの肩に立つ:一般深度検出のためのビジュアルランゲージモデルの再プログラミング

Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection ( http://arxiv.org/abs/2409.02664v1 )

ライセンス: Link先を確認
Kaiqing Lin, Yuzhen Lin, Weixiang Li, Taiping Yao, Bin Li, (参考訳) ディープフェイクの顔の増殖は、私たちの日常生活に大きなネガティブな影響を与えます。 近年のディープフェイク検出の大幅な進歩にもかかわらず、未知のデータセットや新たな生成モデルによって生成された偽造に対する既存の手法の一般化性は依然として制限されている。 本稿では、ビジョンランゲージモデル(VLM)のゼロショットの利点に着想を得て、よく訓練されたVLMを一般深度検出に活用する手法を提案する。 データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムによって、本手法は、内部パラメータを調整せずに入力を操作することのみに基づいて、事前訓練されたVLMモデル(例えば、CLIP)をプログラムすることができる。 さらに,テキストプロンプトに顔認証で案内された擬似単語を挿入する。 提案手法を用いた事前学習CLIPモデルを用いて,(1)ディープフェイク検出のクロスデータセットおよびクロス操作性能を大幅に改善し(例:FF++からWildDeepfakeへのクロスデータセット設定では88%以上)、(2)トレーニング可能なパラメータのコストを低減し,現実のアプリケーションにとって有望なアプローチであることを示す。

The proliferation of deepfake faces poses huge potential negative impacts on our daily lives. Despite substantial advancements in deepfake detection over these years, the generalizability of existing methods against forgeries from unseen datasets or created by emerging generative models remains constrained. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach that repurposes a well-trained VLM for general deepfake detection. Motivated by the model reprogramming paradigm that manipulates the model prediction via data perturbations, our method can reprogram a pretrained VLM model (e.g., CLIP) solely based on manipulating its input without tuning the inner parameters. Furthermore, we insert a pseudo-word guided by facial identity into the text prompt. Extensive experiments on several popular benchmarks demonstrate that (1) the cross-dataset and cross-manipulation performances of deepfake detection can be significantly and consistently improved (e.g., over 88% AUC in cross-dataset setting from FF++ to WildDeepfake) using a pre-trained CLIP model with our proposed reprogramming method; (2) our superior performances are at less cost of trainable parameters, making it a promising approach for real-world applications.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# 機械翻訳微調整のためのドメイン特化翻訳メモの作成:TRENCARDバイリンガル心電図コーパス

Creating Domain-Specific Translation Memories for Machine Translation Fine-tuning: The TRENCARD Bilingual Cardiology Corpus ( http://arxiv.org/abs/2409.02667v1 )

ライセンス: Link先を確認
Gokhan Dogru, (参考訳) 本稿では,機械翻訳訓練や微調整,TM活用,大規模言語モデルの微調整など,さまざまなシナリオで使用可能な,ドメイン固有の並列コーパスをコンパイルするために,翻訳者や他の言語専門家が翻訳メモリ(TM)をどのように作成するかを検討する。 本稿では,翻訳者が用いた翻訳ツールを活用した半自動TM作成手法を紹介し,翻訳者によるデータ品質と制御について述べる。 この半自動的手法は、トルコの心臓医学雑誌のバイリンガル・抽象化から、カルディロジーに基づく英語コーパスを構築するために使用される。 TRENCARD Corpusと呼ばれる結果のコーパスには、約80,000のソースワードと5万の文がある。 この手法を使うことで、翻訳者は適切なタイミングでカスタムTMを構築し、バイリンガルデータに必要なタスクで使用することができる。

This article investigates how translation memories (TM) can be created by translators or other language professionals in order to compile domain-specific parallel corpora , which can then be used in different scenarios, such as machine translation training and fine-tuning, TM leveraging, and/or large language model fine-tuning. The article introduces a semi-automatic TM preparation methodology leveraging primarily translation tools used by translators in favor of data quality and control by the translators. This semi-automatic methodology is then used to build a cardiology-based Turkish -> English corpus from bilingual abstracts of Turkish cardiology journals. The resulting corpus called TRENCARD Corpus has approximately 800,000 source words and 50,000 sentences. Using this methodology, translators can build their custom TMs in a reasonable time and use them in their bilingual data requiring tasks.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# 機械学習入門

Introduction to Machine Learning ( http://arxiv.org/abs/2409.02668v1 )

ライセンス: Link先を確認
Laurent Younes, (参考訳) この本は、機械学習で使用される多くのアルゴリズムの開発と分析に繋がる数学的基礎と技法を紹介する。 この章は、本の中で使われる表記を記述する序章から始まり、計算、線形代数、確率の基本概念を思い起こさせると共に、これらのツールを使用するセクションの読み取りガイドとして使用できる測度論の用語も導入している。 入門章は、行列解析と最適化に関する背景資料も提供している。 後者の章は、確率勾配降下、近位法など、本書で使用される多くのアルゴリズムに対する理論的支援を提供する。 統計予測の基本的な概念について議論した後、この本は、線形方法、サポートベクターマシン、決定木、ブースティング、ニューラルネットワークを含む統計学習を監督する様々なアルゴリズムを記述する前に、多くの場所で使用されるカーネル理論とヒルベルト空間技法の再現を紹介した。 対象は次に生成法に切り換えられ、まずサンプリング法とマルコフ連鎖の理論の入門を示す章から始まる。 次の章では、グラフィカルモデルの理論、潜伏変数を持つモデルの変分法の導入、深層学習に基づく生成モデルについて記述する。 次の章では、クラスタリング、因子分析、多様体学習など、教師なしの学習方法に焦点を当てている。 本書の最終章は理論指向であり、集中不等式と一般化境界について論じている。

This book introduces the mathematical foundations and techniques that lead to the development and analysis of many of the algorithms that are used in machine learning. It starts with an introductory chapter that describes notation used throughout the book and serve at a reminder of basic concepts in calculus, linear algebra and probability and also introduces some measure theoretic terminology, which can be used as a reading guide for the sections that use these tools. The introductory chapters also provide background material on matrix analysis and optimization. The latter chapter provides theoretical support to many algorithms that are used in the book, including stochastic gradient descent, proximal methods, etc. After discussing basic concepts for statistical prediction, the book includes an introduction to reproducing kernel theory and Hilbert space techniques, which are used in many places, before addressing the description of various algorithms for supervised statistical learning, including linear methods, support vector machines, decision trees, boosting, or neural networks. The subject then switches to generative methods, starting with a chapter that presents sampling methods and an introduction to the theory of Markov chains. The following chapter describe the theory of graphical models, an introduction to variational methods for models with latent variables, and to deep-learning based generative models. The next chapters focus on unsupervised learning methods, for clustering, factor analysis and manifold learning. The final chapter of the book is theory-oriented and discusses concentration inequalities and generalization bounds.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# ロボットナビゲーションのための因果対応変圧器ネットワーク

Causality-Aware Transformer Networks for Robotic Navigation ( http://arxiv.org/abs/2409.02669v1 )

ライセンス: Link先を確認
Ruoyu Wang, Yao Liu, Yuanjiang Cao, Lina Yao, (参考訳) 機械学習アルゴリズムの最近の進歩は、多目的なエンボディーAIシステムの開発への関心が高まっている。 しかし、この領域における現在の研究は改善の機会を明らかにしている。 第一に、RNNとTransformerの直接的な採用は、Embodied AIと従来のシーケンシャルなデータモデリングとの違いを見落とし、Embodied AIタスクのパフォーマンスを制限している可能性がある。 第二に、事前訓練されたモジュールやデータセット固有のロジックといったタスク固有の設定への依存は、これらのメソッドの一般化性を損なう。 これらの制約に対処するために、当初、Embodied AIタスクと他のシーケンシャルなデータタスクのユニークな違いをCausalityのレンズを通して探求し、従来のEmbodied AIのシーケンシャルなメソッドの欠如を解明するための因果的枠組みを提示した。 この因果的視点を活用することで、モデル環境理解能力を高めるための因果理解モジュールを備えたナビゲーション用因果認識変換器(CAT)ネットワークを提案する。 一方,本手法はタスク固有の帰納バイアスを欠いているため,エンド・ツー・エンド方式で訓練することができる。 実験的な評価により、我々の方法論は、様々な設定、タスク、シミュレーション環境におけるベンチマーク性能を一貫して上回っていることが示される。 大規模なアブレーション研究により、性能向上は、強化学習と監視学習の両方の設定の有効性と効率を示すCausal Understanding Moduleによるものであることが判明した。

Recent advances in machine learning algorithms have garnered growing interest in developing versatile Embodied AI systems. However, current research in this domain reveals opportunities for improvement. First, the direct adoption of RNNs and Transformers often overlooks the specific differences between Embodied AI and traditional sequential data modelling, potentially limiting its performance in Embodied AI tasks. Second, the reliance on task-specific configurations, such as pre-trained modules and dataset-specific logic, compromises the generalizability of these methods. We address these constraints by initially exploring the unique differences between Embodied AI tasks and other sequential data tasks through the lens of Causality, presenting a causal framework to elucidate the inadequacies of conventional sequential methods for Embodied AI. By leveraging this causal perspective, we propose Causality-Aware Transformer (CAT) Networks for Navigation, featuring a Causal Understanding Module to enhance the models's Environmental Understanding capability. Meanwhile, our method is devoid of task-specific inductive biases and can be trained in an End-to-End manner, which enhances the method's generalizability across various contexts. Empirical evaluations demonstrate that our methodology consistently surpasses benchmark performances across a spectrum of settings, tasks and simulation environments. Extensive ablation studies reveal that the performance gains can be attributed to the Causal Understanding Module, which demonstrates effectiveness and efficiency in both Reinforcement Learning and Supervised Learning settings.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# 認識論的視点から見た独立性制約付きアンタングル表現学習

Independence Constrained Disentangled Representation Learning from Epistemological Perspective ( http://arxiv.org/abs/2409.02672v1 )

ライセンス: Link先を確認
Ruoyu Wang, Lina Yao, (参考訳) Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。 それでも、非絡み合い表現学習の目的に対する普遍的に受け入れられた定義については合意が得られていない。 特に、潜在変数が相互独立であるかどうかに関して、かなりの量の議論がある。 本稿では,認識論と不整合表現学習の概念的橋渡しを確立することにより,潜伏変数間の相互関係に関するこれらの議論を考察する。 そして、これらの学際的概念に触発されて、この問題に関する以前の議論に対する一般的な解決策を提供するために、2段階の潜在空間フレームワークを導入する。 最後に,GAN(Generative Adversarial Network)フレームワークにおける相互情報制約と独立性制約の統合を利用して,非絡み合い表現学習のための新しい手法を提案する。 実験結果から,提案手法は定量評価と定性評価の両方において,ベースラインアプローチを一貫して上回ることを示した。 提案手法は,複数の一般的なメトリクスに対して高い性能を示し,様々な意味的要因を解消する優れた能力を示し,制御可能な生成の質が向上し,アルゴリズムの説明可能性の向上に寄与する。

Disentangled Representation Learning aims to improve the explainability of deep learning methods by training a data encoder that identifies semantically meaningful latent variables in the data generation process. Nevertheless, there is no consensus regarding a universally accepted definition for the objective of disentangled representation learning. In particular, there is a considerable amount of discourse regarding whether should the latent variables be mutually independent or not. In this paper, we first investigate these arguments on the interrelationships between latent variables by establishing a conceptual bridge between Epistemology and Disentangled Representation Learning. Then, inspired by these interdisciplinary concepts, we introduce a two-level latent space framework to provide a general solution to the prior arguments on this issue. Finally, we propose a novel method for disentangled representation learning by employing an integration of mutual information constraint and independence constraint within the Generative Adversarial Network (GAN) framework. Experimental results demonstrate that our proposed method consistently outperforms baseline approaches in both quantitative and qualitative evaluations. The method exhibits strong performance across multiple commonly used metrics and demonstrates a great capability in disentangling various semantic factors, leading to an improved quality of controllable generation, which consequently benefits the explainability of the algorithm.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# モデルに基づくパンシャーピングのためのマルチヘッドアテンション残差アンフォールドネットワーク

Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening ( http://arxiv.org/abs/2409.02675v1 )

ライセンス: Link先を確認
Ivan Pereira-Sánchez, Eloi Sans, Julia Navarro, Joan Duran, (参考訳) 本研究の目的は,高分解能パノクロマトグラフィー (PAN) 画像と低分解能マルチスペクトル (MS) 画像と高分解能ハイパースペクトル (HS) 画像とを正確に組み合わせることである。 展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。 これらの手法は、エネルギーの最小化に由来する最適化スキームのステップをディープラーニングフレームワークに展開することを含み、効率的で解釈可能なアーキテクチャをもたらす。 本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。 提案手法は,MS/HSデータの古典的観測モデルとPAN画像に基づく高周波注入制約と,それ以前の任意の凸を組み込んだ変分定式化に基づいている。 展開する段階では、残留ネットワークを介してPAN画像に符号化された幾何情報を利用するアップサンプリング層とダウンサンプリング層を導入する。 提案手法のバックボーンはマルチヘッドアテンション残差ネットワーク (MARNet) であり, 最適化方式における近接演算子を置き換えるとともに, 複数ヘッドアテンションと残差学習を組み合わせ, パッチで定義された非局所演算子による画像自己相似性を利用する。 さらに,MARNetアーキテクチャに基づく後処理モジュールを組み込んで,融合画像の品質をさらに向上させる。 PRISMA、Quickbird、WorldView2データセットの実験結果は、我々の手法の優れた性能と、異なるセンサー構成と様々な空間およびスペクトル解像度をまたいで一般化する能力を示す。 ソースコードはhttps://github.com/TAMI-UIB/MARNetで入手できる。

The objective of pansharpening and hypersharpening is to accurately combine a high-resolution panchromatic (PAN) image with a low-resolution multispectral (MS) or hyperspectral (HS) image, respectively. Unfolding fusion methods integrate the powerful representation capabilities of deep learning with the robustness of model-based approaches. These techniques involve unrolling the steps of the optimization scheme derived from the minimization of an energy into a deep learning framework, resulting in efficient and highly interpretable architectures. In this paper, we propose a model-based deep unfolded method for satellite image fusion. Our approach is based on a variational formulation that incorporates the classic observation model for MS/HS data, a high-frequency injection constraint based on the PAN image, and an arbitrary convex prior. For the unfolding stage, we introduce upsampling and downsampling layers that use geometric information encoded in the PAN image through residual networks. The backbone of our method is a multi-head attention residual network (MARNet), which replaces the proximity operator in the optimization scheme and combines multiple head attentions with residual learning to exploit image self-similarities via nonlocal operators defined in terms of patches. Additionally, we incorporate a post-processing module based on the MARNet architecture to further enhance the quality of the fused images. Experimental results on PRISMA, Quickbird, and WorldView2 datasets demonstrate the superior performance of our method and its ability to generalize across different sensor configurations and varying spatial and spectral resolutions. The source code will be available at https://github.com/TAMI-UIB/MARNet.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# マルチカメラトレーニングによるシングルカメラBEV知覚の改善

Improved Single Camera BEV Perception Using Multi-Camera Training ( http://arxiv.org/abs/2409.02676v1 )

ライセンス: Link先を確認
Daniel Busch, Ido Freeman, Richard Meyes, Tobias Meisen, (参考訳) Bird's Eye View (BEV) マップの予測は、軌道予測のような下流の自律走行タスクに不可欠である。 過去には、複数のカメラからサラウンドビューをキャプチャーする高度なセンサー構成を使用して実現された。 しかし、大規模生産では、コスト効率が最適化の目標であり、カメラの使用を減らすことがより重要になる。 しかし、少ない入力画像の結果はパフォーマンス低下と相関する。 これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。 主に量産車における推論時間に関連するが、このコスト制限は訓練中の試験車両では問題にならない。 そこで本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。 このアプローチには、3つの特徴、現代のマスキング技術、サイクリックラーニングレート(LR)スケジュール、トレーニング中の6カメラ入力から1カメラ入力への移行を監督する特徴再構成損失が含まれる。 本手法は、1台のカメラで厳密に訓練されたバージョン、または6台のカメラサラウンドビューで1台のカメラの推測を行い、幻覚の低減とBEVマップの品質向上を実現した。

Bird's Eye View (BEV) map prediction is essential for downstream autonomous driving tasks like trajectory prediction. In the past, this was accomplished through the use of a sophisticated sensor configuration that captured a surround view from multiple cameras. However, in large-scale production, cost efficiency is an optimization goal, so that using fewer cameras becomes more relevant. But the consequence of fewer input images correlates with a performance drop. This raises the problem of developing a BEV perception model that provides a sufficient performance on a low-cost sensor setup. Although, primarily relevant for inference time on production cars, this cost restriction is less problematic on a test vehicle during training. Therefore, the objective of our approach is to reduce the aforementioned performance drop as much as possible using a modern multi-camera surround view model reduced for single-camera inference. The approach includes three features, a modern masking technique, a cyclic Learning Rate (LR) schedule, and a feature reconstruction loss for supervising the transition from six-camera inputs to one-camera input during training. Our method outperforms versions trained strictly with one camera or strictly with six-camera surround view for single-camera inference resulting in reduced hallucination and better quality of the BEV map.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# 超音波センサとレート符号化による障害物検出のための低コストリアルタイムスパイキングシステム

A Low-Cost Real-Time Spiking System for Obstacle Detection based on Ultrasonic Sensors and Rate Coding ( http://arxiv.org/abs/2409.02680v1 )

ライセンス: Link先を確認
Alvaro Ayuso-Martinez, Daniel Casanueva-Morato, Juan Pedro Dominguez-Morales, Angel Jimenez-Fernandez, Gabriel Jimenez-Moreno, (参考訳) 移動ロボットの登場以来、障害物検出は大きな関心を集めてきた。 また、これは神経科学の研究対象であり、飛行する昆虫とコウモリは、それぞれ障害物検出のための視覚に基づくメカニズムと音に基づくメカニズムにおいて、最も興味深い2つと見なすことができる。 現在、多くの研究は視覚に基づく障害物検出に焦点を当てているが、音に基づく障害物検出については多くは見つからない。 この研究は、スパイキングニューラルネットワークを使用してこれらのアーキテクチャの利点を活用し、生物学に近いアプローチを実現する、後者のアプローチに焦点を当てている。 完全なシステムは、障害物検出のためのスパイキングアーキテクチャの有効性を確認する一連の実験によってテストされた。 実験により,ロボットと障害物の距離が減少すると,期待通りにシステムの出力発火速度が上昇し,その逆も増加することを示した。 したがって、両者の間には直接的な関係がある。 さらに、検出可能な物体と検出できない物体の間には距離閾値があり、この研究でも実験的に測定されている。 スパイク・インターバルの概念に基づく低レベル動作に関する詳細な研究が行われ、スパイクフィルタに基づく将来のアプリケーション開発に有用かもしれない。

Since the advent of mobile robots, obstacle detection has been a topic of great interest. It has also been a subject of study in neuroscience, where flying insects and bats could be considered two of the most interesting cases in terms of vision-based and sound-based mechanisms for obstacle detection, respectively. Currently, many studies focus on vision-based obstacle detection, but not many can be found regarding sound-based obstacle detection. This work focuses on the latter approach, which also makes use of a Spiking Neural Network to exploit the advantages of these architectures and achieve an approach closer to biology. The complete system was tested through a series of experiments that confirm the validity of the spiking architecture for obstacle detection. It is empirically demonstrated that, when the distance between the robot and the obstacle decreases, the output firing rate of the system increases in response as expected, and vice versa. Therefore, there is a direct relation between the two. Furthermore, there is a distance threshold between detectable and undetectable objects which is also empirically measured in this work. An in-depth study on how this system works at low level based on the Inter-Spike Interval concept was performed, which may be useful in the future development of applications based on spiking filters.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# AmazonのアクティブファイアモデリングにおけるLSTMとGRUを用いたニューラルネットワーク

Neural Networks with LSTM and GRU in Modeling Active Fires in the Amazon ( http://arxiv.org/abs/2409.02681v1 )

ライセンス: Link先を確認
Ramon Tavares, (参考訳) 本研究では,ブラジルのアマゾンにあるAqua_M-T衛星によって検出された歴史的火点の時系列をモデル化し,予測するための包括的方法論を提案する。 このアプローチでは、Long Short-Term Memory(LSTM)とGated Recurrent Unit(GRU)アーキテクチャを組み合わせて、毎日検出された火点の月次蓄積を予測する、混合リカレントニューラルネットワーク(RNN)モデルを採用している。 データの要約では、時間とともに一貫した季節性を示し、毎年最大値と最低値が同じ期間に繰り返される傾向にあった。 主な目的は、厳密な統計分析を通じて、予測が本質的な季節を捉えているかどうかを検証することである。 この手法は、2つのシードを用いたクロスバリデーションを用いた慎重なデータ準備、モデル構成、トレーニング、テストおよび検証セットへのデータの一般化を保証すること、モデルパラメータの収束を確認することを含む。 その結果,LSTMとGRUの混合モデルにより,12ヶ月前の予測精度が向上し,複雑な時間パターンの取得と観測時系列のモデル化に有効であることが示唆された。 本研究は, 深層学習技術の環境モニタリングへの応用に大きく貢献する。 提案手法は,予測精度の向上に加えて,他の時系列予測課題への適応の可能性を強調し,機械学習および自然現象予測における研究・開発のための新たな道を開く。 キーワード: 時系列予測、リカレントニューラルネットワーク、ディープラーニング。

This study presents a comprehensive methodology for modeling and forecasting the historical time series of fire spots detected by the AQUA_M-T satellite in the Amazon, Brazil. The approach utilizes a mixed Recurrent Neural Network (RNN) model, combining Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) architectures to predict monthly accumulations of daily detected fire spots. A summary of the data revealed a consistent seasonality over time, with annual maximum and minimum fire spot values tending to repeat at the same periods each year. The primary objective is to verify whether the forecasts capture this inherent seasonality through rigorous statistical analysis. The methodology involved careful data preparation, model configuration, and training using cross-validation with two seeds, ensuring that the data generalizes well to the test and validation sets, and confirming the convergence of the model parameters. The results indicate that the mixed LSTM and GRU model offers improved accuracy in forecasting 12 months ahead, demonstrating its effectiveness in capturing complex temporal patterns and modeling the observed time series. This research significantly contributes to the application of deep learning techniques in environmental monitoring, specifically in fire spot forecasting. In addition to improving forecast accuracy, the proposed approach highlights the potential for adaptation to other time series forecasting challenges, opening new avenues for research and development in machine learning and natural phenomenon prediction. Keywords: Time Series Forecasting, Recurrent Neural Networks, Deep Learning.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# HTG評価の再考:ブリッジ生成と認識

Rethinking HTG Evaluation: Bridging Generation and Recognition ( http://arxiv.org/abs/2409.02683v1 )

ライセンス: Link先を確認
Konstantina Nikolaidou, George Retsinas, Giorgos Sfikas, Marcus Liwicki, (参考訳) 自然画像タスクの生成モデルの評価は, 広く研究されている。 同様のプロトコルやメトリクスは、たとえ完全に適切でないとしても、手書き生成のような特殊なケースで使用される。 本稿では,HTG評価に適した3つの尺度を紹介する。$ \text{HTG}_{\text{HTR}} $, $ \text{HTG}_{\text{style}} $, $ \text{HTG}_{\text{OOV}} $。 このメトリクスは、手書き文字認識と文字識別モデルの認識誤り/精度に依存しており、手書き画像のコンテンツに準拠する主な側面として、書き方、テキストコンテンツ、多様性を強調している。 我々は、IAM手書きデータベース上で包括的な実験を行い、FIDなどの広く使われているメトリクスが、生成した手書きサンプルの多様性と実用性を適切に定量化できないことを示す。 以上の結果から,我々のメトリクスは情報に富み,HTGの標準化された評価プロトコルの必要性を浮き彫りにしている。 提案したメトリクスは、HTGの品質を評価するためのより堅牢で有益なプロトコルを提供し、HTRの性能向上に寄与する。 評価プロトコルのコードは、https://github.com/koninik/HTG_evaluation.comで公開されている。

The evaluation of generative models for natural image tasks has been extensively studied. Similar protocols and metrics are used in cases with unique particularities, such as Handwriting Generation, even if they might not be completely appropriate. In this work, we introduce three measures tailored for HTG evaluation, $ \text{HTG}_{\text{HTR}} $, $ \text{HTG}_{\text{style}} $, and $ \text{HTG}_{\text{OOV}} $, and argue that they are more expedient to evaluate the quality of generated handwritten images. The metrics rely on the recognition error/accuracy of Handwriting Text Recognition and Writer Identification models and emphasize writing style, textual content, and diversity as the main aspects that adhere to the content of handwritten images. We conduct comprehensive experiments on the IAM handwriting database, showcasing that widely used metrics such as FID fail to properly quantify the diversity and the practical utility of generated handwriting samples. Our findings show that our metrics are richer in information and underscore the necessity of standardized evaluation protocols in HTG. The proposed metrics provide a more robust and informative protocol for assessing HTG quality, contributing to improved performance in HTR. Code for the evaluation protocol is available at: https://github.com/koninik/HTG_evaluation.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# 計算的観点からのニューラル・タイムスケール

Neural timescales from a computational perspective ( http://arxiv.org/abs/2409.02684v1 )

ライセンス: Link先を確認
Roxana Zeraati, Anna Levina, Jakob H. Macke, Richard Gao, (参考訳) 神経活動の時間スケールは、脳領域内および脳領域で多様であり、実験的な観察により、神経活動の時間スケールは動的環境における情報を反映していることが示唆されている。 しかしながら、これらの観測は、神経の時間スケールがどのように形成されているか、あるいは神経計算や脳機能に特定の時間スケールが必要とされるかどうかを明らかにしていない。 ここでは、相補的な視点を採り、計算手法が幅広い経験的観察を定量的かつ検証可能な理論に蒸留できる3つの方向を合成する。 (i)データ解析手法によって、異なる記録モード間で異なる時間スケールのニューラルダイナミクスをキャプチャできる方法。 (II)計算モデルが様々な時間スケールの出現の力学的説明を提供する方法、及び 3) 機械学習におけるタスク最適化モデルがどのようにニューラルネットワークの時間スケールの機能的関連を明らかにするか。 この積分的計算アプローチは、経験的な発見と相まって、神経の時間スケールが脳の構造、力学、行動の関係をどのように捉えているかをより包括的に理解する。

Timescales of neural activity are diverse across and within brain areas, and experimental observations suggest that neural timescales reflect information in dynamic environments. However, these observations do not specify how neural timescales are shaped, nor whether particular timescales are necessary for neural computations and brain function. Here, we take a complementary perspective and synthesize three directions where computational methods can distill the broad set of empirical observations into quantitative and testable theories: We review (i) how data analysis methods allow us to capture different timescales of neural dynamics across different recording modalities, (ii) how computational models provide a mechanistic explanation for the emergence of diverse timescales, and (iii) how task-optimized models in machine learning uncover the functional relevance of neural timescales. This integrative computational approach, combined with empirical findings, would provide a more holistic understanding of how neural timescales capture the relationship between brain structure, dynamics, and behavior.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# RouterRetriever: 複数のエキスパート埋め込みモデルによるルーティングのメリットを探る

RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models ( http://arxiv.org/abs/2409.02685v1 )

ライセンス: Link先を確認
Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo, (参考訳) 情報検索手法は、MSMARCOのような大規模で汎用的なデータセットで訓練された単一の埋め込みモデルに依存することが多い。 このアプローチは、適切な全体的なパフォーマンスを持つレトリバーを生成することができるが、ドメイン固有のデータに基づいてトレーニングされたモデルは、それぞれのドメイン内でより良い結果をもたらすことが多い。 情報検索における先行研究はマルチタスクトレーニングを通じてこの問題に対処してきたが、言語モデル生成に人気があるにもかかわらず、複数のドメイン固有のエキスパートレトリバーを組み合わせるという話題は未解決のままである。 本研究では、複数のドメイン固有のエキスパートとルーティング機構を活用して、クエリ毎に最適なエキスパートを選択する検索モデルであるRouterRetrieverを紹介する。 軽量で、追加のトレーニングなしでエキスパートの追加や削除が簡単にできる。 BEIRベンチマークの評価では、RuterRetrieverはMSMARCO訓練(+2.1絶対nDCG@10)とマルチタスク訓練(+3.2)モデルの両方を上回っている。 これは、言語モデリングで一般的に使用される他のルーティング技術(平均1.8以上)を超えているルーティングメカニズムを利用することで実現される。 さらに、このメリットは、データセットに特定の専門家がいない場合でも、他のデータセットによく当てはまる。 我々の知る限り、ReuterRetrieverは、単一の汎用的な埋め込みモデルを検索タスクに効果的にルーティングする複数のドメイン固有の専門的埋め込みモデルを使用することの利点を示す最初の研究である。

Information retrieval methods often rely on a single embedding model trained on large, general-domain datasets like MSMARCO. While this approach can produce a retriever with reasonable overall performance, models trained on domain-specific data often yield better results within their respective domains. While prior work in information retrieval has tackled this through multi-task training, the topic of combining multiple domain-specific expert retrievers remains unexplored, despite its popularity in language model generation. In this work, we introduce RouterRetriever, a retrieval model that leverages multiple domain-specific experts along with a routing mechanism to select the most appropriate expert for each query. It is lightweight and allows easy addition or removal of experts without additional training. Evaluation on the BEIR benchmark demonstrates that RouterRetriever outperforms both MSMARCO-trained (+2.1 absolute nDCG@10) and multi-task trained (+3.2) models. This is achieved by employing our routing mechanism, which surpasses other routing techniques (+1.8 on average) commonly used in language modeling. Furthermore, the benefit generalizes well to other datasets, even in the absence of a specific expert on the dataset. To our knowledge, RouterRetriever is the first work to demonstrate the advantages of using multiple domain-specific expert embedding models with effective routing over a single, general-purpose embedding model in retrieval tasks.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# LLMの問題解決に有効な因果性を考慮した高精度微調整法

Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs ( http://arxiv.org/abs/2409.02686v1 )

ライセンス: Link先を確認
Ruoyu Wang, Xiaoxuan Li, Lina Yao, (参考訳) 大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む上で、顕著な効率性を示しているが、最近の研究では、数学や物理学の質問など、推論に関わる問題に対して、これらのモデルが満足のいく結果を得ることができないことがしばしば示されている。 この現象は、通常、これらのモデルが本文に埋め込まれた知識を真に理解できるかどうか、あるいは、コンテンツに関する真の理解なしに、単にトークンの分布を複製することを学ぶことができるかどうか、不確実性に起因する。 本稿では,この問題を掘り下げ,LLMの推論能力を高めることを目的とする。 まず,テキスト生成過程を注意・表現レベルで可視化することで,本モデルに真の推論能力があるかどうかを検討する。 次に, LLMの推論過程を因果的枠組みに定式化し, 可視化における問題点を公式に説明する。 最後に、この因果的枠組みに基づいて、モデルが一般的な問題解決スキルを抽出し、これらのスキルを異なる質問に適用するように促すことにより、モデルの推論能力を高めるために、新しいパラメータ効率の良い微調整(PEFT)手法であるDecon founded Causal Adaptation (DCA)を提案する。 実験の結果,本手法は複数のベンチマークで一貫した性能を示し,1.2万のチューナブルパラメータで他の微調整法と同等以上の結果が得られることがわかった。 これにより,LLMの全体的な精度と信頼性を向上させる上で,本手法の有効性と効率性を示す。

Large Language Models (LLMs) have demonstrated remarkable efficiency in tackling various tasks based on human instructions, but recent studies reveal that these models often fail to achieve satisfactory results on questions involving reasoning, such as mathematics or physics questions. This phenomenon is usually attributed to the uncertainty regarding whether these models could genuinely comprehend the knowledge embedded in the text or merely learn to replicate the token distribution without a true understanding of the content. In this paper, we delve into this problem and aim to enhance the reasoning capabilities of LLMs. First, we investigate if the model has genuine reasoning capabilities by visualizing the text generation process at the attention and representation level. Then, we formulate the reasoning process of LLMs into a causal framework, which provides a formal explanation of the problems we observe in the visualization. Finally, building upon this causal framework, we propose Deconfounded Causal Adaptation (DCA), a novel parameter-efficient fine-tuning (PEFT) method to enhance the model's reasoning capabilities by encouraging the model to extract the general problem-solving skills and apply these skills to different questions. Experiments show that our method outperforms the baseline consistently across multiple benchmarks, and with only 1.2M tunable parameters, we achieve better or comparable results to other fine-tuning methods. This demonstrates the effectiveness and efficiency of our method in improving the overall accuracy and reliability of LLMs.
翻訳日:2024-09-05 18:26:46 公開日:2024-09-04
# マルチモーダルコンテンツにおける通話の検知:2021年ドイツ連邦選挙運動の分析

Detecting Calls to Action in Multimodal Content: Analysis of the 2021 German Federal Election Campaign on Instagram ( http://arxiv.org/abs/2409.02690v1 )

ライセンス: Link先を確認
Michael Achmann-Denkler, Jakob Fehle, Mario Haim, Christian Wolff, (参考訳) 本研究では、2021年のインスタグラム選挙キャンペーンにおいて、ソーシャルメディアの文脈におけるモビライゼーションの理解を促進するために、コール・トゥ・アクション(CTA)の自動分類について検討した。 我々は、細調整されたBERTモデルとOpenAIのGPT-4モデルを用いて、2,208件のInstagramストーリーと712件の投稿を分析した。 合成トレーニングデータを組み込んだ細調整BERTモデルはマクロF1スコア0.93を達成し、堅牢な分類性能を示した。 分析の結果、Instagramの投稿の49.58%と記事の10.64%がCTAを含んでおり、これらのコンテンツタイプ間でのモビライゼーション戦略に大きな違いがあることが明らかになった。 さらに,FDPとグリーンズはCTAの頻度が最も高かったのに対し,CDUとCSUはCTAの頻度が高かった。

This study investigates the automated classification of Calls to Action (CTAs) within the 2021 German Instagram election campaign to advance the understanding of mobilization in social media contexts. We analyzed over 2,208 Instagram stories and 712 posts using fine-tuned BERT models and OpenAI's GPT-4 models. The fine-tuned BERT model incorporating synthetic training data achieved a macro F1 score of 0.93, demonstrating a robust classification performance. Our analysis revealed that 49.58% of Instagram posts and 10.64% of stories contained CTAs, highlighting significant differences in mobilization strategies between these content types. Additionally, we found that FDP and the Greens had the highest prevalence of CTAs in posts, whereas CDU and CSU led in story CTAs.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# LLM支援ビジュアルアナリティクス:機会と課題

LLM-Assisted Visual Analytics: Opportunities and Challenges ( http://arxiv.org/abs/2409.02691v1 )

ライセンス: Link先を確認
Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Pranava Madhyastha, (参考訳) 本研究では,大規模言語モデル (LLM) を視覚分析システム (VA) に統合して,直感的な自然言語インタラクションを通じてその能力を変換する方法について検討する。 本研究では,LLMがデータ管理,言語インタラクション,可視化生成,および言語生成プロセスにどのように統合されているかを調査し,この新興分野における現在の研究方向について調査する。 LLMがVAにもたらす新たな可能性、特に通常のユースケースを超えてVAプロセスを変更する方法について強調する。 特に、ドメイン知識、マルチモーダルインタラクション、ガイダンスによる機会へのアクセスが可能な、新しい可視化言語モデルの構築に重点を置いています。 最後に、VAタスクで現在のLLMを使用する際の顕著な課題について慎重に検討する。 本稿では,LLM支援VAシステムに関する今後の研究者の指導と,これらのシステム開発における共通障害のナビゲートを支援することを目的とする。

We explore the integration of large language models (LLMs) into visual analytics (VA) systems to transform their capabilities through intuitive natural language interactions. We survey current research directions in this emerging field, examining how LLMs are integrated into data management, language interaction, visualisation generation, and language generation processes. We highlight the new possibilities that LLMs bring to VA, especially how they can change VA processes beyond the usual use cases. We especially highlight building new visualisation-language models, allowing access of a breadth of domain knowledge, multimodal interaction, and opportunities with guidance. Finally, we carefully consider the prominent challenges of using current LLMs in VA tasks. Our discussions in this paper aim to guide future researchers working on LLM-assisted VA systems and help them navigate common obstacles when developing these systems.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# ソフトウェアテストにおける人工知能と機械学習の役割

The Role of Artificial Intelligence and Machine Learning in Software Testing ( http://arxiv.org/abs/2409.02693v1 )

ライセンス: Link先を確認
Ahmed Ramadan, Husam Yasin, Burhan Pektas, (参考訳) 人工知能(AI)と機械学習(ML)は、ソフトウェア開発を含む様々な産業に大きな影響を与えている。 ソフトウェア開発ライフサイクル(SDLC)の重要な部分であるソフトウェアテストは、ソフトウェア製品の品質と信頼性を保証する。 伝統的に、ソフトウェアテストは労働集約的なプロセスであり、かなりの手作業を必要とする。 しかし、AIとMLの出現は、自動化とインテリジェントな意思決定機能を導入することで、この状況を変えました。 AIとML技術は、テストケース生成、テスト実行、結果分析といった複雑なタスクを自動化することで、ソフトウェアテストの効率性と効果を高める。 これらの技術は、テストに必要な時間を短縮し、欠陥検出の精度を改善し、最終的には高品質なソフトウェアに繋がる。 AIは、過去のデータを分析し、パターンを特定することによって、潜在的な障害領域を予測することができる。 本稿では、既存の文献をレビューし、現在のツールや技術を分析し、これらの技術の実用的メリットを実証するケーススタディを提示し、ソフトウェアテストにおけるAIとMLの役割について考察する。 文献レビューでは、ソフトウェアテストにおけるAIとMLアプリケーションの進歩の概要を概観し、さまざまな研究から重要な方法論と発見を取り上げている。 現在のツールの分析は、Eggplant AI、Test.ai、Selenium、Appvance、Applitools Eyes、Katalon Studio、Tricentis Toscaといった一般的なAI駆動テストツールの機能を示している。 この論文に含まれるケーススタディは、ソフトウェアテストにおけるAIとMLの現実的な応用を例示し、テスト効率、精度、ソフトウェア全体の品質を大幅に改善したことを示す。

Artificial Intelligence (AI) and Machine Learning (ML) have significantly impacted various industries, including software development. Software testing, a crucial part of the software development lifecycle (SDLC), ensures the quality and reliability of software products. Traditionally, software testing has been a labor-intensive process requiring significant manual effort. However, the advent of AI and ML has transformed this landscape by introducing automation and intelligent decision-making capabilities. AI and ML technologies enhance the efficiency and effectiveness of software testing by automating complex tasks such as test case generation, test execution, and result analysis. These technologies reduce the time required for testing and improve the accuracy of defect detection, ultimately leading to higher quality software. AI can predict potential areas of failure by analyzing historical data and identifying patterns, which allows for more targeted and efficient testing. This paper explores the role of AI and ML in software testing by reviewing existing literature, analyzing current tools and techniques, and presenting case studies that demonstrate the practical benefits of these technologies. The literature review provides a comprehensive overview of the advancements in AI and ML applications in software testing, highlighting key methodologies and findings from various studies. The analysis of current tools showcases the capabilities of popular AI-driven testing tools such as Eggplant AI, Test.ai, Selenium, Appvance, Applitools Eyes, Katalon Studio, and Tricentis Tosca, each offering unique features and advantages. Case studies included in this paper illustrate real-world applications of AI and ML in software testing, showing significant improvements in testing efficiency, accuracy, and overall software quality.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# ジョブショップスケジューリング問題におけるニューラルローカル検索の高速化のための決定変換器

Decision Transformer for Enhancing Neural Local Search on the Job Shop Scheduling Problem ( http://arxiv.org/abs/2409.02697v1 )

ライセンス: Link先を確認
Constantin Waubert de Puiseau, Fabian Wolz, Merlin Montag, Jannik Peters, Hasan Tercan, Tobias Meisen, (参考訳) ジョブショップスケジューリング問題(JSSP)とその解法アルゴリズムは、何十年にもわたってアカデミックと産業の両方に永続的な関心を集めてきた。 近年、機械学習(ML)はJSSPの既存ソリューションと新しいヒューリスティックソリューションの構築において、より短い計算時間でより良いソリューションを見つけることを目的として、ますます重要な役割を担っている。 本稿では,最新の深部強化学習(DRL)エージェントであるNeural Local Search(NLS)上に構築し,JSSP上の大規模局所探索を効率的に効果的に制御する。 特に、訓練されたNLSエージェントが取得した探索軌跡に基づいて、決定変換器(DT)アルゴリズムを訓練し、学習された意思決定シーケンスをさらに改善する手法を開発した。 実験の結果,DT は NLS エージェントと異なる局所探索戦略を学習し,多くの場合,NLS エージェント自体よりも効果的であることがわかった。 解の質と検索に必要な計算時間とのトレードオフに関して、DTはより長い計算時間が許容されるアプリケーションシナリオにおいて特に優れている。 この場合、より大規模なニューラルネットワークアーキテクチャによって引き起こされる検索ステップ毎の推論時間の長さを、ステップ毎のより良い品質決定によって補うことができる。 これにより、DTは、ML強化探索を用いてJSSPを解くための最先端の結果を得る。

The job shop scheduling problem (JSSP) and its solution algorithms have been of enduring interest in both academia and industry for decades. In recent years, machine learning (ML) is playing an increasingly important role in advancing existing and building new heuristic solutions for the JSSP, aiming to find better solutions in shorter computation times. In this paper we build on top of a state-of-the-art deep reinforcement learning (DRL) agent, called Neural Local Search (NLS), which can efficiently and effectively control a large local neighborhood search on the JSSP. In particular, we develop a method for training the decision transformer (DT) algorithm on search trajectories taken by a trained NLS agent to further improve upon the learned decision-making sequences. Our experiments show that the DT successfully learns local search strategies that are different and, in many cases, more effective than those of the NLS agent itself. In terms of the tradeoff between solution quality and acceptable computational time needed for the search, the DT is particularly superior in application scenarios where longer computational times are acceptable. In this case, it makes up for the longer inference times required per search step, which are caused by the larger neural network architecture, through better quality decisions per step. Thereby, the DT achieves state-of-the-art results for solving the JSSP with ML-enhanced search.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# CLDA: 強化された教師なしドメイン適応のための協調学習

CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation ( http://arxiv.org/abs/2409.02699v1 )

ライセンス: Link先を確認
Minhee Cho, Hyesong Choi, Hayeon Jo, Dongbo Min, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインでトレーニングされたモデルとラベルなしのターゲットドメインへのデプロイの間のギャップを埋める試みである。 しかし、現在の高性能モデルはかなりのリソースを必要としており、結果として配置コストが禁じられ、小さなが効果的なモデルの必要性が強調される。 軽量モデルのUDAでは、教師-学生フレームワークにおける知識蒸留(KD)が一般的であるが、UDAのドメインシフトは教師モデルにおける非塩分パラメータの顕著な増加、モデルの一般化能力の低下、学生モデルへの誤解を招く情報伝達につながる。 興味深いことに,学生モデルでは,この現象がかなり少ないことが観察された。 この知見に基づいて,学生モデルを用いて教師の非塩分パラメータを更新すると同時に,教師モデルを用いて生徒のパフォーマンスを向上させる手法である協調学習を紹介した。 さまざまなタスクやデータセットに対する実験は、学生モデルと教師モデルの両方で一貫したパフォーマンス改善を示している。 例えば、セマンティックセグメンテーションにおいて、CLDAは教師の+0.7% mIoU、生徒の+1.4% mIoUをGTAのベースラインモデルからCityscapesに改善する。 Synthia to Cityscapesでは、教師が+0.8% mIoU、生徒が+2.0% mIoUの向上を実現している。

Unsupervised Domain Adaptation (UDA) endeavors to bridge the gap between a model trained on a labeled source domain and its deployment in an unlabeled target domain. However, current high-performance models demand significant resources, resulting in prohibitive deployment costs and highlighting the need for small yet effective models. For UDA of lightweight models, Knowledge Distillation (KD) in a Teacher-Student framework can be a common approach, but we find that domain shift in UDA leads to a significant increase in non-salient parameters in the teacher model, degrading model's generalization ability and transferring misleading information to the student model. Interestingly, we observed that this phenomenon occurs considerably less in the student model. Driven by this insight, we introduce Collaborative Learning, a method that updates the teacher's non-salient parameters using the student model and at the same time enhance the student's performance using the updated teacher model. Experiments across various tasks and datasets show consistent performance improvements for both student and teacher models. For example, in semantic segmentation, CLDA achieves an improvement of +0.7% mIoU for teacher and +1.4% mIoU for student compared to the baseline model in the GTA to Cityscapes. In the Synthia to Cityscapes, it achieves an improvement of +0.8% mIoU for teacher and +2.0% mIoU for student.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# ゲージ不変ディックモデルの基底状態:非古典状態における光子の凝縮

Ground state of the gauge invariant Dicke model: condensation of the photons in non-classical states ( http://arxiv.org/abs/2409.02701v1 )

ライセンス: Link先を確認
N. Q. San, O. D. Skoromnik, A. P. Ulyanenkov, A. U. Leonau, I. D. Feranchuk, (参考訳) ディックモデルの物理的に動機付けられた2つの修正の基底状態について検討する。 第1の修正は、例えばスピン1/2の粒子や人工的に生成されたキュービットのような、相空間が2つの状態しか持たない粒子に対応する。 第2の修正では、原子のヒルベルト空間全体を電磁場と共鳴する2つのレベルに切り離し、ゲージ不変のディックモデルによって記述された2段階のシステムを記述する。 どちらの場合においても,これらのシステムの挙動は質的に異なることが示される。 特に第1のシナリオでは、古典場の非ゼロ振幅の状態への位相遷移が可能であり、第2のケースでは、場の位相遷移のいわゆる順序パラメータ $\eta = \braket{\hat{a}}$ が光子凝縮を伴うコヒーレント状態への遷移はゼロである。 同時に、平均光子の数は $\bar{n} = \braket{\hat{a}^\dagger \hat{a}} \neq 0$ となり、系内の集合励起は場の非古典的な「スクイーズ」状態を示す。 両システムの観測可能な特性をパラメータの幅広いバリエーションで解析する。

We investigate the ground state of two physically motivated modifications of the Dicke model. The first modification corresponds to particles whose phase space contains only two states, for example, particles with spin 1/2 or artificially created qubits. The second modification describes two-level systems that arise as a result of truncating the full Hilbert space of atoms to two levels that are in resonance with the electromagnetic field and are described by the gauge-invariant Dicke model. We demonstrate that the behavior of these systems is qualitatively distinct in both cases. In particular, in the first scenario, a phase transition into the state with a non-zero amplitude of the classical field is possible, while in the second case, the so-called order parameter $\eta = \braket{\hat{a}}$ of the field's phase transition into a coherent state with photon condensation is zero. At the same time, the average number of photons $\bar{n} = \braket{\hat{a}^\dagger \hat{a}} \neq 0$, and the collective excitation in the system manifests a non-classical "squeezed" state of the field. We analyze the observable characteristics of both systems in a wide range of variation of their parameters.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# セッションベースのソーシャルレコメンデーションにおける親しいデータスパリティーを克服するために、同種のピアを組み込むこと

Incorporating Like-Minded Peers to Overcome Friend Data Sparsity in Session-Based Social Recommendations ( http://arxiv.org/abs/2409.02702v1 )

ライセンス: Link先を確認
Chunyan An, Yunhan Li, Qiang Yang, Winston K. G. Seah, Zhixu Li, Conghao Yanga, (参考訳) セッションベースのソーシャルレコメンデーション(SSR)は、セッションベースのレコメンデーション(SR)の性能を高めるために、オンラインネットワーク内の社会的関係を活用する。 しかし、既存のSSRアルゴリズムは 'friend data sparsity'' という課題に遭遇することが多い。 さらに、ソーシャルネットワーク利用者の購入好みとターゲット利用者の購入嗜好との間には大きな相違が生じ、ターゲット利用者の好みに対する友人の影響が減少する。 これらの課題に対処するため,本論文では,対象ユーザの現在セッションと好みが一致しているユーザを,その履歴セッションに基づいて表現する「Like-wise Peers'(LMP)」という概念を紹介した。 これは、私たちの知る限り、SSRにおける社会的影響のモデリングを強化するためにLMPを使用する最初の作品である。 このアプローチは、友人データのスパシティの問題を軽減するだけでなく、ターゲットのユーザと同じような好みのユーザを効果的に組み込む。 本稿では,TEGAARec(Graph Attention Aggregator Recommendation)を用いたTransformer Encoderという新しいモデルを提案する。 TEGAAモジュールは、ターゲットユーザとLMPユーザに対する長期的な利益と短期利益の両方をキャプチャしてマージする。 同時に、GATベースのソーシャルアグリゲーションモジュールは、ターゲットユーザの動的興味と社会的影響を重み付けで集約するように設計されている。 実世界の4つのデータセットに対する大規模な実験により,提案モデルの有効性と優位性を実証し,TEGAARecの各コンポーネントの寄与を説明するためにアブレーション研究を行った。

Session-based Social Recommendation (SSR) leverages social relationships within online networks to enhance the performance of Session-based Recommendation (SR). However, existing SSR algorithms often encounter the challenge of ``friend data sparsity''. Moreover, significant discrepancies can exist between the purchase preferences of social network friends and those of the target user, reducing the influence of friends relative to the target user's own preferences. To address these challenges, this paper introduces the concept of ``Like-minded Peers'' (LMP), representing users whose preferences align with the target user's current session based on their historical sessions. This is the first work, to our knowledge, that uses LMP to enhance the modeling of social influence in SSR. This approach not only alleviates the problem of friend data sparsity but also effectively incorporates users with similar preferences to the target user. We propose a novel model named Transformer Encoder with Graph Attention Aggregator Recommendation (TEGAARec), which includes the TEGAA module and the GAT-based social aggregation module. The TEGAA module captures and merges both long-term and short-term interests for target users and LMP users. Concurrently, the GAT-based social aggregation module is designed to aggregate the target users' dynamic interests and social influence in a weighted manner. Extensive experiments on four real-world datasets demonstrate the efficacy and superiority of our proposed model and ablation studies are done to illustrate the contributions of each component in TEGAARec.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# 量子ウォークによるハブ間の探索と状態伝達

Search and state transfer between hubs by quantum walks ( http://arxiv.org/abs/2409.02707v1 )

ライセンス: Link先を確認
Stanislav Skoupy, Martin Stefanak, (参考訳) 任意の連結グラフ上でのハブ間(すなわち完全連結頂点)の探索と状態伝達について検討する。 Razzoli et al (J。 Phys A: 数学。 Theor 55,265303 (2022) の連続時間量子ウォークと空間探索におけるハブの普遍性について検討した。 連続時間量子ウォークは、送信機と受信機の数が近い場合、複数のハブ間の完全な状態伝達を可能にする。 離散時間の場合、各頂点の次数を考慮した初期状態が局所的に修正されることで、ハブの探索が成功することを示す。 離散時間量子ウォークを用いた状態伝達について、単一送信機と単一受信機の間では、同じ実行時間で2つの直交状態を転送できることが示されている。 したがって、2つのハブ間でキュービットの任意の量子状態を転送することができる。 さらに、送信側と受信側が互いの位置を知っていれば、別の線形独立状態の転送が可能となり、クォート状態の交換が可能となる。 最後に、複数の送信機と受信機間の転送事例について考察する。 この場合、特定の量子状態は転送できない。 それでも、量子ウォーカーは2つの状態において高い確率で転送できる - 連続時間量子ウォークと同じ送信機と受信機が存在する場合、または受信機数が送信機数よりもかなり大きい場合。 本研究は,各進化の不変部分空間を用いた次元還元と,ループ重みの適切な選択のためにループ付き完全グラフに還元できるという事実に基づく。

Search and state transfer between hubs, i.e. fully connected vertices, on otherwise arbitrary connected graph is investigated. Motivated by a recent result of Razzoli et al. (J. Phys. A: Math. Theor. 55, 265303 (2022)) on universality of hubs in continuous-time quantum walks and spatial search, we extend the investigation to state transfer and also to the discrete-time case. We show that the continuous-time quantum walk allows for perfect state transfer between multiple hubs if the numbers of senders and receivers are close. Turning to the discrete-time case, we show that the search for hubs is successful provided that the initial state is locally modified to account for a degree of each individual vertex. Concerning state transfer using discrete-time quantum walk, it is shown that between a single sender and a single receiver one can transfer two orthogonal states in the same run-time. Hence, it is possible to transfer an arbitrary quantum state of a qubit between two hubs. In addition, if the sender and the receiver know each other location, another linearly independent state can be transferred, allowing for exchange of a qutrit state. Finally, we consider the case of transfer between multiple senders and receivers. In this case we cannot transfer specific quantum states. Nevertheless, quantum walker can be transferred with high probability in two regimes - either when there is a similar number of senders and receivers, which is the same as for the continuous-time quantum walk, or when the number of receivers is considerably larger than the number of senders. Our investigation is based on dimensional reduction utilizing the invariant subspaces of the respective evolutions and the fact that for the appropriate choice of the loop weights the problem can be reduced to the complete graph with loops.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# メタ部分空間探索を用いた線形不変特徴量のマルチタスク学習

Few-shot Multi-Task Learning of Linear Invariant Features with Meta Subspace Pursuit ( http://arxiv.org/abs/2409.02708v1 )

ライセンス: Link先を確認
Chaozhi Zhang, Lin Liu, Xiaoqun Zhang, (参考訳) データ不足は現代の機械学習と人工知能に深刻な脅威をもたらす。 不十分なデータの問題を軽減するための効果的な戦略の1つは、まず研究設計段階で一定の類似性を持つ他のデータソースからの情報を活用し、分析段階ではマルチタスクまたはメタ学習フレームワークを使用することである。 本稿では,タスク間の係数が不変な低ランク成分を共有するマルチタスク(あるいはマルチソース)線形モデルに焦点をあてる。 そこで我々は,メタサブスペース探索法(Meta-SPと略す)と呼ばれる新しいアルゴリズムを提案し,異なるタスクで共有されるこの不変部分空間を確実に学習する。 マルチタスクやメタ学習のためのスタイリングされたセットアップでは,提案手法のアルゴリズム的保証と統計的保証の両方を確立する。 一般市販のモデル非依存メタ学習アルゴリズムであるANILなど,Meta-SPと競合するいくつかの手法を比較して,大規模な数値実験を行った。 これらの実験により,Meta-SPは様々な面で競合する手法よりも優れた性能を発揮することが示された。

Data scarcity poses a serious threat to modern machine learning and artificial intelligence, as their practical success typically relies on the availability of big datasets. One effective strategy to mitigate the issue of insufficient data is to first harness information from other data sources possessing certain similarities in the study design stage, and then employ the multi-task or meta learning framework in the analysis stage. In this paper, we focus on multi-task (or multi-source) linear models whose coefficients across tasks share an invariant low-rank component, a popular structural assumption considered in the recent multi-task or meta learning literature. Under this assumption, we propose a new algorithm, called Meta Subspace Pursuit (abbreviated as Meta-SP), that provably learns this invariant subspace shared by different tasks. Under this stylized setup for multi-task or meta learning, we establish both the algorithmic and statistical guarantees of the proposed method. Extensive numerical experiments are conducted, comparing Meta-SP against several competing methods, including popular, off-the-shelf model-agnostic meta learning algorithms such as ANIL. These experiments demonstrate that Meta-SP achieves superior performance over the competing methods in various aspects.
翻訳日:2024-09-05 18:06:50 公開日:2024-09-04
# ファンデルワールス反強磁性体におけるトポロジカル3Q状態の電気的制御

Electrical control of topological 3Q state in an intercalated van der Waals antiferromagnet ( http://arxiv.org/abs/2409.02710v1 )

ライセンス: Link先を確認
Junghyun Kim, Kaixuan Zhang, Pyeongjae Park, Woonghee Cho, Hyuncheol Kim, Je-Geun Park, (参考訳) Van der Waals(vdW)磁石は、様々な興味深い位相をカバーする新しい機会の道を開いた。 Co1/3TaS2-アンインターカレート金属vdW反強磁性体-は、トポロジカル特性を有する独自の三重Q(3Q)基底状態のため、成長する材料のリストに最新の重要な付加物の一つである。 慎重なバルク特性は、CoxTaS2の基底状態が1/3未満の3Q四面体構造であることを示している。 この基底状態の特異性は、スカラースピンのキラリティによる密度の高い実空間ベリー曲率から生じ、顕著な異常ホール効果を引き起こす。 本研究では,この位相位相をゲーティングにより制御できることを実証する。 また,Co組成の異なる3種類のCoxTaS2デバイスを用いて,イオンゲーティングにより3Qトポロジカル位相全体をカバーできることが確認された。 この研究は、層状反強磁性金属の電気ゲーティング制御の稀な実証を報告している。 さらに重要なことに、我々の研究は反強磁性金属を用いたスカラースピンキラリティの電気的制御の最初の例の一つである。

Van der Waals (vdW) magnets have opened a new avenue of novel opportunities covering various interesting phases. Co1/3TaS2-an intercalated metallic vdW antiferromagnet-is one of the latest important additions to the growing list of materials due to its unique triple-Q (3Q) ground state possessing topological characteristics. Careful bulk characterisations have shown the ground state of CoxTaS2 to be a rare 3Q tetrahedral structure for x less than 1/3. The uniqueness of this ground state arises from the dense real-space Berry curvature due to scalar spin chirality, giving rise to a noticeable anomalous Hall effect. In this work, we demonstrate that we can control this topological phase via gating. Using three kinds of CoxTaS2 devices with different Co compositions, we have established that we can cover the whole 3Q topological phase with ionic gating. This work reports a rare demonstration of electrical gating control of layered antiferromagnetic metal. More importantly, our work constitutes one of the first examples of the electrical control of the scalar spin chirality using antiferromagnetic metal.
翻訳日:2024-09-05 18:06:49 公開日:2024-09-04
# PostNLのためのGen-AIベースのトラックとトレースアシスタントMVP(SuperTracy)の作成

Creating a Gen-AI based Track and Trace Assistant MVP (SuperTracy) for PostNL ( http://arxiv.org/abs/2409.02711v1 )

ライセンス: Link先を確認
Mohammad Reshadati, (参考訳) 生成AIの分野での開発は、例えばカスタマーサービスの効率化やタスクの自動化など、企業にとって多くの機会をもたらしている。 オランダ最大のパーセルおよびEコマース企業であるPostNLは、生成AIを使用して、パーセルの追跡と追跡に関するコミュニケーションを強化しようとしている。 インターンシップ中にMVP(Minimum Viable Product)が作成され、生成AI技術を使用することの価値を示し、パーセル追跡を強化し、パーセルの旅路を分析し、簡単に理解できる方法でそれについてコミュニケーションすることができる。 主な目標は、社内でLLMベースのシステムを開発し、外部プラットフォームへの依存を減らし、社内に専用の生成AIチームを実現することであった。 このマルチエージェントLCMベースのシステムは、パーセル旅行のストーリーを構築し、効率と正確性を高めた論理的破壊を識別することを目的としている。 この研究は、洗練されたAI駆動の通信システムの構築、応答精度の向上にRetrieval-Augmented Generation(RAG)を使用し、ドメイン固有のタスクに適した大規模言語モデル(LLM)を最適化することを含む。 MVPはSuperTracyと呼ばれるマルチエージェントのオープンソースLLMシステムの実装に成功した。 SuperTracyは、幅広いユーザーの問い合わせを自律的に管理し、内部知識処理を改善することができる。 結果と評価は技術革新と実現可能性を示し、特に最初の期待を超越したパーセルの軌跡と痕跡に関するコミュニケーションにおいて顕著であった。 これらの進歩は、ロジスティクスにおけるAI駆動ソリューションの可能性を強調し、PostNL運用フレームワークのさらなる洗練と広範な実装の機会を示唆している。

The developments in the field of generative AI has brought a lot of opportunities for companies, for instance to improve efficiency in customer service and automating tasks. PostNL, the biggest parcel and E-commerce corporation of the Netherlands wants to use generative AI to enhance the communication around track and trace of parcels. During the internship a Minimal Viable Product (MVP) is created to showcase the value of using generative AI technologies, to enhance parcel tracking, analyzing the parcel's journey and being able to communicate about it in an easy to understand manner. The primary goal was to develop an in-house LLM-based system, reducing dependency on external platforms and establishing the feasibility of a dedicated generative AI team within the company. This multi-agent LLM based system aimed to construct parcel journey stories and identify logistical disruptions with heightened efficiency and accuracy. The research involved deploying a sophisticated AI-driven communication system, employing Retrieval-Augmented Generation (RAG) for enhanced response precision, and optimizing large language models (LLMs) tailored to domain specific tasks. The MVP successfully implemented a multi-agent open-source LLM system, called SuperTracy. SuperTracy is capable of autonomously managing a broad spectrum of user inquiries and improving internal knowledge handling. Results and evaluation demonstrated technological innovation and feasibility, notably in communication about the track and trace of a parcel, which exceeded initial expectations. These advancements highlight the potential of AI-driven solutions in logistics, suggesting many opportunities for further refinement and broader implementation within PostNL operational framework.
翻訳日:2024-09-05 18:06:49 公開日:2024-09-04
# 言語間文表現を用いた低資源機械翻訳のためのデータ選択手法

A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations ( http://arxiv.org/abs/2409.02712v1 )

ライセンス: Link先を確認
Nidhi Kowtal, Tejas Deshpande, Raviraj Joshi, (参考訳) 低リソース言語対における機械翻訳は、並列コーパスと言語資源の不足により、重大な課題に直面している。 本研究は、既存のデータセットが特にうるさく、機械翻訳モデルの性能を損なう英語-マラティー語対の場合に焦点を当てる。 データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。 本手法は多言語SBERTモデルを用いて,学習データ中の問題翻訳をフィルタリングする。 具体的には、IndicSBERT類似性モデルを用いて、原文と翻訳文間の意味的等価性を評価し、言語学的に正しい翻訳を保ちながら、かなりのずれのあるインスタンスを破棄することができる。 その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。 このことは、言語間の文表現が限られたリソースを持つ機械翻訳シナリオのエラーを減らす方法を示している。 本研究は,多言語文BERTモデルを翻訳パイプラインに統合することにより,低リソース環境における機械翻訳技術の進歩に寄与する。 提案手法は、英語とマラティア語の組み合わせの課題に対処するだけでなく、他の低リソース言語翻訳タスクの翻訳品質を高めるための貴重なフレームワークを提供する。

Machine translation in low-resource language pairs faces significant challenges due to the scarcity of parallel corpora and linguistic resources. This study focuses on the case of English-Marathi language pairs, where existing datasets are notably noisy, impeding the performance of machine translation models. To mitigate the impact of data quality issues, we propose a data filtering approach based on cross-lingual sentence representations. Our methodology leverages a multilingual SBERT model to filter out problematic translations in the training data. Specifically, we employ an IndicSBERT similarity model to assess the semantic equivalence between original and translated sentences, allowing us to retain linguistically correct translations while discarding instances with substantial deviations. The results demonstrate a significant improvement in translation quality over the baseline post-filtering with IndicSBERT. This illustrates how cross-lingual sentence representations can reduce errors in machine translation scenarios with limited resources. By integrating multilingual sentence BERT models into the translation pipeline, this research contributes to advancing machine translation techniques in low-resource environments. The proposed method not only addresses the challenges in English-Marathi language pairs but also provides a valuable framework for enhancing translation quality in other low-resource language translation tasks.
翻訳日:2024-09-05 18:06:49 公開日:2024-09-04
# 大規模言語モデルを用いたアライメント・アウェアモデル抽出攻撃

Alignment-Aware Model Extraction Attacks on Large Language Models ( http://arxiv.org/abs/2409.02718v1 )

ライセンス: Link先を確認
Zi Liang, Qingqing Ye, Yanyun Wang, Sen Zhang, Yaxin Xiao, Ronghua Li, Jianliang Xu, Haibo Hu, (参考訳) 近年,大規模言語モデル(LLM)におけるモデル抽出攻撃(MEA)が研究の注目を集めている。 LLMの既存の攻撃方法は、深層ニューラルネットワーク(DNN)用に設計されたものからの抽出戦略を継承するが、MEAとLLMのアライメント間のトレーニングタスクの不整合は無視する。 そのため、攻撃性能は劣る。 そこで本研究では, LLMを対象とした新しいモデル抽出攻撃アルゴリズムであるLocality Reinforced Distillation (LoRD)を提案する。 特に、被害者モデルの反応を信号として利用し、局所モデルへの嗜好の創造を誘導する政策段階的な訓練タスクを設計する。 理論的分析は i)MEAにおけるLORDの収束手順は、LCMのアライメントと整合性があり、 二 探索に基づく盗難による透かし保護を緩和しつつ、問合せの複雑さを軽減することができる。 ドメイン固有抽出に関する広範囲な実験は、様々な最先端の商用LCMの抽出を検証し、本手法の優位性を実証している。

Model extraction attacks (MEAs) on large language models (LLMs) have received increasing research attention lately. Existing attack methods on LLMs inherit the extraction strategies from those designed for deep neural networks (DNNs) yet neglect the inconsistency of training tasks between MEA and LLMs' alignments. As such, they result in poor attack performances. To tackle this issue, we present Locality Reinforced Distillation (LoRD), a novel model extraction attack algorithm specifically for LLMs. In particular, we design a policy-gradient-style training task, which utilizes victim models' responses as a signal to guide the crafting of preference for the local model. Theoretical analysis has shown that i) LoRD's convergence procedure in MEAs is consistent with the alignments of LLMs, and ii) LoRD can reduce query complexity while mitigating watermark protection through exploration-based stealing. Extensive experiments on domain-specific extractions demonstrate the superiority of our method by examining the extraction of various state-of-the-art commercial LLMs.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# ジャーナル・インパクト・メトリクスを用いたバイオメディカル・ドメイン適応のための事前学習データ選択

Pre-training data selection for biomedical domain adaptation using journal impact metrics ( http://arxiv.org/abs/2409.02725v1 )

ライセンス: Link先を確認
Mathieu Laï-king, Patrick Paroubek, (参考訳) ドメイン適応は、自然言語処理(NLP)において、特定のドメイン内の言語モデルの性能を改善するために広く使われている手法である。 この方法は、多くの科学論文を定期的に出版するバイオメディカル分野において特に一般的である。 PubMedは重要なテキストコーパスであり、バイオメディカルドメインで頻繁に使われている。 本研究の主な目的は,学術論文の特定の品質指標を用いた事前学習データセットの精錬によって,得られたモデルの性能が向上するかどうかを検討することである。 そこで本研究では,完全なPubMedトレーニングセットの様々なサブセット上でBERTを継続的に事前学習し,BLURBベンチマークから得られたバイオメディカル言語理解タスクのモデルを評価することによって,2つの簡単なジャーナルインパクト指標を用いて実験を行う。 本結果から, ジャーナルインパクト指標を用いたプルーニングは効率的ではないことがわかった。 しかし、抽象化の少ない事前トレーニング(ただし、同じトレーニングステップの数)は、必ずしも結果のモデルの性能を低下させるとは限らないことも示しています。

Domain adaptation is a widely used method in natural language processing (NLP) to improve the performance of a language model within a specific domain. This method is particularly common in the biomedical domain, which sees regular publication of numerous scientific articles. PubMed, a significant corpus of text, is frequently used in the biomedical domain. The primary objective of this study is to explore whether refining a pre-training dataset using specific quality metrics for scientific papers can enhance the performance of the resulting model. To accomplish this, we employ two straightforward journal impact metrics and conduct experiments by continually pre-training BERT on various subsets of the complete PubMed training set, we then evaluate the resulting models on biomedical language understanding tasks from the BLURB benchmark. Our results show that pruning using journal impact metrics is not efficient. But we also show that pre-training using fewer abstracts (but with the same number of training steps) does not necessarily decrease the resulting model's performance.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# プールと注意:LLmベースの埋め込みモデルに効果的な設計は何か?

Pooling And Attention: What Are Effective Designs For LLm-Based Embedding Models? ( http://arxiv.org/abs/2409.02727v1 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, (参考訳) ジェネレーティブタスクにおける大規模言語モデル(LLM)の大幅な進歩は、LLMベースの埋め込みモデルを探究する活動の活発化に繋がった。 これらのモデルは、様々なプーリングとアテンション戦略を採用し、公開埋め込みベンチマークで最先端のパフォーマンスを達成したが、LLMベースの埋め込みモデルにとって効果的な設計は何かという疑問が残る。 しかしながら、これらのモデルは、異なるLLMベースモデルやトレーニング設定を使用して、異なるデータセットでトレーニングされることが多い。 さらに、公開埋め込みベンチマークの評価では、しばしば統計的意義を報告できず、どの設計が最終的な性能に本当に貢献するかを判断することが困難である。 これは、LCMベースの埋め込みモデルのための最適なトレーニングレシピを求める実践者にとって、複雑なプロセスである。 本研究では,同じトレーニングデータとベースモデルを用いて,LLMをベースとした一連の埋め込みモデルをトレーニングすることで,大規模な実験を行う。 双方向の注意と追加のトレーニング可能なプーリング層は、テキスト類似性や情報検索タスクよりも優れているが、EOS-lastトークンプーリングやクラスタリングや分類タスクにおけるデフォルト因果的注意など、より単純な設計をはるかに上回っているわけではない。 さらに,最後の層に留まらず,すべての隠蔽層から出力を変換するマルチ層学習型プール方式を提案する。 この手法は,既存のプーリング法と比較して,テキスト類似性や検索タスクにおいて統計的に優れていることを示す。 本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について概説する。

The significant advancements of Large Language Models (LLMs) in generative tasks have led to a growing body of work exploring LLM-based embedding models. While these models, employing different pooling and attention strategies, have achieved state-of-the-art performance on public embedding benchmarks, questions still arise about what constitutes an effective design for LLM-based embedding models. However, these models are often trained on different datasets, using different LLM base models or training settings. Moreover, evaluations on public embedding benchmarks often fail to report statistical significance, making it difficult to determine which designs truly contribute to final performance. This complicates the process for practitioners seeking optimal training recipes for LLM-based embedding models. In this study, we conduct a large-scale experiment by training a series of LLM-based embedding models using the same training data and base model but differing in their pooling and attention strategies. The results show that there is no one-size-fits-all solution: while bidirectional attention and an additional trainable pooling layer outperform in text similarity and information retrieval tasks, they do not significantly surpass simpler designs like EOS-last token pooling and default causal attention in clustering and classification tasks. Furthermore, we propose a new pooling strategy, Multi-Layers Trainable Pooling, which transforms the outputs of all hidden layers, rather than just the last layer, using a cross-attention network. This method proves to be statistically superior in text similarity and retrieval tasks compared to existing pooling methods. Overall, this paper sheds light on effective training strategies for LLM-based embedding models.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# グラフデータのためのタスク指向通信:グラフ情報ボトルネックアプローチ

Task-Oriented Communication for Graph Data: A Graph Information Bottleneck Approach ( http://arxiv.org/abs/2409.02728v1 )

ライセンス: Link先を確認
Shujing Li, Yanhu Wang, Shuaishuai Guo, Chenyuan Feng, (参考訳) 知識表現やソーシャルネットワークのような分野に不可欠なグラフデータは、多くのノードとエッジを持つ大きなネットワークを伴っていることが多い。 これらのグラフの送信は、そのサイズと特定のタスクの冗長性のために、非常に非効率である。 本稿では,コミュニケーションのオーバーヘッドを低減しつつ,鍵情報を保持するタスク中心のより小さなサブグラフを抽出する手法を提案する。 提案手法では,グラフニューラルネットワーク(GNN)とグラフ情報ボトルネック(GIB)の原理を用いて,伝達に適したコンパクトで情報的,堅牢なグラフ表現を生成する。 問題となるのはグラフデータの不規則な構造であり、GIB最適化は複雑である。 対象関数に対するトラクタブルな変分上限を導出することでこの問題に対処する。 さらに、ベクトル量子化(VQ)を統合して、サブグラフ表現を既存のデジタル通信システムと互換性のある離散コードブックシーケンスに変換するVQ-GIB機構を提案する。 実験の結果,本手法は重要なタスク関連情報を保存しながら通信コストを大幅に削減することがわかった。 このアプローチは、連続したシステムと離散的なシステムの両方に適した、様々な通信チャネルにまたがる堅牢な性能を示す。

Graph data, essential in fields like knowledge representation and social networks, often involves large networks with many nodes and edges. Transmitting these graphs can be highly inefficient due to their size and redundancy for specific tasks. This paper introduces a method to extract a smaller, task-focused subgraph that maintains key information while reducing communication overhead. Our approach utilizes graph neural networks (GNNs) and the graph information bottleneck (GIB) principle to create a compact, informative, and robust graph representation suitable for transmission. The challenge lies in the irregular structure of graph data, making GIB optimization complex. We address this by deriving a tractable variational upper bound for the objective function. Additionally, we propose the VQ-GIB mechanism, integrating vector quantization (VQ) to convert subgraph representations into a discrete codebook sequence, compatible with existing digital communication systems. Our experiments show that this GIB-based method significantly lowers communication costs while preserving essential task-related information. The approach demonstrates robust performance across various communication channels, suitable for both continuous and discrete systems.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# 3次元点配置のための完全かつ効率的な共変と分子量子特性の学習への応用

Complete and Efficient Covariants for 3D Point Configurations with Application to Learning Molecular Quantum Properties ( http://arxiv.org/abs/2409.02730v1 )

ライセンス: Link先を確認
Hartmut Maennel, Oliver T. Unke, Klaus-Robert Müller, (参考訳) 機械学習を用いて分子の物理的特性をモデル化する場合、$SO(3)$-共分散を組み込むことが望ましい。 低次数特徴に基づくそのようなモデルは完全ではないが、高次法の一般的な完全性特性を定式化し証明し、これらの特徴のうち6k-5$は最大$k$の原子に対して十分であることを示す。 また,これらの手法でよく用いられる Clebsch-Gordan 演算は完全性を犠牲にすることなく行列乗法に置き換えることができ,特徴量で $O(l^6)$ から $O(l^3)$ にスケールを下げることができる。 これを量子化学に適用するが,提案手法は一般に3次元点配置に関わる問題に適用できる。

When modeling physical properties of molecules with machine learning, it is desirable to incorporate $SO(3)$-covariance. While such models based on low body order features are not complete, we formulate and prove general completeness properties for higher order methods, and show that $6k-5$ of these features are enough for up to $k$ atoms. We also find that the Clebsch--Gordan operations commonly used in these methods can be replaced by matrix multiplications without sacrificing completeness, lowering the scaling from $O(l^6)$ to $O(l^3)$ in the degree of the features. We apply this to quantum chemistry, but the proposed methods are generally applicable for problems involving 3D point configurations.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# RTFM: IoTプラットフォームプロバイダが開発者のために開発するのは,どの程度難しいのでしょう?

RTFM: How hard are IoT platform providers making it for their developers? ( http://arxiv.org/abs/2409.02735v1 )

ライセンス: Link先を確認
Andrew Baldrian, Joseph Hallett, (参考訳) IoT(Internet of Things)デバイスには,セキュリティ上の問題が常にあるが,プラットフォームデザイナがIoT開発者に十分なサポートを提供して,プラットフォーム用のセキュリティ機能を容易に実装できるものなのだろうか? 私たちは9つのIoTメーカのドキュメンテーション、コード、ガイダンスを調査し、いくつかのセキュリティ標準(セキュアブート、デバイス識別キー、デバイス毎のパスワード)で必要とされる3つのセキュリティ機能を実装する上で、彼らがどのようなガイダンスを提供したかを調査しました。 セキュリティ機能の採用を望むのであれば、開発者をサポートするためにもっと多くのことを行う必要があることに気付きます。

Internet of Things (IoT) devices routinely have security issues, but are the platform designers providing enough support to IoT developers for them to easily implement security features for their platforms? We surveyed the documentation, code and guidance from nine IoT manufacturers to look at what guidance they provided for implementing three security features required by several security standards (secure boot, device identity keys and unique per device passwords). We find that more needs to be done to support developers if we want them to adopt security features -- especially in the face of incoming legislation that will require developers to implement them.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# セルオートマトン自動分類のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Automated Cellular Automaton Classification ( http://arxiv.org/abs/2409.02740v1 )

ライセンス: Link先を確認
Michiel Rollier, Aisling J. Daly, Jan M. Baetens, (参考訳) セルオートマトン(CA)の時空ダイアグラムにおける創発的ダイナミクスは、多くの振る舞いクラスによってしばしば整理される。 初等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等中等度は、多様で多様であり、手動で分類するには多様である。 この章では、時空図をデジタル画像として扱い、簡単なコンピュータビジョン技術を用いて、初等セルオートマトンを5つのLi-Packardクラスに自動分類する。 特に、制御学習タスクを畳み込みニューラルネットワークに提示し、非要素CAに一般化する。 そうしたい場合は、アルゴリズムの焦点を、基礎となる'ミクロ'ローカルアップデートから切り離さなければなりません。 まず,従来開発された深層学習アプローチが,特定の行動クラスに関連付けられたメソスコピックパターンに直接焦点をあてるのではなく,局所的な更新ルールを特定するように訓練されていることを示す。 十分に議論されたニューラルネットワーク設計と、多数のデータ拡張技術により、まず基盤となる微視的ダイナミクスを特定することなく、振る舞いのクラスをほぼ完全に識別できる畳み込みニューラルネットワークを提示する。

The emergent dynamics in spacetime diagrams of cellular automata (CAs) is often organised by means of a number of behavioural classes. Whilst classification of elementary CAs is feasible and well-studied, non-elementary CAs are generally too diverse and numerous to exhaustively classify manually. In this chapter we treat the spacetime diagram as a digital image, and implement simple computer vision techniques to perform an automated classification of elementary cellular automata into the five Li-Packard classes. In particular, we present a supervised learning task to a convolutional neural network, in such a way that it may be generalised to non-elementary CAs. If we want to do so, we must divert the algorithm's focus away from the underlying 'microscopic' local updates. We first show that previously developed deep learning approaches have in fact been trained to identify the local update rule, rather than directly focus on the mesoscopic patterns that are associated with the particular behavioural classes. By means of a well-argued neural network design, as well as a number of data augmentation techniques, we then present a convolutional neural network that performs nearly perfectly at identifying the behavioural class, without necessarily first identifying the underlying microscopic dynamics.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# 正規決定過程のトラクタブルオフライン学習

Tractable Offline Learning of Regular Decision Processes ( http://arxiv.org/abs/2409.02747v1 )

ライセンス: Link先を確認
Ahana Deb, Roberto Cipollone, Anders Jonsson, Alessandro Ronca, Mohammad Sadegh Talebi, (参考訳) この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。 RDPでは、将来の観測と過去の相互作用からの報酬の未知の依存は隠れた有限状態オートマトンによって捉えられる。 このため、多くのRDPアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構成する。 本稿では,従来の RDP のオフライン RL アルゴリズム,特に RegORL の2つの制約を克服できることを示す。 L_\infty^\mathsf{p}$-distinguishabilityパラメータに問題のある依存関係を取り除くフォーマルな言語に基づく新しい擬似メトリックの開発と、単純なカウントではなくCount-Min-Sketch (CMS)の採用である。 前者は言語理論用語の複雑さの低い環境において必要とされるサンプルの数を減少させる。 後者は、長期計画の地平線に対するメモリ要件を軽減する。 これらの手法に関連付けられたPACサンプルの複雑性境界を導出し,そのアプローチを実験的に検証する。

This work studies offline Reinforcement Learning (RL) in a class of non-Markovian environments called Regular Decision Processes (RDPs). In RDPs, the unknown dependency of future observations and rewards from the past interactions can be captured by some hidden finite-state automaton. For this reason, many RDP algorithms first reconstruct this unknown dependency using automata learning techniques. In this paper, we show that it is possible to overcome two strong limitations of previous offline RL algorithms for RDPs, notably RegORL. This can be accomplished via the introduction of two original techniques: the development of a new pseudometric based on formal languages, which removes a problematic dependency on $L_\infty^\mathsf{p}$-distinguishability parameters, and the adoption of Count-Min-Sketch (CMS), instead of naive counting. The former reduces the number of samples required in environments that are characterized by a low complexity in language-theoretic terms. The latter alleviates the memory requirements for long planning horizons. We derive the PAC sample complexity bounds associated to each of these techniques, and we validate the approach experimentally.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# プレトレーニングとセルフトレーニングの比較研究

A Comparative Study of Pre-training and Self-training ( http://arxiv.org/abs/2409.02751v1 )

ライセンス: Link先を確認
Yiheng Wang, Jiayu Lin, Zuoquan Lin, (参考訳) 事前学習と自己学習は、半教師付き学習の2つのアプローチである。 事前学習と自己学習の比較が検討されている。 しかし、以前の研究は、コンピュータビジョンのいくつかのタスクで経験した自己学習の成績と、逆に自然言語処理のタスクで経験した自己学習の成績と、ある種の相容れない設定下での自己学習の成績という、混乱した発見につながった。 我々は,データ強化に匹敵する一貫した基礎的設定の中で,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するアンサンブル手法を提案する。 我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。 以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。 さらに、セルフトレーニングは、半教師付き事前トレーニングと組み合わせることで、追加のメリットを提供する。

Pre-training and self-training are two approaches to semi-supervised learning. The comparison between pre-training and self-training has been explored. However, the previous works led to confusing findings: self-training outperforms pre-training experienced on some tasks in computer vision, and contrarily, pre-training outperforms self-training experienced on some tasks in natural language processing, under certain conditions of incomparable settings. We propose, comparatively and exhaustively, an ensemble method to empirical study all feasible training paradigms combining pre-training, self-training, and fine-tuning within consistent foundational settings comparable to data augmentation. We conduct experiments on six datasets, four data augmentation, and imbalanced data for sentiment analysis and natural language inference tasks. Our findings confirm that the pre-training and fine-tuning paradigm yields the best overall performances. Moreover, self-training offers no additional benefits when combined with semi-supervised pre-training.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# 脆弱性は我々のプロジェクトを妨げるか? サードパーティ製ライブラリの自動脆弱性API検出

Does the Vulnerability Threaten Our Projects? Automated Vulnerable API Detection for Third-Party Libraries ( http://arxiv.org/abs/2409.02753v1 )

ライセンス: Link先を確認
Fangyuan Zhang, Lingling Fan, Sen Chen, Miaoying Cai, Sihan Xu, Lida Zhao, (参考訳) 開発者は通常、車輪の再発明を避けるためにTPLを使用するが、脆弱なTPLは深刻なセキュリティ上の脅威を引き起こす。 既存の研究の大半は、プロジェクトが脆弱なTPLを使用するかどうかのみ検討したが、TPLの脆弱なコードが実際にプロジェクトによって使用されているかどうかを無視した。 そこで本研究では,TPLの脆弱性の原因となる脆弱性のあるルートメソッドを効果的に識別し,Javaプロジェクトで使用されているTPLの脆弱性のあるAPIをすべて識別するVAScannerを提案する。 具体的には、まずパッチコミットから初期パッチメソッドを収集し、パッチ関連シフティング機構を用いて正確なパッチメソッドを抽出する。 それらに基づいて、バックワードコールグラフ分析を利用して、脆弱性のあるTPLバージョン毎のすべての脆弱なAPIを特定し、14,775バージョンの362TPLから95%のCIで1.45%の偽陽性の90,749(ライブラリバージョン2,410,779)の脆弱なAPIからなるデータベースを構築する。 実験の結果,VAScannerは偽陽性5.78%,偽陰性2.16%を除去した。 さらに、Eclipse Steadyという直接的な依存関係を分析する上で、最先端のメソッドレベルのツールよりも優れており、脆弱なAPIのより効果的な検出を実現している。 さらに、脆弱なTPLを使用した3,147プロジェクトの大規模分析では、21.51%のプロジェクト(1.83%が偽陽性、95%が[0.71%, 4.61%])が脆弱なTPLによる脆弱なAPIによって脅かされ、VAScannerが偽陽性を著しく低減できることを示した。

Developers usually use TPLs to facilitate the development of the projects to avoid reinventing the wheels, however, the vulnerable TPLs indeed cause severe security threats. The majority of existing research only considered whether projects used vulnerable TPLs but neglected whether the vulnerable code of the TPLs was indeed used by the projects, which inevitably results in false positives and further requires additional patching efforts and maintenance costs. To address this, we propose VAScanner, which can effectively identify vulnerable root methods causing vulnerabilities in TPLs and further identify all vulnerable APIs of TPLs used by Java projects. Specifically, we first collect the initial patch methods from the patch commits and extract accurate patch methods by employing a patch-unrelated sifting mechanism, then we further identify the vulnerable root methods for each vulnerability by employing an augmentation mechanism. Based on them, we leverage backward call graph analysis to identify all vulnerable APIs for each vulnerable TPL version and construct a database consisting of 90,749 (2,410,779 with library versions) vulnerable APIs with 1.45% false positive proportion with a 95% CI of [1.31%, 1.59%] from 362 TPLs with 14,775 versions. Our experiments show VAScanner eliminates 5.78% false positives and 2.16% false negatives owing to the proposed sifting and augmentation mechanisms. Besides, it outperforms the state-of-the-art method-level tool in analyzing direct dependencies, Eclipse Steady, achieving more effective detection of vulnerable APIs. Furthermore, in a large-scale analysis of 3,147 projects using vulnerable TPLs, we find only 21.51% of projects (with 1.83% false positive proportion and a 95% CI of [0.71%, 4.61%]) were threatened through vulnerable APIs by vulnerable TPLs, demonstrating that VAScanner can potentially reduce false positives significantly.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# 多基準ソートにおける非単調な選好学習への漸進的選好に基づくアプローチ

An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting ( http://arxiv.org/abs/2409.02760v1 )

ライセンス: Link先を確認
Zhuolin Li, Zhen Zhang, Witold Pedrycz, (参考訳) 本稿では,マルチ基準ソート(MCS)問題における非単調な選好を学習するための,新たな漸進的選好に基づくアプローチを提案する。 具体的には、まず、インクリメンタルな選好抽出プロセスの各イテレーションにおいて、潜在的に単調でない選好と一貫性のない代入サンプル選好情報をモデル化するために、最大マージン最適化に基づくモデルを構築する。 最適目的関数値を用いて,情報量測定法と質問選択法を考案し,各イテレーションにおいて,アクティブな学習における不確実性サンプリングの枠組みの中で最も有意な選択肢を特定する。 終端基準を満たすと、非参照代替品のソート結果は2つの最適化モデル、すなわち最大マージン最適化モデルと複雑性制御最適化モデルを用いて決定できる。 その後、異なる終了基準を考慮して、潜在的に単調な選好を学習するために、2つの漸進的選好に基づくアルゴリズムが開発された。 最終的に、提案手法を信用格付け問題に適用し、詳細な実装手順を解明し、人工と実世界の両方のデータセット上で計算実験を行い、提案した質問選択戦略といくつかのベンチマーク戦略を比較する。

This paper introduces a novel incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting (MCS) problems, enabling decision makers to progressively provide assignment example preference information. Specifically, we first construct a max-margin optimization-based model to model potentially non-monotonic preferences and inconsistent assignment example preference information in each iteration of the incremental preference elicitation process. Using the optimal objective function value of the max-margin optimization-based model, we devise information amount measurement methods and question selection strategies to pinpoint the most informative alternative in each iteration within the framework of uncertainty sampling in active learning. Once the termination criterion is satisfied, the sorting result for non-reference alternatives can be determined through the use of two optimization models, i.e., the max-margin optimization-based model and the complexity controlling optimization model. Subsequently, two incremental preference elicitation-based algorithms are developed to learn potentially non-monotonic preferences, considering different termination criteria. Ultimately, we apply the proposed approach to a credit rating problem to elucidate the detailed implementation steps, and perform computational experiments on both artificial and real-world data sets to compare the proposed question selection strategies with several benchmark strategies.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-04
# バッチパラメータ生成によるフェデレーション量子トレイン

Federated Quantum-Train with Batched Parameter Generation ( http://arxiv.org/abs/2409.02763v1 )

ライセンス: Link先を確認
Chen-Yu Liu, Samuel Yen-Chi Chen, (参考訳) 本稿では、分散学習システムに量子コンピューティングを活用するために、QTモデルをフェデレート学習に統合する、フェデレート量子トレイン(QT)フレームワークを紹介する。 量子クライアントノードは、量子ニューラルネットワーク(QNN)とマッピングモデルを使用して、中央ノードで更新および集約されたローカルターゲットモデルパラメータを生成する。 CIFAR-10データセット上のVGGライクな畳み込みニューラルネットワークを用いて、本手法は、一般化誤差を低減しつつ、キュービット使用量を19から8キュービットに大幅に削減する。 QT法は、古典的なモデルで観測された過度な適合を緩和し、トレーニングとテストの精度を調整し、高度に圧縮されたモデルの性能を向上させる。 特に、Federated QTフレームワークは、現在の量子ハードウェアの制限を前提として、推論中に量子コンピュータを必要とせず、実用性を高めている。 この研究は、量子機械学習と分散学習システムに量子技術を統合する可能性を強調し、量子機械学習と分散学習システムの進歩の道を開く。

In this work, we introduce the Federated Quantum-Train (QT) framework, which integrates the QT model into federated learning to leverage quantum computing for distributed learning systems. Quantum client nodes employ Quantum Neural Networks (QNNs) and a mapping model to generate local target model parameters, which are updated and aggregated at a central node. Testing with a VGG-like convolutional neural network on the CIFAR-10 dataset, our approach significantly reduces qubit usage from 19 to as low as 8 qubits while reducing generalization error. The QT method mitigates overfitting observed in classical models, aligning training and testing accuracy and improving performance in highly compressed models. Notably, the Federated QT framework does not require a quantum computer during inference, enhancing practicality given current quantum hardware limitations. This work highlights the potential of integrating quantum techniques into federated learning, paving the way for advancements in quantum machine learning and distributed learning systems.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 時間平均逆対称鎖におけるHong-Ou-Mandel干渉

Hong-Ou-Mandel Interference in a temporal-average-inversion-symmetric chain ( http://arxiv.org/abs/2409.02767v1 )

ライセンス: Link先を確認
Shi Hu, Meiqing Hu, Shihao Li, Zihui Zhong, Zhoutao Lei, (参考訳) 本研究では,Su-Schrieffer-Heeger 連鎖における可変ビームスプリッタとHong-Ou-Mandel干渉の実装について,位相的エッジ状態の非定常操作により示す。 最初は鎖の一端に注入されたボソンは、断熱的進化の過程で蓄積される動的相に依存して、調整可能な比率で二端に移動することができる。 また、チューニング可能なビームスプリッター(50:50ドル)を介して香港・ウー・マンデル干渉を観測し、空間的に絡み合った2粒子NOON状態を達成する。 我々は, カイラルおよび時間反転対称性保存障害下での本提案の堅牢性を示す。 しかし、カイラル対称性は現実主義システムには乏しい。 そこで本研究では,香港・奥羽・マンデル干渉がカイラル対称性を破る逆対称障害に対して頑健であることを示し,逆対称性の保護を強調した。 より重要なことは、静的障害によって破られた反転対称性は、障害が時間依存となるより一般的な状況に復元することができ、時間的・平均反転対称性が保護されたホン・オ・マンデル干渉を引き起こすことである。 我々のアプローチは、トポロジカルな物質における量子効果を潜在的応用で研究する新しい方法を開く。

We show how to implement tunable beam splitter and Hong-Ou-Mandel interference in the Su-Schrieffer-Heeger chain by manipulating the topological edge states adiabatically. The boson initially injected in the one end of the chain can be transferred to the two-end with a tunable proportion depends on the dynamical phases accumulated during the adiabatic evolution. We also observe Hong-Ou-Mandel interference via the tunable beam splitter ($50:50$) and achieve a spatially entangled two-particle NOON state. We demonstrate the robustness of our proposal under chiral- and time-reversal-symmetry-preserving disorder. However, the chiral symmetry is scarce for realist system. Therefore, we demonstrate Hong-Ou-Mandel interference are robust to inversion symmetric disorder breaking the chiral symmetry, highlighting the protection of inversion symmetry. More importantly, the inversion symmetry violated by static disorder can be restored for more common situations where disorder becomes time dependent, giving rise to the temporal-average-inversion-symmetry protected Hong-Ou-Mandel interference. Our approach opens a new way to study quantum effects in topological matter with potential applications.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 骨・筋肉評価の不確実性を考慮した骨・骨間CT画像における筋骨格分節モデルの妥当性の検討

Validation of musculoskeletal segmentation model with uncertainty estimation for bone and muscle assessment in hip-to-knee clinical CT images ( http://arxiv.org/abs/2409.02770v1 )

ライセンス: Link先を確認
Mazen Soufi, Yoshito Otake, Makoto Iwasa, Keisuke Uemura, Tomoki Hakotani, Masahiro Hashimoto, Yoshitake Yamada, Minoru Yamada, Yoichi Yokoyama, Masahiro Jinzaki, Suzushi Kusano, Masaki Takao, Seiji Okada, Nobuhiko Sugano, Yoshinobu Sato, (参考訳) 深層学習に基づく画像セグメンテーションにより、医用画像から筋骨格(MSK)構造の完全自動化、正確、迅速分析が可能となった。 しかし、現在のアプローチは2次元断面画像にのみ適用され、少数の構造に対処されるか、大規模データベースでの応用を制限する小さなデータセットで検証された。 本研究の目的は, 臨床CT画像からの不確実性評価により, 股関節, 大腿部のMSK区分けの深部学習モデルの改善を図ったことである。 複数メーカー/スキャナーからのCT画像のデータベース, 疾患状況, 患者位置のデータベースを用いて検討した。 構造体積と密度,すなわち平均HUを推定する際のセグメンテーション精度と精度を評価した。 また,予測不確実性に基づくセグメンテーション故障検出手法についても検討した。 モデルでは,すべてのセグメンテーション精度と構造体積/密度評価指標に関して,全体的な改善が示されている。 予測不確実性は,不正確なセグメンテーションの検出において受信動作特性 (AUROC) 曲線 (AUROCs=.95) の下で大きな領域を得た。 大規模CTデータベースにおいて,高セグメンテーションと筋量/密度推定精度,および予測不確実性に基づく故障検出精度は,個々のMSK構造を解析するための信頼性を示した。

Deep learning-based image segmentation has allowed for the fully automated, accurate, and rapid analysis of musculoskeletal (MSK) structures from medical images. However, current approaches were either applied only to 2D cross-sectional images, addressed few structures, or were validated on small datasets, which limit the application in large-scale databases. This study aimed to validate an improved deep learning model for volumetric MSK segmentation of the hip and thigh with uncertainty estimation from clinical computed tomography (CT) images. Databases of CT images from multiple manufacturers/scanners, disease status, and patient positioning were used. The segmentation accuracy, and accuracy in estimating the structures volume and density, i.e., mean HU, were evaluated. An approach for segmentation failure detection based on predictive uncertainty was also investigated. The model has shown an overall improvement with respect to all segmentation accuracy and structure volume/density evaluation metrics. The predictive uncertainty yielded large areas under the receiver operating characteristic (AUROC) curves (AUROCs>=.95) in detecting inaccurate and failed segmentations. The high segmentation and muscle volume/density estimation accuracy, along with the high accuracy in failure detection based on the predictive uncertainty, exhibited the model's reliability for analyzing individual MSK structures in large-scale CT databases.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 不変原理による因果表現学習の統一

Unifying Causal Representation Learning with the Invariance Principle ( http://arxiv.org/abs/2409.02772v1 )

ライセンス: Link先を確認
Dingling Yao, Dario Rancati, Riccardo Cadei, Marco Fumero, Francesco Locatello, (参考訳) 因果表現学習は、高次元観測から潜伏因果変数を復元し、新たな介入の効果の予測やより堅牢な分類などの因果下流課題を解決することを目的としている。 多くの手法が開発され、それぞれが慎重に設計された問題設定に対処し、異なるタイプの識別可能性をもたらす。 伝承では、これらの異なる設定はパールの因果的階層の異なるラングとしばしば関連付けられているため重要であるが、すべてがきちんと適合しているわけではない。 我々の主な貢献は、既存の因果表現学習アプローチの多くが、その表現を既知のデータ対称性に方法論的に整合させることである。 変数の同定は、必ずしも因果関係ではない異なるデータポケットにまたがる同値クラスによって導かれる。 この結果は重要な意味を示唆しており、アプリケーションに関連する不変性に基づいて、異なる仮定を混在させ、適合させることができる単一の方法で、既存の多くのアプローチを統一することができる。 また、実世界の高次元生態データに対する処理効果推定を改善することで、適用性にも有益であることを示す。 本稿では、因果変数の発見における因果仮定の役割を明らかにし、データ対称性の保存に焦点を移す。

Causal representation learning aims at recovering latent causal variables from high-dimensional observations to solve causal downstream tasks, such as predicting the effect of new interventions or more robust classification. A plethora of methods have been developed, each tackling carefully crafted problem settings that lead to different types of identifiability. The folklore is that these different settings are important, as they are often linked to different rungs of Pearl's causal hierarchy, although not all neatly fit. Our main contribution is to show that many existing causal representation learning approaches methodologically align the representation to known data symmetries. Identification of the variables is guided by equivalence classes across different data pockets that are not necessarily causal. This result suggests important implications, allowing us to unify many existing approaches in a single method that can mix and match different assumptions, including non-causal ones, based on the invariances relevant to our application. It also significantly benefits applicability, which we demonstrate by improving treatment effect estimation on real-world high-dimensional ecological data. Overall, this paper clarifies the role of causality assumptions in the discovery of causal variables and shifts the focus to preserving data symmetries.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 領域適応型正規化多出力ガウス畳み込みプロセス

Regularized Multi-output Gaussian Convolution Process with Domain Adaptation ( http://arxiv.org/abs/2409.02778v1 )

ライセンス: Link先を確認
Wang Xinming, Wang Chao, Song Xuan, Kirby Levi, Wu Jianguo, (参考訳) 多出力ガウス過程 (MGP) は複数の出力をモデル化する伝達学習法として注目されている。 高い柔軟性と汎用性にもかかわらず、MGPはトランスファーラーニングに適用する際の2つの重要な課題に直面している。 1つ目は負の転送であり、出力の間に共有情報がないときに発生する。 第二の課題は入力領域の不整合であり、一般的には移動学習において研究されているが、MGPでは研究されていない。 本稿では,これらの課題を克服するために,ドメイン適応を用いた正規化MGPモデリングフレームワークを提案する。 より具体的には、MGPのスパース共分散行列は畳み込み法を用いて提案される。 ドメイン不整合に対処するために,不整合性を疎外し,不整合性を拡大して入力領域を異なる出力に整合させるドメイン適応法を提案する。 提案手法の統計的特性は,実用的かつ漸近的に性能を保証するために提供される。 提案フレームワークは, 総合シミュレーション研究における最先端ベンチマークと, セラミックス製造プロセスの実例を比較検討した。 その結果, 負の移動とドメインの不整合の両面において, 本手法の有効性が示された。

Multi-output Gaussian process (MGP) has been attracting increasing attention as a transfer learning method to model multiple outputs. Despite its high flexibility and generality, MGP still faces two critical challenges when applied to transfer learning. The first one is negative transfer, which occurs when there exists no shared information among the outputs. The second challenge is the input domain inconsistency, which is commonly studied in transfer learning yet not explored in MGP. In this paper, we propose a regularized MGP modeling framework with domain adaptation to overcome these challenges. More specifically, a sparse covariance matrix of MGP is proposed by using convolution process, where penalization terms are added to adaptively select the most informative outputs for knowledge transfer. To deal with the domain inconsistency, a domain adaptation method is proposed by marginalizing inconsistent features and expanding missing features to align the input domains among different outputs. Statistical properties of the proposed method are provided to guarantee the performance practically and asymptotically. The proposed framework outperforms state-of-the-art benchmarks in comprehensive simulation studies and one real case study of a ceramic manufacturing process. The results demonstrate the effectiveness of our method in dealing with both the negative transfer and the domain inconsistency.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 二重利用技術の統治:国際安全保障協定の事例とAIガバナンスの教訓

Governing dual-use technologies: Case studies of international security agreements and lessons for AI governance ( http://arxiv.org/abs/2409.02779v1 )

ライセンス: Link先を確認
Akash R. Wasil, Peter Barnett, Michael Gerovitch, Roman Hauksson, Tom Reed, Jack William Miller, (参考訳) 国際AIガバナンス協定や機関は、先進的なAIからグローバルなセキュリティリスクを減らす上で重要な役割を果たす可能性がある。 このような協定や機関の設計について, 歴史的・現代国際安全保障協定の事例研究を行った。 我々は、核安全保障、化学兵器、バイオセキュリティ、輸出管理に関する合意について調べ、二重利用技術に関するこれらの取組に特に焦点をあてた。 各合意について,4つの重要な領域について検討した。 目的; 目的; 目的; 目的; 目的; 目的; 目的 (b)コアパワー (c)統治構造、及び (d) 非準拠の例。 これらのケーススタディから,国際AI協定やガバナンス機関の設計に関する教訓を抽出した。 我々は、堅牢な検証方法の重要性、国家間の権力バランスの戦略、急速な技術変革に対応するためのメカニズム、透明性とセキュリティの間のトレードオフを管理するためのアプローチ、参加のインセンティブ、効果的な実施メカニズムについて論じる。

International AI governance agreements and institutions may play an important role in reducing global security risks from advanced AI. To inform the design of such agreements and institutions, we conducted case studies of historical and contemporary international security agreements. We focused specifically on those arrangements around dual-use technologies, examining agreements in nuclear security, chemical weapons, biosecurity, and export controls. For each agreement, we examined four key areas: (a) purpose, (b) core powers, (c) governance structure, and (d) instances of non-compliance. From these case studies, we extracted lessons for the design of international AI agreements and governance institutions. We discuss the importance of robust verification methods, strategies for balancing power between nations, mechanisms for adapting to rapid technological change, approaches to managing trade-offs between transparency and security, incentives for participation, and effective enforcement mechanisms.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 超伝導量子ビットによる温度測定

Thermometry Based on a Superconducting Qubit ( http://arxiv.org/abs/2409.02784v1 )

ライセンス: Link先を確認
Dmitrii S. Lvov, Sergei A. Lemziakov, Elias Ankerhold, Joonas T. Peltonen, Jukka P. Pekola, (参考訳) トランスモンキュービットを用いて温度測定を行い,最初の3段階の個体数を検出した。 我々は、量子ビットの有効温度を測定し、その緩和とコヒーレンス時間$\tau_{1,2}$を温度範囲20-300mKの3つのデバイスに対して特徴付ける。 温度測定の信号対雑音比(SNR)は、準粒子の励起により高温で降下する$\tau_{1}$に強く依存し、測定に悪影響を及ぼし、温度計の動的温度範囲の上限を設定する。 この測定は、$\pi$-pulsesの間、キュービットのコヒーレントダイナミクスに依存する。 有効量子ビット温度は、100mKから250mKの範囲のクライオスタットのそれに近い。 本稿では, 量子ビット分布の数値モデルを提案し, 実験結果と比較した。

We report temperature measurements using a transmon qubit by detecting the population of the first three levels of it, after employing a sequence of $\pi$-pulses and performing projective dispersive readout. We measure the effective temperature of the qubit and characterize its relaxation and coherence times $\tau_{1,2}$ for three devices in the temperature range 20-300 mK. Signal-to-noise (SNR) ratio of the temperature measurement depends strongly on $\tau_{1}$, which drops at higher temperatures due to quasiparticle excitations, adversely affecting the measurements and setting an upper bound of the dynamic temperature range of the thermometer. The measurement relies on coherent dynamics of the qubit during the $\pi$-pulses. The effective qubit temperature follows closely that of the cryostat in the range 100-250 mK. We present a numerical model of the qubit population distribution and compare it favorably with the experimental results.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 対称性に基づくサブ波長量子エミッタアレイにおける散逸性量子多体ダイナミクスの効率的なシミュレーション

Symmetry based efficient simulation of dissipative quantum many-body dynamics in subwavelength quantum emitter arrays ( http://arxiv.org/abs/2409.02790v1 )

ライセンス: Link先を確認
Raphael Holzinger, Oriol Rubies-Bigorda, Susanne F. Yelin, Helmut Ritsch, (参考訳) 本稿では,真空電磁場を介する長距離双極子-双極子相互作用の存在下で,配列配列中の多数の量子エミッタの散逸ダイナミクスを数値シミュレーションする効率的な方法を提案する。 系の空間対称性を用いて、運動方程式を集合スピンベースで書き直し、その後、集合作用素に対して高次累積展開を適用する。 サブラジアント集団モードを非常に抑制された崩壊率で切り離し、放射する集団モードからの影響のみを保持することにより、数値複雑性を著しく低減する。 これにより、線形で環状で平面的な量子エミッタ配列に対して、興味のある可観測物の散逸ダイナミクスを効率的に計算することができる。 特に、励起集団、総光子放出率、および2次強度相関関数 $g^{(2)}(\tau =0)$ を特徴付ける。

We propose an efficient method to numerically simulate the dissipative dynamics of large numbers of quantum emitters in ordered arrays in the presence of long-range dipole-dipole interactions mediated by the vacuum electromagnetic field. Using the spatial symmetries of the system, we rewrite the equations of motion in a collective spin basis and subsequently apply a higher-order cumulant expansion for the collective operators. By truncating the subradiant collective modes with a heavily suppressed decay rate and keeping only the effect from the radiating collective modes, we reduce the numerical complexity significantly. This allows to efficiently compute the dissipative dynamics of the observables of interest for a linear, ring-shaped and planar arrays of quantum emitters. In particular, we characterize the excited population, the total photon emission rate and the second order intensity correlation function $g^{(2)}(\tau =0)$, which are challenging to compute for large systems with traditional cumulant expansion methods based on the individual spins.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 経験から学ぶことのできない相関を避ける

UnLearning from Experience to Avoid Spurious Correlations ( http://arxiv.org/abs/2409.02792v1 )

ライセンス: Link先を確認
Jeff Mitchell, Jesús Martínez del Rincón, Niall McLaughlin, (参考訳) ディープニューラルネットワークは多くのタスクで最先端のパフォーマンスを達成することができるが、これらのモデルは現れるよりも脆弱である。 トレーニングデータに急激な相関関係を学習する傾向があるため、驚くべき障害ケースが発生します。 本稿では,経験から学ぶこと (ULE: UnLearning from Experience) という,突発的相関の問題に対処する新しいアプローチを提案する。 本手法は,生徒モデルと教師モデルという,並列に訓練された2つの分類モデルを用いた。 どちらのモデルも、トレーニングデータの同じバッチを受け取ります。 学生モデルは制約なしに訓練され、データの素早い相関を追求する。 教師モデルは、生徒モデルの誤りを回避しつつ、同じ分類問題を解決するために訓練される。 訓練が並行して行われると、学生モデルが素早い相関関係を学習するほど、教師モデルがより堅牢になる。 教師モデルは、学生が犯した未学習の誤りに対する入力に関して、生徒の出力の勾配を利用する。 提案手法は,Waterbirds,CelebA,Spawrious,UrbanCarsの各データセットに有効であることを示す。

While deep neural networks can achieve state-of-the-art performance in many tasks, these models are more fragile than they appear. They are prone to learning spurious correlations in their training data, leading to surprising failure cases. In this paper, we propose a new approach that addresses the issue of spurious correlations: UnLearning from Experience (ULE). Our method is based on using two classification models trained in parallel: student and teacher models. Both models receive the same batches of training data. The student model is trained with no constraints and pursues the spurious correlations in the data. The teacher model is trained to solve the same classification problem while avoiding the mistakes of the student model. As training is done in parallel, the better the student model learns the spurious correlations, the more robust the teacher model becomes. The teacher model uses the gradient of the student's output with respect to its input to unlearn mistakes made by the student. We show that our method is effective on the Waterbirds, CelebA, Spawrious and UrbanCars datasets.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 大規模言語モデルにおける選好学習の統一的視点に向けて:調査

Towards a Unified View of Preference Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2409.02795v1 )

ライセンス: Link先を確認
Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang, (参考訳) 大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 このアライメントプロセスは、LLMの性能を効率的に向上するために、少量のデータしか必要としないことが多い。 効果的な分野ではあるが、この分野の研究は複数の領域にまたがっており、関連する手法は比較的複雑である。 異なる方法間の関係は未探索であり、好みのアライメントの発達を制限している。 これを踏まえ、我々は既存の一般的なアライメント戦略を異なるコンポーネントに分割し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それら間の接続を確立する。 本研究では、選好学習におけるすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。 この統合されたビューは、既存のアライメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを相乗化する可能性も開きます。 さらに,本論文では,読者の包括的理解を促進するために,既存アルゴリズムの詳細な実例を示す。 最後に、我々の統一的な視点に基づいて、大きな言語モデルと人間の嗜好を整合させるための課題と今後の研究方向性について検討する。

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 効率的な自己組織化による時系列分類におけるロバスト性向上

Boosting Certificate Robustness for Time Series Classification with Efficient Self-Ensemble ( http://arxiv.org/abs/2409.02802v1 )

ライセンス: Link先を確認
Chang Dong, Zhengyang Li, Liangwei Zheng, Weitong Chen, Wei Emma Zhang, (参考訳) 近年,時系列領域における敵対的堅牢性の問題が注目されている。 しかし、利用可能な防御機構は限定的であり、理論的保証は提供されていないが、敵の訓練が主流である。 ランダム化Smoothingは、$\ell_p$-ball攻撃の下で、ロバスト性半径の証明可能な下界を証明できることから、スタンドアウト手法として登場した。 その成功を認め、時系列分野の研究はこれらの側面に焦点を合わせ始めた。 しかし、既存の研究は主に時系列の予測、あるいは時系列分類のための統計的特徴増強の非$\ell_p$ロバスト性(TSC)に焦点を当てている。 我々のレビューでは、ランダム化SmoothingはTSCで控えめに動作し、堅牢性の低いデータセットに効果的な保証を提供するのに苦労している。 そこで本研究では,分類マージンのばらつきを低減し,より大きな半径を証明し,予測ラベルの確率信頼度を低くする自己アンサンブル手法を提案する。 このアプローチはまた、Deep Ensemble~(DE)の計算オーバーヘッド問題にも対処するが、競争力は保たれており、場合によっては頑健性の観点からも優れる。 理論的解析と実験結果の両方が本手法の有効性を検証し, ベースライン法と比較してロバストネス試験において優れた性能を示した。

Recently, the issue of adversarial robustness in the time series domain has garnered significant attention. However, the available defense mechanisms remain limited, with adversarial training being the predominant approach, though it does not provide theoretical guarantees. Randomized Smoothing has emerged as a standout method due to its ability to certify a provable lower bound on robustness radius under $\ell_p$-ball attacks. Recognizing its success, research in the time series domain has started focusing on these aspects. However, existing research predominantly focuses on time series forecasting, or under the non-$\ell_p$ robustness in statistic feature augmentation for time series classification~(TSC). Our review found that Randomized Smoothing performs modestly in TSC, struggling to provide effective assurances on datasets with poor robustness. Therefore, we propose a self-ensemble method to enhance the lower bound of the probability confidence of predicted labels by reducing the variance of classification margins, thereby certifying a larger radius. This approach also addresses the computational overhead issue of Deep Ensemble~(DE) while remaining competitive and, in some cases, outperforming it in terms of robustness. Both theoretical analysis and experimental results validate the effectiveness of our method, demonstrating superior performance in robustness testing compared to baseline approaches.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 非可逆対称解 Affleck-Ludwig-Cardy 式と境界管代数からの絡み合いエントロピー

A Non-Invertible Symmetry-Resolved Affleck-Ludwig-Cardy Formula and Entanglement Entropy from the Boundary Tube Algebra ( http://arxiv.org/abs/2409.02806v1 )

ライセンス: Link先を確認
Yichul Choi, Brandon C. Rayhaun, Yunqin Zheng, (参考訳) 我々は、高エネルギー状態の漸近密度を非可逆な大域対称性の所定の表現の下で変換する区間上で制御する1+1d共形場理論に対する Affleck-Ludwig-Cardy 公式の洗練されたバージョンを導出した。 これを用いて、単区間の非可逆対称性解決エントロピーに対する普遍的先行的および部分誘導的寄与を決定する。 実例として、臨界二重イジングモデルにおける一区間の基底状態絡みハミルトニアンは、2つのクラマース・ワニエ対称性の積を保存するために絡み合い切断における境界条件を選択するとき、Kac-Paljutkin $H_8$ホップ代数対称性を楽しみ、対応する対称性解決エントロピーを示す。 我々の分析は、対称性トポロジカル場理論(SymTFTs)の最近の発展を利用する。

We derive a refined version of the Affleck-Ludwig-Cardy formula for a 1+1d conformal field theory, which controls the asymptotic density of high energy states on an interval transforming under a given representation of a non-invertible global symmetry. We use this to determine the universal leading and sub-leading contributions to the non-invertible symmetry-resolved entanglement entropy of a single interval. As a concrete example, we show that the ground state entanglement Hamiltonian for a single interval in the critical double Ising model enjoys a Kac-Paljutkin $H_8$ Hopf algebra symmetry when the boundary conditions at the entanglement cuts are chosen to preserve the product of two Kramers-Wannier symmetries, and we present the corresponding symmetry-resolved entanglement entropies. Our analysis utilizes recent developments in symmetry topological field theories (SymTFTs).
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# インテリジェントトランスポートシステムのためのエッジベースデータレイクアーキテクチャの実現に向けて

Towards Edge-Based Data Lake Architecture for Intelligent Transportation System ( http://arxiv.org/abs/2409.02808v1 )

ライセンス: Link先を確認
Danilo Fernandes, Douglas L. L. Moura, Gean Santos, Geymerson S. Ramos, Fabiane Queiroz, Andre L. L. Aquino, (参考訳) 急速な都市化の進展は、輸送効率と安全性を高める革新的なソリューションの必要性を浮き彫りにした。 インテリジェントトランスポーテーションシステム(ITS)はこの文脈で有望なソリューションとして登場した。 しかし、ITSが生成した大規模かつ複雑なデータの解析と処理は、従来のデータ処理システムにとって大きな課題である。 この研究はエッジベースのデータレイクアーキテクチャを提案し、複雑なデータをITSから効率的に統合し分析する。 アーキテクチャはスケーラビリティ、フォールトトレランス、パフォーマンスを提供し、意思決定を改善し、よりインテリジェントな輸送エコシステムのための革新的なサービスを強化します。 3つの異なるユースケースの分析を通して、アーキテクチャの有効性を実証する。 一 車両センサネットワーク (二)モバイルネットワーク、及び 三 運転者識別の応用

The rapid urbanization growth has underscored the need for innovative solutions to enhance transportation efficiency and safety. Intelligent Transportation Systems (ITS) have emerged as a promising solution in this context. However, analyzing and processing the massive and intricate data generated by ITS presents significant challenges for traditional data processing systems. This work proposes an Edge-based Data Lake Architecture to integrate and analyze the complex data from ITS efficiently. The architecture offers scalability, fault tolerance, and performance, improving decision-making and enhancing innovative services for a more intelligent transportation ecosystem. We demonstrate the effectiveness of the architecture through an analysis of three different use cases: (i) Vehicular Sensor Network, (ii) Mobile Network, and (iii) Driver Identification applications.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# 時間依存偏微分方程式に対するハイブリッドFEM-PINN法

A hybrid FEM-PINN method for time-dependent partial differential equations ( http://arxiv.org/abs/2409.02810v1 )

ライセンス: Link先を確認
Xiaodong Feng, Haojiong Shangguan, Tao Tang, Xiaoliang Wan, Tao Zhou, (参考訳) 本研究では、時間有限要素法とディープニューラルネットワークを融合させることにより、進化偏微分方程式(PDE)を解くためのハイブリッド数値法を提案する。 本研究では,空間依存係数がニューラルネットワークの出力として定義される時間方向の有限要素基底関数を利用する。 次に、時間方向のガレルキンもしくはコロケーションプロジェクションを適用し、PINNの枠組みで近似された空間依存係数に対するPDEのシステムを得る。 このようなハイブリッドな定式化の利点は2つある: 統計誤差は時間方向の積分に対して回避され、ニューラルネットワークの出力は縮小された空間基底関数の集合と見なすことができる。 本研究は,高次元・低規則性の難しさを緩和するため,トレーニングセットを洗練させる適応型サンプリング戦略を開発した。 より具体的には,PDE残差による分布を近似するために明示的な密度モデルを用い,学習された密度モデルによって与えられる新しい時間依存ランダムサンプルを用いてトレーニングセットを増強する。 提案手法の有効性と有効性は, 一連の数値実験により実証された。

In this work, we present a hybrid numerical method for solving evolution partial differential equations (PDEs) by merging the time finite element method with deep neural networks. In contrast to the conventional deep learning-based formulation where the neural network is defined on a spatiotemporal domain, our methodology utilizes finite element basis functions in the time direction where the space-dependent coefficients are defined as the output of a neural network. We then apply the Galerkin or collocation projection in the time direction to obtain a system of PDEs for the space-dependent coefficients which is approximated in the framework of PINN. The advantages of such a hybrid formulation are twofold: statistical errors are avoided for the integral in the time direction, and the neural network's output can be regarded as a set of reduced spatial basis functions. To further alleviate the difficulties from high dimensionality and low regularity, we have developed an adaptive sampling strategy that refines the training set. More specifically, we use an explicit density model to approximate the distribution induced by the PDE residual and then augment the training set with new time-dependent random samples given by the learned density model. The effectiveness and efficiency of our proposed method have been demonstrated through a series of numerical experiments.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# MMMU-Pro: よりロバストな多分野マルチモーダル理解ベンチマーク

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark ( http://arxiv.org/abs/2409.02813v1 )

ライセンス: Link先を確認
Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig, (参考訳) 本稿では,MMMU(Massive Multi-discipline Multi-modal Understanding and Reasoning)ベンチマークの頑健なバージョンであるMMMU-Proを紹介する。 MMMU-Proは,(1) テキストのみのモデルで答えられる質問をフィルタリングし,(2) 候補を拡大し,(3) 画像内に質問が埋め込まれた視覚のみの入力設定を導入する。 この設定は、視覚情報とテキスト情報をシームレスに統合する基本的な人間の認知スキルをテストすることによって、AIに真に「見る」と同時に「読む」よう促す。 その結果、MMMU-Proではモデル全体の16.8%から26.9%の範囲でモデル性能がMMMU-Proよりも大幅に低いことが示された。 我々は、OCRプロンプトとCoT(Chain of Thought)推論の影響について検討し、OCRプロンプトが最小限の効果を持つのに対して、CoTは一般に性能を向上することを示した。 MMMU-Proはより厳格な評価ツールを提供し、現実世界のシナリオを忠実に模倣し、将来のマルチモーダルAI研究に有用な方向を提供する。

This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.
翻訳日:2024-09-05 17:30:00 公開日:2024-09-04
# Obsidian: セキュアMLアクセラレータにおけるパフォーマンス推論のための協調的なステートスペース探索

Obsidian: Cooperative State-Space Exploration for Performant Inference on Secure ML Accelerators ( http://arxiv.org/abs/2409.02817v1 )

ライセンス: Link先を確認
Sarbartha Banerjee, Shijia Wei, Prakash Ramrakhyani, Mohit Tiwari, (参考訳) マシンラーニングアクセラレータのための信頼された実行環境(TEE)は、セキュアで効率的なML推論には不可欠である。 アクセラレータアーキテクチャのステートスペース探索によるワークロードの最適化は、パフォーマンスとエネルギー消費を改善する。 しかし、大規模な探索スペースのため、そのような探索は高価で遅い。 現在の研究では、ハードウェアの重要な詳細とハードウェアセキュリティプリミティブに特有の層間機会を予見する高速な分析モデルを使用する必要がある。 サイクル精度のモデルは理論的にはより良い設計に到達できるが、その実行コストが高いため、より小さな状態空間に制限される。 MLカーネルからセキュアなMLアクセラレータへの最適マッピングを見つけるための最適化フレームワークであるObsidianを提案する。 Obsidianは、分析モデルとサイクル精度モデルを用いて、状態空間を協調的に探索することで、上記の課題に対処する。 2) 実行時のボトルネックを捕捉し,実行時,エネルギ,資源利用を更に改善し,最適なモデルマッピングを求めるコンパイラプロファイリングステップ。 本研究の結果を,ガードン[33]とゴマ[11]から得られた最先端のセキュリティスキームからなる,ベースライン安全な加速器と比較した。 分析モデルは、クラウドでの推論遅延を20.5%減らし、エッジデプロイメントでは8.4%減らし、それぞれ24%と19%のエネルギー改善を実現している。 サイクル精度モデルにより、クラウドでは9.1%、エッジでは12.2%のレイテンシが減少し、エネルギー効率は13.8%と13.1%になった。

Trusted execution environments (TEEs) for machine learning accelerators are indispensable in secure and efficient ML inference. Optimizing workloads through state-space exploration for the accelerator architectures improves performance and energy consumption. However, such explorations are expensive and slow due to the large search space. Current research has to use fast analytical models that forego critical hardware details and cross-layer opportunities unique to the hardware security primitives. While cycle-accurate models can theoretically reach better designs, their high runtime cost restricts them to a smaller state space. We present Obsidian, an optimization framework for finding the optimal mapping from ML kernels to a secure ML accelerator. Obsidian addresses the above challenge by exploring the state space using analytical and cycle-accurate models cooperatively. The two main exploration components include: (1) A secure accelerator analytical model, that includes the effect of secure hardware while traversing the large mapping state space and produce the best m model mappings; (2) A compiler profiling step on a cycle-accurate model, that captures runtime bottlenecks to further improve execution runtime, energy and resource utilization and find the optimal model mapping. We compare our results to a baseline secure accelerator, comprising of the state-of-the-art security schemes obtained from guardnn [ 33 ] and sesame [11]. The analytical model reduces the inference latency by 20.5% for a cloud and 8.4% for an edge deployment with an energy improvement of 24% and 19% respectively. The cycle-accurate model, further reduces the latency by 9.1% for a cloud and 12.2% for an edge with an energy improvement of 13.8% and 13.1%.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 任意の温度における1次元ロングレンジ干渉システムの効率的なシミュレーション

Efficient Simulation of 1D Long-Range Interacting Systems at Any Temperature ( http://arxiv.org/abs/2409.02819v1 )

ライセンス: Link先を確認
Rakesh Achutha, Donghoon Kim, Yusuke Kimura, Tomotaka Kuwahara, (参考訳) 全温度にわたる長距離相互作用を持つ1次元量子系の効率的な計算を実現する方法を提案する。 我々のアルゴリズムは準多項式ランタイム内で動作し、逆温度が$\beta={\rm poly}(\ln(n))$まで変化する。 我々のアプローチの核となるのは密度行列再正規化群アルゴリズムであり、これは一般に効率を保証しない。 我々は、量子ギブス状態の行列積演算子に対する新しいトランケーションスキームを作成し、その誤差を解析的に制御できるようにした。 さらに, 長距離相互作用を持つ系の時間発展をシミュレートし, リーブ・ロビンソン境界よりも精度が向上した。

We introduce a method that ensures efficient computation of one-dimensional quantum systems with long-range interactions across all temperatures. Our algorithm operates within a quasi-polynomial runtime for inverse temperatures up to $\beta={\rm poly}(\ln(n))$. At the core of our approach is the Density Matrix Renormalization Group algorithm, which typically does not guarantee efficiency. We have created a new truncation scheme for the matrix product operator of the quantum Gibbs states, which allows us to control the error analytically. Additionally, our method is applied to simulate the time evolution of systems with long-range interactions, achieving significantly better precision than that offered by the Lieb-Robinson bound.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# Deep Learning Meets Satellite Images -- 衛星ステレオ画像のハンドクラフトと学習に基づく特徴評価

Deep Learning Meets Satellite Images -- An Evaluation on Handcrafted and Learning-based Features for Multi-date Satellite Stereo Images ( http://arxiv.org/abs/2409.02825v1 )

ライセンス: Link先を確認
Shuang Song, Luca Morelli, Xinyi Wu, Rongjun Qin, Hessah Albanwan, Fabio Remondino, (参考訳) デジタルサーフェスモデル(DSM)生成における重要なステップは特徴マッチングである。 特に、オフトラック(またはマルチ日付)衛星ステレオ画像は、画像間のスペクトル歪み、長いベースライン、広い交点角による特徴マッチングのパフォーマンスに挑戦することができる。 特徴マッチング手法は、手作りの手法(例:SIFT)から学習に基づく手法(例:SuperPoint、SuperGlue)まで、長年にわたって進化してきた。 本稿では,衛星画像に適用した特徴抽出およびマッチング手法として,特徴量の比較を行った。 2つの異なる研究現場をカバーする幅広いステレオペア(〜500)が使用されている。 SIFTは、広く使われている古典的特徴抽出およびマッチングアルゴリズムとして、SuperGlue、LightGlue、LoFTR、ASpanFormer、DKM、GIM-LightGlue、GIM-DKMの7つのディープラーニングマッチング手法と比較される。 結果から,従来のマッチング手法はいまだに深層学習の時代に競争力があることが明らかとなった。

A critical step in the digital surface models(DSM) generation is feature matching. Off-track (or multi-date) satellite stereo images, in particular, can challenge the performance of feature matching due to spectral distortions between images, long baseline, and wide intersection angles. Feature matching methods have evolved over the years from handcrafted methods (e.g., SIFT) to learning-based methods (e.g., SuperPoint and SuperGlue). In this paper, we compare the performance of different features, also known as feature extraction and matching methods, applied to satellite imagery. A wide range of stereo pairs(~500) covering two separate study sites are used. SIFT, as a widely used classic feature extraction and matching algorithm, is compared with seven deep-learning matching methods: SuperGlue, LightGlue, LoFTR, ASpanFormer, DKM, GIM-LightGlue, and GIM-DKM. Results demonstrate that traditional matching methods are still competitive in this age of deep learning, although for particular scenarios learning-based methods are very promising.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 3次元胎児超音波画像の自動顔軸標準化

Automatic facial axes standardization of 3D fetal ultrasound images ( http://arxiv.org/abs/2409.02826v1 )

ライセンス: Link先を確認
Antonia Alomar, Ricardo Rubio, Laura Salort, Gerard Albaiges, Antoni Payà, Gemma Piella, Federico Sukno, (参考訳) 頭蓋顔面異常は初期の発達障害を示し、通常多くの遺伝症候群と関連している。 早期診断は重要であるが、超音波検査ではこれらの特徴を識別できないことが多い。 本研究は, 3D USにおける胎児の顔面軸/平面の標準化, ソノグラフィの負荷軽減, 顔評価の容易化に, 臨床医を支援するAI駆動型ツールを提案する。 我々のネットワークは3ブロックの抽出器、回転と変換のレグレッションで構成され、空間トランスフォーマーは3つの直交2Dスライスを処理し、3DUSにおける顔面の標準化に必要な変換を推定する。 これらの変換は、微分可能なモジュール(空間変換器ブロック)を使用して元の3D USに適用され、標準化された3D USとそれに対応する2D顔標準平面が得られる。 使用するデータセットは、妊娠20週から35週の間に取得された、胎児の顔の3D画像1180枚で構成されている。 その結果、我々のネットワークは、平均測地角差が 14.12$^{\circ}$ $\pm$ 18.27$^{\circ}$ およびユークリッド角誤差が 7.45$^{\circ}$ $\pm$ 14.88$^{\circ}$ で、テストセットにおけるサーバ間回転変動を著しく減少させることを示した。 これらの結果は、一貫した胎児の顔面評価に不可欠である顔軸を効果的に標準化するネットワークの能力を示している。 以上の結果から, 臨床環境における胎児顔面アセスメントの整合性と精度の向上が期待でき, 頭蓋顔面異常の早期評価を容易にする可能性が示唆された。

Craniofacial anomalies indicate early developmental disturbances and are usually linked to many genetic syndromes. Early diagnosis is critical, yet ultrasound (US) examinations often fail to identify these features. This study presents an AI-driven tool to assist clinicians in standardizing fetal facial axes/planes in 3D US, reducing sonographer workload and facilitating the facial evaluation. Our network, structured into three blocks-feature extractor, rotation and translation regression, and spatial transformer-processes three orthogonal 2D slices to estimate the necessary transformations for standardizing the facial planes in the 3D US. These transformations are applied to the original 3D US using a differentiable module (the spatial transformer block), yielding a standardized 3D US and the corresponding 2D facial standard planes. The dataset used consists of 1180 fetal facial 3D US images acquired between weeks 20 and 35 of gestation. Results show that our network considerably reduces inter-observer rotation variability in the test set, with a mean geodesic angle difference of 14.12$^{\circ}$ $\pm$ 18.27$^{\circ}$ and an Euclidean angle error of 7.45$^{\circ}$ $\pm$ 14.88$^{\circ}$. These findings demonstrate the network's ability to effectively standardize facial axes, crucial for consistent fetal facial assessments. In conclusion, the proposed network demonstrates potential for improving the consistency and accuracy of fetal facial assessments in clinical settings, facilitating early evaluation of craniofacial anomalies.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# ExpLLM:表情認識のための思考の連鎖を目指して

ExpLLM: Towards Chain of Thought for Facial Expression Recognition ( http://arxiv.org/abs/2409.02828v1 )

ライセンス: Link先を確認
Xing Lan, Jian Xue, Ji Qi, Dongmei Jiang, Ke Lu, Tat-Seng Chua, (参考訳) 表情認識(FER)はマルチメディアにおいて重要な課題であり、様々な領域において重要な意味を持つ。 しかし、表情の原因を正確に認識するためには、表情の分析が不可欠である。 顔行動単位(AU)に基づく現在のアプローチは、通常、AUの名前と強度を提供するが、AUと全体的な表現の間の相互作用と関係についての洞察が欠如している。 本稿では,大規模な言語モデルを用いて表情認識のための正確な思考連鎖(CoT)を生成するExpLLMという新しい手法を提案する。 具体的には、重要な観察、全体的な感情解釈、結論の3つの観点から、CoTメカニズムを設計しました。 重要な観察では、AUの名前、強さ、および関連する感情が記述されている。 全体的な感情解釈は、複数のAUとその相互作用に基づいて分析を行い、支配的な感情とそれらの関係を識別する。 最後に、この結論は、前回の分析から得られた最終表現ラベルを示す。 さらに,この表現CoTを構築し,ExpLLMをトレーニングするための命令記述データを生成するExp-CoTエンジンについても紹介する。 RAF-DBとAffectNetデータセットに関する大規模な実験は、ExpLLMが現在の最先端FERメソッドより優れていることを示している。 ExpLLM は、特に GPT-4o が頻繁に失敗するマイクロ表現の認識において、CoT 生成における最新の GPT-4o を上回っている。

Facial expression recognition (FER) is a critical task in multimedia with significant implications across various domains. However, analyzing the causes of facial expressions is essential for accurately recognizing them. Current approaches, such as those based on facial action units (AUs), typically provide AU names and intensities but lack insight into the interactions and relationships between AUs and the overall expression. In this paper, we propose a novel method called ExpLLM, which leverages large language models to generate an accurate chain of thought (CoT) for facial expression recognition. Specifically, we have designed the CoT mechanism from three key perspectives: key observations, overall emotional interpretation, and conclusion. The key observations describe the AU's name, intensity, and associated emotions. The overall emotional interpretation provides an analysis based on multiple AUs and their interactions, identifying the dominant emotions and their relationships. Finally, the conclusion presents the final expression label derived from the preceding analysis. Furthermore, we also introduce the Exp-CoT Engine, designed to construct this expression CoT and generate instruction-description data for training our ExpLLM. Extensive experiments on the RAF-DB and AffectNet datasets demonstrate that ExpLLM outperforms current state-of-the-art FER methods. ExpLLM also surpasses the latest GPT-4o in expression CoT generation, particularly in recognizing micro-expressions where GPT-4o frequently fails.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# CMM-Math:大規模マルチモーダルモデルの数学推論の評価と拡張を目的とした中国のマルチモーダル数学データセット

CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models ( http://arxiv.org/abs/2409.02834v1 )

ライセンス: Link先を確認
Wentao Liu, Qianjun Pan, Yi Zhang, Zhuo Liu, Ji Wu, Jie Zhou, Aimin Zhou, Qin Chen, Bo Jiang, Liang He, (参考訳) 大規模言語モデル(LLM)は、人間の知能の基礎となる数学的推論において有望な結果を得た。 従来の研究は、テキスト数学推論データセット(例えば、MATH、GSM8K)に基づくLLMの性能改善と測定に重点を置いていた。 最近、数人の研究者が大規模なマルチモーダルモデル(LMM)の有効性を評価するために、英語のマルチモーダル数学データセット(例えば、MATHVISTA、MATH-V)をリリースした。 本稿では,LMMの数学的推論を評価するために,ベンチマークやトレーニング部品を含む中国のマルチモーダル数学(CMM-Math)データセットをリリースする。 CMM-Mathには28,000以上の高品質なサンプルが含まれており、中国の小学校から高校まで、12段階の詳細なソリューションを備えた様々な問題タイプ(例えば、多重選択、ブランクの補充など)が特徴である。 特に、視覚的コンテキストは質問や意見の中に存在し、このデータセットをより困難にします。 包括的分析により、CMM-Mathデータセット上の最先端のLMMが課題に直面しており、LMM開発におけるさらなる改善の必要性を強調している。 また,複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。 基礎的な事前学習、基礎的な微調整、数学的微調整を含む3つの段階を用いてモデルを訓練する。 より広範な実験により,本モデルは3つのマルチモーダルな数学的データセット上でのSOTA LMMと比較することにより,数学推論性能を効果的に向上することが示された。

Large language models (LLMs) have obtained promising results in mathematical reasoning, which is a foundational skill for human intelligence. Most previous studies focus on improving and measuring the performance of LLMs based on textual math reasoning datasets (e.g., MATH, GSM8K). Recently, a few researchers have released English multimodal math datasets (e.g., MATHVISTA and MATH-V) to evaluate the effectiveness of large multimodal models (LMMs). In this paper, we release a Chinese multimodal math (CMM-Math) dataset, including benchmark and training parts, to evaluate and enhance the mathematical reasoning of LMMs. CMM-Math contains over 28,000 high-quality samples, featuring a variety of problem types (e.g., multiple-choice, fill-in-the-blank, and so on) with detailed solutions across 12 grade levels from elementary to high school in China. Specifically, the visual context may be present in the questions or opinions, which makes this dataset more challenging. Through comprehensive analysis, we discover that state-of-the-art LMMs on the CMM-Math dataset face challenges, emphasizing the necessity for further improvements in LMM development. We also propose a Multimodal Mathematical LMM (Math-LMM) to handle the problems with mixed input of multiple images and text segments. We train our model using three stages, including foundational pre-training, foundational fine-tuning, and mathematical fine-tuning. The extensive experiments indicate that our model effectively improves math reasoning performance by comparing it with the SOTA LMMs over three multimodal mathematical datasets.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 大規模言語モデルを用いたFew-Shot Learningによる暗号通貨討論における知覚ダイナミクスと予測行動の探索

Exploring Sentiment Dynamics and Predictive Behaviors in Cryptocurrency Discussions by Few-Shot Learning with Large Language Models ( http://arxiv.org/abs/2409.02836v1 )

ライセンス: Link先を確認
Moein Shahiki Tash, Zahra Ahani, Mohim Tash, Olga Kolesnikova, Grigori Sidorov, (参考訳) 本研究では,暗号通貨関連議論における予測文,希望音声,レグレト検出行動の分析を行い,高度な自然言語処理技術を活用する。 そこで我々は,「予測文」という新しい分類手法を導入し,コメントを予測的・予測的・予測的・予測的・予測的・予測的・非予測的カテゴリーに分類する。 最先端の大規模言語モデルであるGPT-4oを使って、Cardano、Binance、Matic、Fantom、Rippleという5つの著名な暗号通貨の感情ダイナミクスを探索する。 マティックは、楽観的な予測に対して顕著に高い正当性を示す。 さらに、これらの感情と予測行動の間のニュアンスな相互作用を明らかにすることによって、希望と後悔の感情を調査する。 データ量や資源の可利用性に限界があるにもかかわらず、暗号通貨市場における投資家の行動やセンチメントの傾向に関する貴重な発見を報告し、戦略的意思決定と今後の研究成果を報告した。

This study performs analysis of Predictive statements, Hope speech, and Regret Detection behaviors within cryptocurrency-related discussions, leveraging advanced natural language processing techniques. We introduce a novel classification scheme named "Prediction statements," categorizing comments into Predictive Incremental, Predictive Decremental, Predictive Neutral, or Non-Predictive categories. Employing GPT-4o, a cutting-edge large language model, we explore sentiment dynamics across five prominent cryptocurrencies: Cardano, Binance, Matic, Fantom, and Ripple. Our analysis reveals distinct patterns in predictive sentiments, with Matic demonstrating a notably higher propensity for optimistic predictions. Additionally, we investigate hope and regret sentiments, uncovering nuanced interplay between these emotions and predictive behaviors. Despite encountering limitations related to data volume and resource availability, our study reports valuable discoveries concerning investor behavior and sentiment trends within the cryptocurrency market, informing strategic decision-making and future research endeavors.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# iConFormer: 入出力適応による動的パラメータ効率チューニング

iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation ( http://arxiv.org/abs/2409.02838v1 )

ライセンス: Link先を確認
Hayeon Jo, Hyesong Choi, Minhee Cho, Dongbo Min, (参考訳) 事前訓練されたエンコーダとタスク固有のデコーダの完全な微調整(FFT)に基づく伝達学習は、ディープモデルが指数関数的に増加するにつれて、ますます複雑化する。 FFTの代替として、小さな学習可能な層からなるアダプタを用いたパラメータ効率の良い微細チューニング(PEFT)アプローチが登場し、高いトレーニング効率を維持しつつ、同等のパフォーマンスを実現している。 しかし、入力インスタンスに対するアダプタの柔軟性は、様々な下流タスクにおいてタスク固有の情報を学習する能力を制限している。 本稿では,入力インスタンスに条件付き動的アダプタを利用する新しいPEFT手法iConFormerを提案する。 下流タスクにおける入力インスタンスのフレキシブルな学習能力を確保すべく、インスタンスレベルの特徴変換を可能にする動的アダプタに入出力ネットワーク(iCoN)を導入する。 具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。 実験の結果、Transformerのバックボーンパラメータの1.6%から2.8%をチューニングすることで、モノクロ深度推定やセマンティックセグメンテーションにおいてFFTに匹敵する性能を達成し、画像分類やインスタンスセグメンテーションでは性能を向上した。 また,提案手法は,上述した全てのタスクに対して,最近のPEFT法よりも一貫して優れている。

Transfer learning based on full fine-tuning (FFT) of the pre-trained encoder and task-specific decoder becomes increasingly complex as deep models grow exponentially. Parameter efficient fine-tuning (PEFT) approaches using adapters consisting of small learnable layers have emerged as an alternative to FFT, achieving comparable performance while maintaining high training efficiency. However, the inflexibility of the adapter with respect to input instances limits its capability of learning task-specific information in diverse downstream tasks. In this paper, we propose a novel PEFT approach, input-Conditioned transFormer, termed iConFormer, that leverages a dynamic adapter conditioned on the input instances. To secure flexible learning ability on input instances in various downstream tasks, we introduce an input-Conditioned Network (iCoN) in the dynamic adapter that enables instance-level feature transformation. To be specific, iCoN generates channel-wise convolutional kernels for each feature and transform it using adaptive convolution process to effectively capture task-specific and fine-grained details tailor to downstream tasks. Experimental results demonstrate that by tuning just 1.6% to 2.8% of the Transformer backbone parameters, iConFormer achieves performance comparable to FFT in monocular depth estimation and semantic segmentation, while outperforming it in image classification and instance segmentation. Also, the proposed method consistently outperforms recent PEFT methods for all the tasks mentioned above.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# Jäger:電話コールのトレースバックを自動化

Jäger: Automated Telephone Call Traceback ( http://arxiv.org/abs/2409.02839v1 )

ライセンス: Link先を確認
David Adei, Varun Madathil, Sathvik Prasad, Bradley Reaves, Alessandra Scafuro, (参考訳) 詐欺や不正なテレマーケティングを促進する無言電話は、ネットワークユーザーやそれを告発する規制当局を圧倒し続けている。 電話乱用を訴追する最初のステップは、発信元を特定するトレースバックだ。 この基本的な調査作業には1回の呼び出しに何時間もの手作業が必要になります。 本稿では,分散セキュアコールトレースバックシステムであるJ\"agerを紹介する。 コールパーティのプライバシを暗号化的に保存し、ピアやコールボリュームなどのキャリアのトレードシークレットを保護し、バルク分析の脅威を制限する。 セキュアなトレースバックの定義と要件を確立し、証人暗号、不明瞭な擬似ランダム関数、グループシグネチャを使用して、これらの要件を満たす一連のプロトコルを開発します。 ユニバーサルコンポジビリティフレームワークにおいて,これらのプロトコルをセキュアに証明する。 次に、J\"agerは1コールあたりの計算コストと帯域幅コストが低く、これらのコストは呼び出し量とともに線形にスケールすることを示した。 J\"ager"は、オペレーターに最小限のコストで電話不正調査に革命をもたらす、効率的でセキュアでプライバシー保護システムを提供する。

Unsolicited telephone calls that facilitate fraud or unlawful telemarketing continue to overwhelm network users and the regulators who prosecute them. The first step in prosecuting phone abuse is traceback -- identifying the call originator. This fundamental investigative task currently requires hours of manual effort per call. In this paper, we introduce J\"ager, a distributed secure call traceback system. J\"ager can trace a call in a few seconds, even with partial deployment, while cryptographically preserving the privacy of call parties, carrier trade secrets like peers and call volume, and limiting the threat of bulk analysis. We establish definitions and requirements of secure traceback, then develop a suite of protocols that meet these requirements using witness encryption, oblivious pseudorandom functions, and group signatures. We prove these protocols secure in the universal composibility framework. We then demonstrate that J\"ager has low compute and bandwidth costs per call, and these costs scale linearly with call volume. J\"ager provides an efficient, secure, privacy-preserving system to revolutionize telephone abuse investigation with minimal costs to operators.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# R2GQA:高等教育における法規制の理解を支援するRetriever-Reader-Generator Question Answering System

R2GQA: Retriever-Reader-Generator Question Answering System to Support Students Understanding Legal Regulations in Higher Education ( http://arxiv.org/abs/2409.02840v1 )

ライセンス: Link先を確認
Phuc-Tinh Pham Do, Duy-Ngoc Dinh Cao, Khanh Quoc Tran, Kiet Van Nguyen, (参考訳) 本稿では,Retriever-Reader-Generator Question Answeringシステムとして,Document Retriever, Machine Reader, Answer Generatorの3つの主要コンポーネントからなるR2GQAシステムを提案する。 Retrieverモジュールは、高度な情報検索技術を使用して、法的規制文書のデータセットから記事のコンテキストを抽出する。 Machine Readerモジュールは、最先端の自然言語理解アルゴリズムを使用して、検索した文書を理解し、回答を抽出する。 最後に、ジェネレータモジュールは、抽出した回答を、法規制に関する学生の質問に対する簡潔で情報的な応答に合成する。 さらに,厳密な建設プロセスを伴う9,758組の質問応答対を含む,大学研修規則の領域にViRHE4QAデータセットを構築した。 これは、高い規制領域におけるベトナム初のデータセットであり、様々な種類の回答があり、抽出的かつ抽象的である。 加えて、R2GQAシステムはベトナム語で抽象的な答えを提供する最初のシステムである。 本稿では,VRHE4QAデータセット上のR2GQAシステム内の各モジュールの設計と実装について述べる。 さらに,高等教育環境における法規制の学生の理解を支援する上で,提案システムの有効性と有用性を示す実験結果を示す。 一般に、R2GQAシステムとViRHE4QAデータセットは、関連する研究に多大な貢献を約束し、学生が複雑な法的文書や規則をナビゲートし、情報的な決定をし、制度的な政策を効果的に遵守する権限を与える。 私たちのデータセットは研究目的で利用可能です。

In this article, we propose the R2GQA system, a Retriever-Reader-Generator Question Answering system, consisting of three main components: Document Retriever, Machine Reader, and Answer Generator. The Retriever module employs advanced information retrieval techniques to extract the context of articles from a dataset of legal regulation documents. The Machine Reader module utilizes state-of-the-art natural language understanding algorithms to comprehend the retrieved documents and extract answers. Finally, the Generator module synthesizes the extracted answers into concise and informative responses to questions of students regarding legal regulations. Furthermore, we built the ViRHE4QA dataset in the domain of university training regulations, comprising 9,758 question-answer pairs with a rigorous construction process. This is the first Vietnamese dataset in the higher regulations domain with various types of answers, both extractive and abstractive. In addition, the R2GQA system is the first system to offer abstractive answers in Vietnamese. This paper discusses the design and implementation of each module within the R2GQA system on the ViRHE4QA dataset, highlighting their functionalities and interactions. Furthermore, we present experimental results demonstrating the effectiveness and utility of the proposed system in supporting the comprehension of students of legal regulations in higher education settings. In general, the R2GQA system and the ViRHE4QA dataset promise to contribute significantly to related research and help students navigate complex legal documents and regulations, empowering them to make informed decisions and adhere to institutional policies effectively. Our dataset is available for research purposes.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 型とトークンに基づく言語モデリングを用いた歴史的ドイツ語テキスト正規化

Historical German Text Normalization Using Type- and Token-Based Language Modeling ( http://arxiv.org/abs/2409.02841v1 )

ライセンス: Link先を確認
Anton Ehrmanntraut, (参考訳) 綴りの歴史的バリエーションは、歴史デジタル化されたテキストのフルテキスト検索や自然言語処理の課題となっている。 歴史的正書法と現代綴りとのギャップを最小化するため、通常、史料の自動正書法正規化が追求される。 本報告では, ドイツ語文の正規化システムを提案する。 1700-1900 - パラレルコーパスで訓練。 提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。 広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。 しかし、モデルが一般化するのは難しいことや、高度な並列データがないことなどから、歴史的テキストの正規化は依然として課題である。

Historic variations of spelling poses a challenge for full-text search or natural language processing on historical digitized texts. To minimize the gap between the historic orthography and contemporary spelling, usually an automatic orthographic normalization of the historical source material is pursued. This report proposes a normalization system for German literary texts from c. 1700-1900, trained on a parallel corpus. The proposed system makes use of a machine learning approach using Transformer language models, combining an encoder-decoder model to normalize individual word types, and a pre-trained causal language model to adjust these normalizations within their context. An extensive evaluation shows that the proposed system provides state-of-the-art accuracy, comparable with a much larger fully end-to-end sentence-based normalization system, fine-tuning a pre-trained Transformer large language model. However, the normalization of historical text remains a challenge due to difficulties for models to generalize, and the lack of extensive high-quality parallel data.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# SNNAX -- JAXでニューラルネットワークをスパイする

SNNAX -- Spiking Neural Networks in JAX ( http://arxiv.org/abs/2409.02842v1 )

ライセンス: Link先を確認
Jamie Lohoff, Jan Finkbeiner, Emre Neftci, (参考訳) スパイキングニューラルネットワーク(SNN)シミュレータは、生物学的にインスパイアされたモデルとニューロモルフィックなハードウェアアーキテクチャをプロトタイプ化し、その性能を予測するために必須のツールである。 このようなツールにとって、使いやすさと柔軟性は重要だが、SNNのシミュレーションに固有の複雑さを考えると、シミュレーションのスピードも重要だ。 本稿では、PyTorchのような直感性とJAXライクな実行速度でモデルをシミュレートし、訓練するためのJAXベースのフレームワークであるSNNAXについて述べる。 SNNAXモデルは、望まれるモデル仕様とターゲットニューロモルフィックハードウェアに適合するように、容易に拡張およびカスタマイズできる。 さらにSNNAXは、フレキシブル自動微分やジャストインタイムコンパイルなど、SNNのトレーニングとデプロイを最適化するための重要な機能を提供する。 我々はSNNAXをSNNのプログラミングに使用される他の機械学習(ML)フレームワークと比較した。 SNNAXでSNNをシミュレートするための重要なパフォーマンス指標、ベストプラクティス、文書化された例を提供し、文献で使用されるいくつかのベンチマークを実装します。

Spiking Neural Networks (SNNs) simulators are essential tools to prototype biologically inspired models and neuromorphic hardware architectures and predict their performance. For such a tool, ease of use and flexibility are critical, but so is simulation speed especially given the complexity inherent to simulating SNN. Here, we present SNNAX, a JAX-based framework for simulating and training such models with PyTorch-like intuitiveness and JAX-like execution speed. SNNAX models are easily extended and customized to fit the desired model specifications and target neuromorphic hardware. Additionally, SNNAX offers key features for optimizing the training and deployment of SNNs such as flexible automatic differentiation and just-in-time compilation. We evaluate and compare SNNAX to other commonly used machine learning (ML) frameworks used for programming SNNs. We provide key performance metrics, best practices, documented examples for simulating SNNs in SNNAX, and implement several benchmarks used in the literature.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# MaDis-Stereo: 蒸留マスク画像モデリングによるステレオマッチングの強化

MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling ( http://arxiv.org/abs/2409.02846v1 )

ライセンス: Link先を確認
Jihye Ahn, Hyesong Choi, Soomin Kim, Dongbo Min, (参考訳) ステレオマッチングでは、CNNは伝統的に支配的なアーキテクチャとして機能してきた。 トランスフォーマーベースのステレオモデルは近年研究されているが、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。 本稿では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。 ランダムにマスクしたステレオ画像を入力として、画像再構成と深度予測の両方を行おうとする。 この戦略は、データ不足の問題を解決するのに有用であるが、マスク付きトークンを再構築し、ステレオマッチングを実行するという2つの課題は、特にトレーニングの安定性において重要な課題となっている。 そこで我々は,教師の予測が疑似監督信号として機能し,学生モデルに知識を効果的に取り入れることのできる補助的ネットワーク(教師)と,本来のステレオモデル(学生)を併用することを提案する。 ETH3D や KITTI 2015 など,いくつかのステレオマッチング手法を用いて最先端性能を実現する。 さらに,本モデルが局所性帰納バイアスを効果的に活用することを示すため,注意距離の測定を行った。

In stereo matching, CNNs have traditionally served as the predominant architectures. Although Transformer-based stereo models have been studied recently, their performance still lags behind CNN-based stereo models due to the inherent data scarcity issue in the stereo matching task. In this paper, we propose Masked Image Modeling Distilled Stereo matching model, termed MaDis-Stereo, that enhances locality inductive bias by leveraging Masked Image Modeling (MIM) in training Transformer-based stereo model. Given randomly masked stereo images as inputs, our method attempts to conduct both image reconstruction and depth prediction tasks. While this strategy is beneficial to resolving the data scarcity issue, the dual challenge of reconstructing masked tokens and subsequently performing stereo matching poses significant challenges, particularly in terms of training stability. To address this, we propose to use an auxiliary network (teacher), updated via Exponential Moving Average (EMA), along with the original stereo model (student), where teacher predictions serve as pseudo supervisory signals to effectively distill knowledge into the student model. State-of-the-arts performance is achieved with the proposed method on several stereo matching such as ETH3D and KITTI 2015. Additionally, to demonstrate that our model effectively leverages locality inductive bias, we provide the attention distance measurement.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 異なるn-タプル離散時間結晶間の相転移からのサブスペース-熱的離散時間結晶

Subspace-thermal discrete time crystals from phase transitions between different n-tuple discrete time crystals ( http://arxiv.org/abs/2409.02848v1 )

ライセンス: Link先を確認
Hongye Yu, Tzu-Chieh Wei, (参考訳) 駆動周期の任意の倍数に対応する新しいフロケット時間結晶モデルを提案する。 このようなn-タプル離散時間結晶は、乱れた鎖にスピンを置換することによって理論的に構築され、実験的な実装に適している。 これらの周期の異なる時間結晶間の遷移は、サブスペース-熱的離散時間結晶と呼ばれる新しい物質相を生じさせ、サブスペース内の状態は早い段階で完全に熱化される。 しかし、システム全体が依然として周期的な運転の低調波に強く反応し、この期間は元々の2つの期間の最大公約数である。 既成の多体局在理論解析では、そのような部分空間-熱的時間結晶相の剛性は理解できない。 これを解決するために、ロバストな$2\pi/n$準エネルギーギャップの観点から新しい理論的枠組みを開発する。 その堅牢性は、有理予想の下で、ユニタリ作用素に対する新しい摂動理論によって解析的に証明される。 この証明は、混乱したシステムを蹴り上げることによって実現された他の既存の離散時間結晶のモデルを超えて適用され、新しい離散時間結晶モデルを構築する体系的な方法を提供する。 また、DTCチャージの概念を導入し、通常の離散時間結晶とサブスペース-熱的離散時間結晶の両方において、自発的に時間-翻訳対称性を破る観測可能なものを探索する。 さらに、我々の離散時間結晶モデルは、より高次元のスピン等級やクアディットに一般化することができる。

We propose a new Floquet time crystal model that responds in arbitrary multiples of the driving period. Such an n-tuple discrete time crystal is theoretically constructed by permuting spins in a disordered chain and is well suited for experiment implementations. Transitions between these time crystals with different periods give rise to a novel phase of matter that we call subspace-thermal discrete time crystals, where states within subspaces are fully thermalized at an early time. However, the whole system still robustly responds to the periodic driving subharmonically, with a period being the greatest common divisor of the original two periods. Existing theoretical analysis from many-body localization fails to understand the rigidity of such subspace-thermal time crystal phases. To resolve this, we develop a new theoretical framework from the perspective of the robust $2\pi/n$ quasi-energy gap. Its robustness is analytically proved, under a reasonable conjecture, by a new perturbation theory for unitary operators. The proof applies beyond the models considered here to other existing discrete time crystals realized by kicking disordered systems, thus offering a systematic way to construct new discrete time crystal models. We also introduce the notion of DTC-charges that allow us to probe the observables that spontaneously break the time-translation symmetry in both the regular discrete time crystals and subspace-thermal discrete time crystals. Moreover, our discrete time crystal models can be generalized to higher spin magnitudes or qudits, as well as higher spatial dimensions.
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# Oops, I Sammpled it: Reprepreting Confidence Intervals in Few-Shot Learning

Oops, I Sampled it Again: Reinterpreting Confidence Intervals in Few-Shot Learning ( http://arxiv.org/abs/2409.02850v1 )

ライセンス: Link先を確認
Raphael Lafargue, Luke Smith, Franck Vermet, Mathias Löwe, Ian Reid, Vincent Gripon, Jack Valmadre, (参考訳) 少数ショット学習(FSL)における信頼区間(CI)を計算する主要な方法は、複数のタスクに同じサンプルが現れるように置換されたタスクをサンプリングすることに基づいている。 これにより、CIはサンプルのランダムさを考慮し、データ自体を考慮しない、という誤解を招くことになる。 この問題の程度を定量化するために、我々は置換なしで計算されたCIの比較分析を行う。 これらは支配的な方法による顕著な過小評価を示している。 この観察は、FSL比較研究における信頼区間の解釈方法と結果の結論の再評価を要求する。 私たちの研究は、ペアテストを使用することで、この問題に部分的に対処できることを示しています。 さらに、特定のサイズのタスクを戦略的にサンプリングすることで、CI(サイズ)をさらに削減する方法についても検討する。 また、新しい最適化ベンチマークを導入し、https://github.com/RafLaf/FSL-benchmark-againでアクセスすることができる。

The predominant method for computing confidence intervals (CI) in few-shot learning (FSL) is based on sampling the tasks with replacement, i.e.\ allowing the same samples to appear in multiple tasks. This makes the CI misleading in that it takes into account the randomness of the sampler but not the data itself. To quantify the extent of this problem, we conduct a comparative analysis between CIs computed with and without replacement. These reveal a notable underestimation by the predominant method. This observation calls for a reevaluation of how we interpret confidence intervals and the resulting conclusions in FSL comparative studies. Our research demonstrates that the use of paired tests can partially address this issue. Additionally, we explore methods to further reduce the (size of the) CI by strategically sampling tasks of a specific size. We also introduce a new optimized benchmark, which can be accessed at https://github.com/RafLaf/FSL-benchmark-again
翻訳日:2024-09-05 17:11:35 公開日:2024-09-04
# 人間-VDM:ビデオ拡散モデルによる1次元人間のガウススプレイティングの学習

Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models ( http://arxiv.org/abs/2409.02851v1 )

ライセンス: Link先を確認
Zhibin Liu, Haoye Dong, Aviral Chharia, Hefeng Wu, (参考訳) 1枚のRGB画像から生命のような3D人間を生成することは、幾何学、高品質なテクスチャ、そして可視性のない部品の正確なモデリングを必要とするため、コンピュータビジョンにおいて難しい課題である。 既存の方法は、通常3D生成に多視点拡散モデルを使用するが、しばしば不整合なビュー問題に直面し、高品質な3D生成を妨げている。 そこで我々は,ビデオ拡散モデルを用いて,単一のRGB画像から3次元人間を生成する新しい手法であるHuman-VDMを提案する。 人間-VDMはガウススプラッティングを用いた3次元人間生成のための時間的一貫したビューを提供する。 ビュー一貫性のある人間のビデオ拡散モジュール、ビデオ拡張モジュール、ガウススプラッティングモジュールの3つのモジュールで構成されている。 まず、人間のビデオ拡散モジュールに1枚の画像を送り込み、一貫性のある人間のビデオを生成する。 次に、ビデオ拡張モジュールは、生成したビデオのテクスチャと幾何学的滑らかさを高めるために、超解像およびビデオ補間を適用する。 最後に、3D Human Gaussian Splattingモジュールは、高解像度で視界に一貫性のある画像のガイダンスにより、生物のような人間を学習する。 実験により,人間のVDMは1つの画像から高品質な3D人間を達成し,生成品質と量の両方において最先端の手法より優れていることが示された。 プロジェクトページ: https://human-vdm.github.io/Human-VDM/

Generating lifelike 3D humans from a single RGB image remains a challenging task in computer vision, as it requires accurate modeling of geometry, high-quality texture, and plausible unseen parts. Existing methods typically use multi-view diffusion models for 3D generation, but they often face inconsistent view issues, which hinder high-quality 3D human generation. To address this, we propose Human-VDM, a novel method for generating 3D human from a single RGB image using Video Diffusion Models. Human-VDM provides temporally consistent views for 3D human generation using Gaussian Splatting. It consists of three modules: a view-consistent human video diffusion module, a video augmentation module, and a Gaussian Splatting module. First, a single image is fed into a human video diffusion module to generate a coherent human video. Next, the video augmentation module applies super-resolution and video interpolation to enhance the textures and geometric smoothness of the generated video. Finally, the 3D Human Gaussian Splatting module learns lifelike humans under the guidance of these high-resolution and view-consistent images. Experiments demonstrate that Human-VDM achieves high-quality 3D human from a single image, outperforming state-of-the-art methods in both generation quality and quantity. Project page: https://human-vdm.github.io/Human-VDM/
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 電子の真空放射圧変動

Vacuum Radiation Pressure Fluctuations on Electrons ( http://arxiv.org/abs/2409.02855v1 )

ライセンス: Link先を確認
L. H. Ford, (参考訳) 本論文は、量子応力テンソル揺らぎの性質と応用に関する研究の継続である。 ここでは、空間と時間で平均された電磁エネルギー-運動量フラックス作用素の真空揺らぎを扱う。 これらのゆらぎの確率分布は、この平均値の詳細に依存し、ばらつきと比較して非常に大きなゆらぎを許容する。 電子への影響を検出する可能性は考慮される。 真空放射圧変動は、実際の光子による散乱の影響とは対照的に、電子に任意の方向に力を与えることができる。 いくつかの数値的な効果が与えられる。

This paper is a continuation of a study of the properties and applications of quantum stress tensor fluctuations. Here we treat the vacuum fluctuations of the electromagnetic energy-momentum flux operator which as been averaged in space and time. The probability distribution of these fluctuations depends upon the details of this averaging and may allow fluctuations very large compared to the variance. The possibility of detecting their effects on electrons will be considered. The averaging of the flux operator will arise from the interaction of an electron with a wave packet containing real photons, The vacuum radiation pressure fluctuations can exert a force on the electron in any direction, in contrast to the effect of scattering by real photons. Some numerical estimates of the effect will be given.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# スケーラブルで効果的でステアブルな検索とランキングプラットフォームの構築

Building a Scalable, Effective, and Steerable Search and Ranking Platform ( http://arxiv.org/abs/2409.02856v1 )

ライセンス: Link先を確認
Marjan Celikik, Jacek Wasilewski, Ana Peleteiro Ramallo, Alexey Kurennoy, Evgeny Labzin, Danilo Ascione, Tural Gurbanov, Géraud Le Falher, Andrii Dzhoha, Ian Harris, (参考訳) 現代のeコマースプラットフォームは、膨大な製品選択を提供しており、顧客が自分の好きなアイテムを見つけることが難しく、現在のセッションの意図に関係している。 これが、eコマースプラットフォームが、ほぼリアルタイムでスケーラブルで適応可能なパーソナライズされたランキングと検索システムを持つための鍵となる理由である。 このようなシステムを構築するための科学的文献には多くの方法が存在するが、複雑さと性能の制限のため、大規模産業用途には適さないものが多い。 結果として、産業のランキングシステムは、計算的に効率的で単純化された検索や候補生成のアプローチに頼り、リアルタイムや異質な顧客信号に近づき、パーソナライズされ、関連するエクスペリエンスが低下する。 さらに、関連する顧客エクスペリエンスは、複雑さ、メンテナンス、一貫性のないエクスペリエンスを増大させる、まったく異なるシステムによって提供されます。 本稿では、ブラウジングや検索などさまざまなユースケースで再利用可能な、パーソナライズされた、適応可能な、リアルタイムに近いランキングプラットフォームを提案する。 我々は、顧客行動シーケンスから直接複雑な行動パターンを学習し、時間的(例えば、セッション内)と文脈的情報を組み込むことができる、トランスフォーマーベースのモデルを異なるランキング層を通じて採用する。 我々は、大規模なオンラインeコマースプラットフォームにおいて、オフラインおよびオンライン実世界の一連の総合的な実験を通じてシステムを検証するとともに、顧客エクスペリエンスと純収益の両方の観点から、既存のシステムと比較して、その優位性を実証する。 最後に、大規模なeコマース環境において、包括的で近代的なランキングプラットフォームの構築から学んだ教訓を共有します。

Modern e-commerce platforms offer vast product selections, making it difficult for customers to find items that they like and that are relevant to their current session intent. This is why it is key for e-commerce platforms to have near real-time scalable and adaptable personalized ranking and search systems. While numerous methods exist in the scientific literature for building such systems, many are unsuitable for large-scale industrial use due to complexity and performance limitations. Consequently, industrial ranking systems often resort to computationally efficient yet simplistic retrieval or candidate generation approaches, which overlook near real-time and heterogeneous customer signals, which results in a less personalized and relevant experience. Moreover, related customer experiences are served by completely different systems, which increases complexity, maintenance, and inconsistent experiences. In this paper, we present a personalized, adaptable near real-time ranking platform that is reusable across various use cases, such as browsing and search, and that is able to cater to millions of items and customers under heavy load (thousands of requests per second). We employ transformer-based models through different ranking layers which can learn complex behavior patterns directly from customer action sequences while being able to incorporate temporal (e.g. in-session) and contextual information. We validate our system through a series of comprehensive offline and online real-world experiments at a large online e-commerce platform, and we demonstrate its superiority when compared to existing systems, both in terms of customer experience as well as in net revenue. Finally, we share the lessons learned from building a comprehensive, modern ranking platform for use in a large-scale e-commerce environment.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 物理的に制約された量子時計駆動力学

Physically constrained quantum clock-driven dynamics ( http://arxiv.org/abs/2409.02857v1 )

ライセンス: Link先を確認
Dario Cilluffo, Lea Lautenbacher, Giovanni Spaventa, Susana F. Huelga, Martin B. Plenio, (参考訳) サーマルマシン(英: thermal machine)とは、サイクリックプロセスにおける状態変換を通じて、熱エネルギーを実用化するために設計された物理システムである。 この概念は、時計を備えた追加の元素の存在に依存しており、システムと貯水池の間のハミルトニアン相互作用は一定の時間で作用し、この過程の間は影響を受けない。 量子力学の領域では、理想的かつ非現実的な場合を除いて、この最終条件を満たすことは不可能であることを示す重要な証拠がある。 本研究では、そのような理想化された条件から始めて、モデルをより現実的でより理想的でないものにするために、一次近似を緩和する。 主な結果は、現実的な量子フレームワーク内でのエンジンクロックのダイナミクスの完全な量子記述である。 さらに、このアプローチは、異なる視点から量子力学の領域において意味のある時間演算子を定義するという、より深く、より根本的な課題に対処することを可能にする。

Thermal machines are physical systems specifically designed to make thermal energy available for practical use through state transformations in a cyclic process. This concept relies on the presence of an additional element equipped with a clock, controlling which interaction Hamiltonian between the system and the reservoirs must act at a certain time and that remains unaffected during this process. In the domain of quantum dynamics, there is substantial evidence to suggest that fulfilling this final condition is, in fact, impossible, except in ideal and far-from-reality cases. In this study we start from one such idealized condition and proceed to relax the primary approximations to make the model more realistic and less ideal. The main result is a fully quantum description of the engine-clock dynamics within a realistic quantum framework. Furthermore, this approach offers the possibility to address the deeper and more fundamental challenge of defining meaningful time operators in the realm of quantum mechanics from a different standpoint.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# CONClave -- 認証コンセンサスと信頼スコアを用いたCAVの安全かつロバストな協調認識

CONClave -- Secure and Robust Cooperative Perception for CAVs Using Authenticated Consensus and Trust Scoring ( http://arxiv.org/abs/2409.02863v1 )

ライセンス: Link先を確認
Edward Andert, Francis Mendoza, Hans Walter Behrens, Aviral Shrivastava, (参考訳) 連結自動運転車は、特に車両間で知覚データが共有される協調的なアプリケーションにおいて、自動車の安全と交通の流れを改善する大きな可能性を秘めている。 しかし、この協力は悪意のある意図や、事故を引き起こす可能性のある意図しない誤りから守らなければならない。 従来の研究は、一組のエラーではなく、特定のシナリオにおける協調運転における特異なセキュリティや信頼性の問題に対処していた。 本稿では,自律走行車における協調認識のための包括的セキュリティと信頼性を提供する,密結合型認証・コンセンサス・信頼スコアリング機構であるConClaveを提案する。 CONClaveはパイプライン化されたステップの性質から恩恵を受け、フォールトをはるかに高速かつ少ない計算で検出できる。 全体として、ConClaveはセキュリティ欠陥の防止、比較的小さな検知障害の検出、CAVにおける協調認識の堅牢性と正確性の向上、そしてオーバーヘッドの最小化に大きく貢献している。

Connected Autonomous Vehicles have great potential to improve automobile safety and traffic flow, especially in cooperative applications where perception data is shared between vehicles. However, this cooperation must be secured from malicious intent and unintentional errors that could cause accidents. Previous works typically address singular security or reliability issues for cooperative driving in specific scenarios rather than the set of errors together. In this paper, we propose CONClave, a tightly coupled authentication, consensus, and trust scoring mechanism that provides comprehensive security and reliability for cooperative perception in autonomous vehicles. CONClave benefits from the pipelined nature of the steps such that faults can be detected significantly faster and with less compute. Overall, CONClave shows huge promise in preventing security flaws, detecting even relatively minor sensing faults, and increasing the robustness and accuracy of cooperative perception in CAVs while adding minimal overhead.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# Bioinformatics Retrieval Augmentation Data (BRAD) Digital Assistant

Bioinformatics Retrieval Augmentation Data (BRAD) Digital Assistant ( http://arxiv.org/abs/2409.02864v1 )

ライセンス: Link先を確認
Joshua Pickard, Marc Andrew Choi, Natalie Oliven, Cooper Stansbury, Jillian Cwycyshyn, Nicholas Galioto, Alex Gorodetsky, Alvaro Velasquez, Indika Rajapakse, (参考訳) 本稿では,バイオインフォマティクス検索データ(BRAD)デジタルアシスタントのプロトタイプについて述べる。 BRADは、コード実行からオンライン検索まで、幅広いバイオインフォマティクスタスクを扱うための一連のツールを統合する。 我々は,(1)検索拡張生成(RAG)による質問・回答の改善,(2)複雑なソフトウェアパイプラインを運用・作成するBRADの能力,(3)個々のエージェントやチーム間でタスクを整理・配布するBRADの能力を示す。 バイオインフォマティクスワークフローの自動化、遺伝子富化、アーカイブ検索、自動コード生成、バイオマーカー識別パイプラインの実行といったタスクにBRADを使用します。 BRADは、デジタル生物学実験の仮説生成とテストのための自己完結ループによって駆動される実験室のデジタルツインを開発するという究極の目標に向かっている。

We present a prototype for a Bioinformatics Retrieval Augmentation Data (BRAD) digital assistant. BRAD integrates a suite of tools to handle a wide range of bioinformatics tasks, from code execution to online search. We demonstrate BRAD's capabilities through (1) improved question-and-answering with retrieval augmented generation (RAG), (2) BRAD's ability to run and write complex software pipelines, and (3) BRAD's ability to organize and distribute tasks across individual and teams of agents. We use BRAD for automation of bioinformatics workflows, performing tasks ranging from gene enrichment and searching the archive to automatic code generation and running biomarker identification pipelines. BRAD is a step toward the ultimate goal to develop a digital twin of laboratories driven by self-contained loops for hypothesis generation and testing of digital biology experiments.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# ハイブリッドセグメンタ:土木インフラにおける微細き裂の自動分離へのハイブリッドアプローチ

Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure ( http://arxiv.org/abs/2409.02866v1 )

ライセンス: Link先を確認
June Moh Goo, Xenios Milidonis, Alessandro Artusi, Jan Boehm, Carlo Ciliberto, (参考訳) 道路や建物などのインフラの亀裂の検出と分断は、安全と費用対効果の維持に不可欠である。 ディープラーニングの可能性にもかかわらず、正確な結果の達成と多様なクラックタイプの処理には課題がある。 提案するデータセットとモデルにより, ひび割れ検出とインフラ整備の強化を図る。 エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。 これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。 モデルの一般化能力を高く保ちながら,実用目的の計算性能を低く抑えるため,デコーダコンポーネントの複雑さを低減しつつ,エンコーダレベルで自己注意モデルを組み込む。 提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。

Detecting and segmenting cracks in infrastructure, such as roads and buildings, is crucial for safety and cost-effective maintenance. In spite of the potential of deep learning, there are challenges in achieving precise results and handling diverse crack types. With the proposed dataset and model, we aim to enhance crack detection and infrastructure maintenance. We introduce Hybrid-Segmentor, an encoder-decoder based approach that is capable of extracting both fine-grained local and global crack features. This allows the model to improve its generalization capabilities in distinguish various type of shapes, surfaces and sizes of cracks. To keep the computational performances low for practical purposes, while maintaining the high the generalization capabilities of the model, we incorporate a self-attention model at the encoder level, while reducing the complexity of the decoder component. The proposed model outperforms existing benchmark models across 5 quantitative metrics (accuracy 0.971, precision 0.804, recall 0.744, F1-score 0.770, and IoU score 0.630), achieving state-of-the-art status.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 実データと合成データのバランスが顔認識の精度と公正性に及ぼす影響

The Impact of Balancing Real and Synthetic Data on Accuracy and Fairness in Face Recognition ( http://arxiv.org/abs/2409.02867v1 )

ライセンス: Link先を確認
Andrea Atzori, Pietro Cosseddu, Gianni Fenu, Mirko Marras, (参考訳) 近年では、顔認識の進歩により、大規模で多様なデータセットの需要が高まっている。 それでも、これらのデータセットを作成するために取得された真正なデータは、通常、Webから取得される。 さらに、人口統計学的にバランスのとれた大規模なデータセットを得ることは、異なる人口統計学的グループからの画像の分布が自然に不均衡であるために、さらに困難である。 本稿では,人口統計学的にバランスのとれた認証データと合成データとが,顔認識モデルの精度と公正性に与える影響について検討する。 当初は、対応する合成データセットの人口分布のバランスをとるために、いくつかの生成手法が用いられた。 そして、合成画像と認証画像を組み合わせて、最先端のフェイスエンコーダを訓練し、評価した。 以上の結果から,2つの重要な点が示唆された。 一 拡散モデルにより生成された訓練データによる、単独で使用するか、又は認証データのサブセットと組み合わせた場合の精度向上効果の増大 (II) 事前学習した生成手法から得られたバランスの取れたデータをフェアネスに組み込むことによる最小限の影響(組合せデータセットを用いたほぼ全てのテストシナリオにおいて、フェアネススコアは、バランスの取れていないデータセットと比較しても、変化または悪化したままであった)。 ソースコードとデータは再現性のために \url{https://cutt.ly/AeQy1K5G} で入手できる。

Over the recent years, the advancements in deep face recognition have fueled an increasing demand for large and diverse datasets. Nevertheless, the authentic data acquired to create those datasets is typically sourced from the web, which, in many cases, can lead to significant privacy issues due to the lack of explicit user consent. Furthermore, obtaining a demographically balanced, large dataset is even more difficult because of the natural imbalance in the distribution of images from different demographic groups. In this paper, we investigate the impact of demographically balanced authentic and synthetic data, both individually and in combination, on the accuracy and fairness of face recognition models. Initially, several generative methods were used to balance the demographic representations of the corresponding synthetic datasets. Then a state-of-the-art face encoder was trained and evaluated using (combinations of) synthetic and authentic images. Our findings emphasized two main points: (i) the increased effectiveness of training data generated by diffusion-based models in enhancing accuracy, whether used alone or combined with subsets of authentic data, and (ii) the minimal impact of incorporating balanced data from pre-trained generative methods on fairness (in nearly all tested scenarios using combined datasets, fairness scores remained either unchanged or worsened, even when compared to unbalanced authentic datasets). Source code and data are available at \url{https://cutt.ly/AeQy1K5G} for reproducibility.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 時系列分類のための深層学習におけるLITE

Look Into the LITE in Deep Learning for Time Series Classification ( http://arxiv.org/abs/2409.02869v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Maxime Devanne, Stefano Berretti, Jonathan Weber, Germain Forestier, (参考訳) ディープラーニングモデルは、時系列分類(TSC)の強力なソリューションであることが示されている。 最先端アーキテクチャは、UCRとUEAアーカイブで有望な結果をもたらす一方で、多くのトレーニング可能なパラメータを提示する。 これはCO2排出量の増大、消費電力の増加、FLOPS(Floating-point Operation Per Second)の増大につながる可能性がある。 本稿では,最新のインセプションタイムモデルのパラメータの2.34%しか持たず,性能を保ちながら,TECの新しいアーキテクチャ,boosTing tEchnique (LITE) を提案する。 このアーキテクチャは、DWSC(DepthWise Separable Convolutions)の使用により、わずか9,814のトレーニング可能なパラメータを持つだけで、多重化、カスタムフィルタ、拡張畳み込みという3つのテクニックによって強化されている。 UCRでトレーニングされたLITEアーキテクチャは、InceptionTimeの2.78倍高速で、CO2と電力の2.79倍消費する。 多変量時系列データに対して提案したアーキテクチャの性能を評価するため,多変量時系列処理にLITEを適用し,このバージョンをLITEMVと呼ぶ。 また,人間のリハビリテーション運動を表す多変量時系列のLITEMVを用いた実験を行った結果,LITEMVは最も効率的なモデルであるだけでなく,骨格に基づくリハビリテーション訓練データセットであるKimoreデータセット上でも最も効果的であることがわかった。 さらに, LITEMVの解釈可能性に対処するため, 評価中のモデルによる分類決定を理解するために, Class Activation Mapsを用いた検討を行った。

Deep learning models have been shown to be a powerful solution for Time Series Classification (TSC). State-of-the-art architectures, while producing promising results on the UCR and the UEA archives , present a high number of trainable parameters. This can lead to long training with high CO2 emission, power consumption and possible increase in the number of FLoating-point Operation Per Second (FLOPS). In this paper, we present a new architecture for TSC, the Light Inception with boosTing tEchnique (LITE) with only 2.34% of the number of parameters of the state-of-the-art InceptionTime model, while preserving performance. This architecture, with only 9, 814 trainable parameters due to the usage of DepthWise Separable Convolutions (DWSC), is boosted by three techniques: multiplexing, custom filters, and dilated convolution. The LITE architecture, trained on the UCR, is 2.78 times faster than InceptionTime and consumes 2.79 times less CO2 and power. To evaluate the performance of the proposed architecture on multivariate time series data, we adapt LITE to handle multivariate time series, we call this version LITEMV. To bring theory into application, we also conducted experiments using LITEMV on multivariate time series representing human rehabilitation movements, showing that LITEMV not only is the most efficient model but also the best performing for this application on the Kimore dataset, a skeleton based human rehabilitation exercises dataset. Moreover, to address the interpretability of LITEMV, we present a study using Class Activation Maps to understand the classification decision taken by the model during evaluation.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 都市運転のためのハイブリッド模擬学習型運動プランナ

Hybrid Imitation-Learning Motion Planner for Urban Driving ( http://arxiv.org/abs/2409.02871v1 )

ライセンス: Link先を確認
Cristian Gariboldi, Matteo Corno, Beng Jin, (参考訳) nuPlanやArgoverseといったオープンソースのデータセットのリリースによって、学習ベースのプランナに関する調査は、ここ数年で大きく広がりました。 既存のシステムは、人間の運転行動を模倣する優れた能力を示しているが、安全なクローズドループ運転を保証するのに苦労している。 逆に、最適化ベースのプランナは、短期的な計画シナリオにおいてよりセキュリティを提供する。 本稿では,この課題に対処するために,学習ベースと最適化ベースを融合したハイブリッドモーションプランナを提案する。 当初、多層パーセプトロン(MLP)はヒトのような軌道を生成し、最適化ベースのコンポーネントによって洗練される。 このコンポーネントは、トラッキングエラーを最小限に抑えるだけでなく、運動的に実現可能で障害物や道路境界との衝突のない軌道も計算する。 我々のモデルは、これらの目的に固有のトレードオフを緩和し、安全性と人間の類似性を効果的にバランスさせます。 シミュレーション実験により本手法を検証し,現実の自動運転車に導入することで,その有効性を更に実証する。

With the release of open source datasets such as nuPlan and Argoverse, the research around learning-based planners has spread a lot in the last years. Existing systems have shown excellent capabilities in imitating the human driver behaviour, but they struggle to guarantee safe closed-loop driving. Conversely, optimization-based planners offer greater security in short-term planning scenarios. To confront this challenge, in this paper we propose a novel hybrid motion planner that integrates both learning-based and optimization-based techniques. Initially, a multilayer perceptron (MLP) generates a human-like trajectory, which is then refined by an optimization-based component. This component not only minimizes tracking errors but also computes a trajectory that is both kinematically feasible and collision-free with obstacles and road boundaries. Our model effectively balances safety and human-likeness, mitigating the trade-off inherent in these objectives. We validate our approach through simulation experiments and further demonstrate its efficacy by deploying it in real-world self-driving vehicles.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# 構成可能なファンデーションモデル: モジュールの観点からLLMを構築する

Configurable Foundation Models: Building LLMs from a Modular Perspective ( http://arxiv.org/abs/2409.02877v1 )

ライセンス: Link先を確認
Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun, (参考訳) LLMの進歩は、計算効率と、巨大なパラメータの要求による継続的なスケーラビリティに関連する課題を最近明らかにした。 人間の脳内のモジュラリティに触発され、LSMを多数の機能モジュールに分解する傾向が強まり、モジュールの一部とモジュールの動的アセンブリーが、エキスパートの混合のような複雑なタスクに取り組むことができるようになった。 モジュラー手法の本質的な効率性と構成性を強調するために,各機能モジュールを表すブロックという用語を考案し,モジュール化された構造を構成可能な基礎モデルとして定義する。 本稿では, 構成可能な基礎モデルの構築, 利用, 限界について概観し, 検討する。 まず、モジュールを初期化して、事前学習フェーズに現れる機能的ニューロンパーティションと、追加のポストトレーニングを通じて構築されたブロックに分類し、LCMの機能と知識を改善する。 さまざまな機能的ブロックに基づいて,検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 これらの操作により、複雑なタスクを処理する命令に基づいてLLMを動的に設定できる。 我々の視点を検証するために、広く使われているLLMの実証分析を行った。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。 最後に、今後の研究に向けて、いくつかのオープンな課題と方向性を強調します。 本稿は,既存のLLM研究の新たなモジュール化の視点を提供し,より効率的でスケーラブルな基礎モデルの構築を促すことを目的としている。

Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# Few-Shot画像分類器におけるすっきりとしたバイアスのベンチマーク

Benchmarking Spurious Bias in Few-Shot Image Classifiers ( http://arxiv.org/abs/2409.02882v1 )

ライセンス: Link先を確認
Guangtao Zheng, Wenqian Ye, Aidong Zhang, (参考訳) 画像分類器は、最小限の監督と制限されたデータで新しいデータを認識・分類するために設計されているが、しばしばクラスとスプリアスバイアスとして知られるスプリアス属性の間のスプリアス相関に依存する。 特定のサンプルでよく見られる鮮やかな相関や、数発の分類器はそれらから引き起こされる刺激的なバイアスに悩まされる。 数発の分類器のロバスト性を評価するための自動ベンチマークシステムが存在しない。 本稿では,FewSTABと呼ばれる体系的かつ厳密なベンチマークフレームワークを提案する。 FewSTABは、バイアスのある属性を持つ少数ショット評価タスクを生成し、予測にそれらを使用することでパフォーマンスが低下することを示す。 これらのタスクを構築するために、事前に訓練された視覚言語モデルに基づく属性ベースのサンプル選択戦略を提案し、手動によるデータセットのキュレーションを不要にする。 これにより、FewSTABは既存のテストデータを使って、スパイラルなバイアスを自動的にベンチマークすることができる。 FewSTABは、ロバストな分類器を構築するための新しい設計ガイドラインとともに、新しい次元の評価結果を提供する。 さらに、様々な度合いで急激なバイアスをベンチマークし、様々な強靭性のための設計を可能にする。 その効果は、3つのデータセットにまたがる10個の数発の学習方法の実験によって実証される。 私たちのフレームワークは、堅牢な数発の分類器の新たな設計をインスピレーションできることを期待しています。 私たちのコードはhttps://github.com/gtzheng/FewSTAB.comで利用可能です。

Few-shot image classifiers are designed to recognize and classify new data with minimal supervision and limited data but often show reliance on spurious correlations between classes and spurious attributes, known as spurious bias. Spurious correlations commonly hold in certain samples and few-shot classifiers can suffer from spurious bias induced from them. There is an absence of an automatic benchmarking system to assess the robustness of few-shot classifiers against spurious bias. In this paper, we propose a systematic and rigorous benchmark framework, termed FewSTAB, to fairly demonstrate and quantify varied degrees of robustness of few-shot classifiers to spurious bias. FewSTAB creates few-shot evaluation tasks with biased attributes so that using them for predictions can demonstrate poor performance. To construct these tasks, we propose attribute-based sample selection strategies based on a pre-trained vision-language model, eliminating the need for manual dataset curation. This allows FewSTAB to automatically benchmark spurious bias using any existing test data. FewSTAB offers evaluation results in a new dimension along with a new design guideline for building robust classifiers. Moreover, it can benchmark spurious bias in varied degrees and enable designs for varied degrees of robustness. Its effectiveness is demonstrated through experiments on ten few-shot learning methods across three datasets. We hope our framework can inspire new designs of robust few-shot classifiers. Our code is available at https://github.com/gtzheng/FewSTAB.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# Rey Complex Figure Test による軽度認知障害予測のためのマルチストリームディープラーニングフレームワーク

Multi-stream deep learning framework to predict mild cognitive impairment with Rey Complex Figure Test ( http://arxiv.org/abs/2409.02883v1 )

ライセンス: Link先を確認
Junyoung Park, Eun Hyun Seo, Sunjun Kim, SangHak Yi, Kun Ho Lee, Sungho Won, (参考訳) Rey Complex Figure Test (RCFT) のような描画テストは、視覚空間的スキルや記憶などの認知機能を評価するために広く使われており、軽度認知障害(MCI)を検出するための貴重なツールとなっている。 実用性にもかかわらず、これらのテストに基づいた既存の予測モデルは、小さなサンプルサイズや外部検証の欠如など、信頼性を損なうような制限に悩まされることが多い。 我々は,RCFT画像を用いたマルチヘッド自己注意型空間ストリームと,以前に開発された自動スコアリングシステムを用いたスコアリングストリームという,2つの異なる処理ストリームを統合したマルチストリーム深層学習フレームワークを開発した。 韓国のコホートで1,740名の被験者のデータをトレーニングし,韓国の2,222名の外部病院のデータセットで検証した。 提案したマルチストリームモデルは, ベースラインモデル (AUC = 0.872, Accuracy = 0.781) よりも優れた性能を示した。 空間的およびスコアリングストリームの統合により、モデルは生画像から複雑な視覚的詳細をキャプチャし、構造化されたスコアリングデータを組み込むことで、微妙な認知障害を検出する能力を高めることができる。 この二重アプローチは予測精度を向上するだけでなく、モデルの堅牢性を向上し、多様な臨床環境で信頼性を高める。 本モデルは,MCI早期スクリーニングのための費用対効果ツールとして機能する臨床環境に実用的意味を持つ。

Drawing tests like the Rey Complex Figure Test (RCFT) are widely used to assess cognitive functions such as visuospatial skills and memory, making them valuable tools for detecting mild cognitive impairment (MCI). Despite their utility, existing predictive models based on these tests often suffer from limitations like small sample sizes and lack of external validation, which undermine their reliability. We developed a multi-stream deep learning framework that integrates two distinct processing streams: a multi-head self-attention based spatial stream using raw RCFT images and a scoring stream employing a previously developed automated scoring system. Our model was trained on data from 1,740 subjects in the Korean cohort and validated on an external hospital dataset of 222 subjects from Korea. The proposed multi-stream model demonstrated superior performance over baseline models (AUC = 0.872, Accuracy = 0.781) in external validation. The integration of both spatial and scoring streams enables the model to capture intricate visual details from the raw images while also incorporating structured scoring data, which together enhance its ability to detect subtle cognitive impairments. This dual approach not only improves predictive accuracy but also increases the robustness of the model, making it more reliable in diverse clinical settings. Our model has practical implications for clinical settings, where it could serve as a cost-effective tool for early MCI screening.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# CanvOI - オンコロジーインテリジェンスの基礎モデル: FLOPSのスケーリング

CanvOI, an Oncology Intelligence Foundation Model: Scaling FLOPS Differently ( http://arxiv.org/abs/2409.02885v1 )

ライセンス: Link先を確認
Jonathan Zalach, Inbal Gazy, Assaf Avinoam, Ron Sinai, Eran Shmuel, Inbar Gilboa, Christine Swisher, Naim Matasci, Reva Basho, David B. Agus, (参考訳) 急速に発展するデジタルオンコパシーの分野は、多種多様な複雑な臨床問題に対処する必要があるなど、重要な課題に直面している。 これらの制限は、確率的決定の正確性が最も重要である生体医療分野において、堅牢なAI駆動ツールの開発を妨げる。 これを解決するために、デジタル病理基盤モデルが登場し始めており、通常、トレーニング済みデータセットとモデルパラメータを念頭において、サイズと多様性が発達している。 本稿では,VT-g/10ベースの基盤モデルであるCanvOIについて紹介する。 本研究は, 腫瘍病理像の特異な性質と, 下流モデルに意味のある表現を提供するための埋め込みからの要求を踏まえて, 入力画像特性の修正を選択した。 より大きなタイルサイズ(380×380ピクセル)と小さなパッチサイズ(10×10ピクセル)を導入することで、我々はモデルの性能を最適化し、計算資源を新しい方向に押し上げ、がん関連ベンチマークで最先端のパフォーマンスを達成することができた。 CanvOIは、デジタル病理学のために作られた他の主要な基礎モデルと比較して平均AUCが1.5-7.4%改善したことを示した。 さらに,CanvOIは初期コホートの10%しか訓練していない場合,性能差が大きく,他のモデルよりも優れていた。 この研究は、従来の開発アプローチと統合すれば、オンコロジー・インテリジェンス(OI)を前進させる可能性があり、現在の障壁を克服し、最終的にはがん患者の臨床結果を改善するという別のアプローチを強調している。

The rapidly evolving field of digital oncopathology faces significant challenges, including the need to address diverse and complex clinical questions, often involving rare conditions, with limited availability of labeled data. These limitations hinder the development of robust AI-driven tools in the biomedical space, where accuracy in probabilistic determinations is of utmost importance. To address this, digital pathology foundation models have begun to emerge, typically developed with the size and diversity of the pre-training dataset and model parameters in mind. Here, we present CanvOI, a ViT-g/10-based foundation model designed to enhance the capabilities of digital pathology by addressing these challenges through a different approach. Considering the unique nature of oncologic histopathological images and the requirements from the embeddings to provide meaningful representations for Multiple Instance Learning (MIL) downstream models, we chose to modify the input image characteristics. By introducing larger tile sizes (380 x 380 pixels) and smaller patch sizes (10 x 10 pixels), we were able to optimize the model's performance, pushing computational resources in a new direction and achieving state-of-the-art performance on cancer-related benchmarks. CanvOI demonstrated a 1.5-7.4% improvement in averaged AUC compared to other leading foundation models built for digital pathology. Moreover, our results demonstrate that CanvOI significantly outperformed the other models, with the performance gap widening substantially when trained on just 10% of the initial cohort. This work highlights an alternative approach that, if integrated with traditional development approaches, has the potential to advance Oncology Intelligence (OI), overcome some of the current barriers and ultimately improve the clinical outcome of cancer patients.
翻訳日:2024-09-05 16:52:09 公開日:2024-09-04
# ブロクニウム系ジョセフソンジャンクションパラメトリック増幅器:上波長と線形性

Blochnium-Based Josephson Junction Parametric Amplifiers: Superior Tunability and Linearity ( http://arxiv.org/abs/2409.02887v1 )

ライセンス: Link先を確認
A. Salmanogli, H. Zandi, M. Akbari, (参考訳) 弱い量子信号増幅は量子コンピューティングにおいて必須の課題である。 本研究では,最近導入されたBlochnium (N series Quarton structure) と呼ばれるジョセフソン接合配列の構造をパラメトリック増幅器として利用した。 まず、系のラグランジアン、量子ハミルトニアンを理論的に導出し、量子ランゲヴィン方程式を用いて力学を解析する。 これらの方程式をフーリエ領域に変換し、入力出力形式を用いることで、パラメトリック増幅器の計量指標を導出する。 提案された新しい設計は、非線形性を操作できるため、従来の設計よりも大きな利点がある。 このプレミア機能は増幅器の圧縮点(P1dB)を劇的に向上させ、広帯域でチューナビリティを提供する。 量子応用に不可欠な強化線型性は、理論的に導出される効果的な非線形性管理によって達成される。 また、スケーラブルな量子系における周波数多重化において、スペクトルオーバーラップを伴わないCバンドを網羅する能力は不可欠である。 シミュレーションの結果,Blochniumパラメトリック増幅器は-92dBmよりも圧縮点がよい25dBの信号ゲインに到達できることがわかった。 したがって,提案したパラメトリック増幅器は,より優れた自由度を持つため,ジョセフソン接合の配列のような従来の設計を超越し,高度な量子コンピューティング応用の候補として期待できる。

The weak quantum signal amplification is an essential task in quantum computing. In this study, a recently introduced structure of Josephson junctions array called Blochnium (N series Quarton structure) is utilized as a parametric amplifier. We begin by theoretical deriving the system's Lagrangian, quantum Hamiltonian, and then analyze the dynamics using the quantum Langevin equation. By transforming these equations into the Fourier domain and employing the input-output formalism, leading metric indicators of the parametric amplifier become calculated. The new proposed design offers significant advantages over traditional designs due to its ability to manipulate nonlinearity. This premier feature enhances the compression point (P1dB) of the amplifier dramatically, and also provides its tunability across a broad band. The enhanced linearity, essential for quantum applications, is achieved through effective nonlinearity management, which is theoretically derived. Also, the ability to sweep the C-band without significant spectral overlap is crucial for frequency multiplexing in scalable quantum systems. Simulation results show that Blochnium parametric amplifiers can reach to a signal gain around 25 dB with a compression point better than of -92 dBm. Therefore, our proposed parametric amplifier, with its superior degree of freedom, surpasses traditional designs like arrays of Josephson junctions, making it a highly promising candidate for advanced quantum computing applications.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# LongLLaVA: ハイブリッドアーキテクチャによるマルチモーダルLLMの1000イメージへのスケーリング

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture ( http://arxiv.org/abs/2409.02889v1 )

ライセンス: Link先を確認
Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang, (参考訳) マルチモーダル大規模言語モデル(MLLM)の長文拡張は,ビデオ理解,高解像度画像理解,マルチモーダルエージェントに不可欠である。 これには、モデルアーキテクチャ、データ構築、トレーニング戦略など、一連の体系的な最適化が含まれており、特に \textit{degraded performance with more image} や \textit{high compute cost} といった課題に対処している。 本稿では、モデルアーキテクチャをMambaブロックとTransformerブロックのハイブリッドに適応させ、複数の画像間の時間的および空間的依存関係を持つデータ構築にアプローチし、プログレッシブトレーニング戦略を採用する。 リリースされたモデル \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}sistant) は最初のハイブリッドMLLMであり、効率と効率のバランスを向上した。 LongLLaVAは様々なベンチマークで競合する結果を得るだけでなく、高いスループットとメモリ消費も維持する。 特に、A100 80GBのGPUで1000近い画像を処理でき、幅広いタスクに期待できるアプリケーションの可能性を示している。

Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and multi-modal agents. This involves a series of systematic optimizations, including model architecture, data construction and training strategy, particularly addressing challenges such as \textit{degraded performance with more images} and \textit{high computational costs}. In this paper, we adapt the model architecture to a hybrid of Mamba and Transformer blocks, approach data construction with both temporal and spatial dependencies among multiple images and employ a progressive training strategy. The released model \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) is the first hybrid MLLM, which achieved a better balance between efficiency and effectiveness. LongLLaVA not only achieves competitive results across various benchmarks, but also maintains high throughput and low memory consumption. Especially, it could process nearly a thousand images on a single A100 80GB GPU, showing promising application prospects for a wide range of tasks.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# グローバルストレッチグリッドを用いた地域データ駆動気象モデリング

Regional data-driven weather modeling with a global stretched-grid ( http://arxiv.org/abs/2409.02891v1 )

ライセンス: Link先を確認
Thomas Nils Nipen, Håvard Homleid Haugen, Magnus Sikora Ingstad, Even Marius Nordhagen, Aram Farhad Shafiq Salihi, Paulina Tedesco, Ivar Ambjørn Seierstad, Jørn Kristiansen, Simon Lang, Mihai Alexe, Jesper Dramsch, Baudouin Raoult, Gert Mertes, Matthew Chantry, (参考訳) 地域気象予報に適したデータ駆動モデル(DDM)を提案する。 このモデルは人工知能予測システムを拡張し、地域の関心領域に高解像度を捧げる拡張グリッドアーキテクチャを導入し、世界の他の地域でも低解像度を維持している。 このモデルはグラフニューラルネットワークに基づいており、これは自然に任意のマルチレゾリューショングリッド構成を提供する。 このモデルは北欧の短距離気象予測に適用され、2.5km、時間分解能は6hと予測される。 このモデルは31km解像度で43年間のグローバルERA5データに基づいて事前訓練され、MetCoOp Ensemble Prediction System (MEPS)から2.5km解像度の3.3年の運用分析を用いてさらに改良されている。 本モデルの性能はノルウェーの測候所の表面観測を用いて評価し,MEPSによる短距離気象予報と比較した。 DDMは、制御ランとMEPSのアンサンブル平均の両方を2mの温度で上回る。 このモデルは、競争力のある降水量や風速予測も生み出すが、極端な出来事を過小評価している。

A data-driven model (DDM) suitable for regional weather forecasting applications is presented. The model extends the Artificial Intelligence Forecasting System by introducing a stretched-grid architecture that dedicates higher resolution over a regional area of interest and maintains a lower resolution elsewhere on the globe. The model is based on graph neural networks, which naturally affords arbitrary multi-resolution grid configurations. The model is applied to short-range weather prediction for the Nordics, producing forecasts at 2.5 km spatial and 6 h temporal resolution. The model is pre-trained on 43 years of global ERA5 data at 31 km resolution and is further refined using 3.3 years of 2.5 km resolution operational analyses from the MetCoOp Ensemble Prediction System (MEPS). The performance of the model is evaluated using surface observations from measurement stations across Norway and is compared to short-range weather forecasts from MEPS. The DDM outperforms both the control run and the ensemble mean of MEPS for 2 m temperature. The model also produces competitive precipitation and wind speed forecasts, but is shown to underestimate extreme events.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# LongCite:Lum-context QAにおける微粒化生成のためのLLMの導入

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA ( http://arxiv.org/abs/2409.02897v1 )

ライセンス: Link先を確認
jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li, (参考訳) 現在のLong-Context Large Language Model (LLM) は、広範囲なテキストに基づいてユーザーの質問に答える能力が顕著であることを示しているが、その回答に引用がないことは、ユーザの検証を困難にしており、彼らの幻覚の可能性を懸念している。 本研究では,長文LLMが文レベルのきめ細かな引用で応答を生成できるようにし,その忠実さと妥当性を向上させることを目的とする。 最初にLongBench-Citeを紹介した。これはLong-Context Question Answering with Citations (LQAC)において、現在のLLMのパフォーマンスを評価するための自動ベンチマークであり、改善の余地があることを明らかにする。 そこで本研究では,LQAC用の大規模SFTデータセットであるLongCite-45kを構築するために,LongCite-45kを構築するために,既製のLLMを用いて,文レベルの精度の高い長文QAインスタンスを自動的に生成する新しいパイプラインであるCoF(Coarse to Fine)を提案する。 最後に,LongCite-45kデータセットを用いてLongCite-8BとLongCite-9Bをトレーニングし,精度の高い応答生成と文レベルのきめ細かい引用を単一出力で実現する。 また,LongBench-Citeの評価結果から,GPT-4oを含む先進的なプロプライエタリモデルを上回る,最先端の励磁品質が得られることが示された。

Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# 機械学習におけるトポロジ的手法--実践者のためのチュートリアル

Topological Methods in Machine Learning: A Tutorial for Practitioners ( http://arxiv.org/abs/2409.02901v1 )

ライセンス: Link先を確認
Baris Coskunuzer, Cüneyt Gürcan Akçora, (参考訳) トポロジカル機械学習(TML)は、代数的トポロジの技法を活用して、従来の機械学習手法では捉えられない方法で複雑なデータ構造を分析する新興分野である。 このチュートリアルでは、永続的ホモロジーとMapperアルゴリズムという、2つの重要なTMLテクニックの包括的な紹介と、実践的な応用に焦点を当てている。 永続ホモロジーはクラスタ、ループ、ヴォイドなどのマルチスケールのトポロジ的特徴を捉え、一方、Mapperアルゴリズムは高次元データを要約する解釈可能なグラフを生成する。 アクセシビリティを高めるために、私たちはデータ中心のアプローチを採用し、読者はこれらのテクニックを関連するタスクに適用したハンズオン体験を得ることができる。 実世界の問題に対してこれらのツールをどのように適用できるかを示すために、ステップバイステップの説明、実装、実例、ケーススタディを提供する。 目標は、TMLを自分の仕事に組み込むための知識とリソースを研究者や実践者に提供し、従来の機械学習手法からしばしば隠された洞察を明らかにすることである。 チュートリアルコードはhttps://github.com/cakcora/TopologyForMLで公開されている。

Topological Machine Learning (TML) is an emerging field that leverages techniques from algebraic topology to analyze complex data structures in ways that traditional machine learning methods may not capture. This tutorial provides a comprehensive introduction to two key TML techniques, persistent homology and the Mapper algorithm, with an emphasis on practical applications. Persistent homology captures multi-scale topological features such as clusters, loops, and voids, while the Mapper algorithm creates an interpretable graph summarizing high-dimensional data. To enhance accessibility, we adopt a data-centric approach, enabling readers to gain hands-on experience applying these techniques to relevant tasks. We provide step-by-step explanations, implementations, hands-on examples, and case studies to demonstrate how these tools can be applied to real-world problems. The goal is to equip researchers and practitioners with the knowledge and resources to incorporate TML into their work, revealing insights often hidden from conventional machine learning methods. The tutorial code is available at https://github.com/cakcora/TopologyForML
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# 無線通信プロトコルのための状態マシン変異に基づくテストフレームワーク

State Machine Mutation-based Testing Framework for Wireless Communication Protocols ( http://arxiv.org/abs/2409.02905v1 )

ライセンス: Link先を確認
Syed Md Mukit Rashid, Tianwei Wu, Kai Tu, Abdullah Al Ishtiaq, Ridwanul Hasan Tanvir, Yilu Dong, Omar Chowdhury, Syed Rafiul Hussain, (参考訳) 本稿では,無線プロトコル実装における論理的脆弱性を発見するためのプロトコル状態マシンであるProteusを提案する。 Proteusは、有意義なテストケース(それぞれがプロトコルメッセージのシーケンスである)を生成することで、予算の意識を維持している(すなわち、テストケースは、いくつかの制御された逸脱を除いて、主に望ましいプロトコルフローに従う)が、望ましい性質に違反する確率も高い。 有効性を示すため,23のコンシューマデバイス(4G LTEで11,BLEで12)で,Proteusを2つの異なるプロトコル実装,すなわち4G LTEとBLEで評価した。 Proteusは113のインスタンスを含む26のユニークな脆弱性を発見した。 影響を受けたベンダーは、5つのCVEを通じて12の脆弱性を認めている。

This paper proposes Proteus, a protocol state machine, property-guided, and budget-aware automated testing approach for discovering logical vulnerabilities in wireless protocol implementations. Proteus maintains its budget awareness by generating test cases (i.e., each being a sequence of protocol messages) that are not only meaningful (i.e., the test case mostly follows the desirable protocol flow except for some controlled deviations) but also have a high probability of violating the desirable properties. To demonstrate its effectiveness, we evaluated Proteus in two different protocol implementations, namely 4G LTE and BLE, across 23 consumer devices (11 for 4G LTE and 12 for BLE). Proteus discovered 26 unique vulnerabilities, including 113 instances. Affected vendors have positively acknowledged 12 vulnerabilities through 5 CVEs.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# 仮設拡散モデルと極秘時間非依存仮設モデルと爆発的不正確なカテゴリーサンプリング

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling ( http://arxiv.org/abs/2409.02908v1 )

ライセンス: Link先を確認
Kaiwen Zheng, Yongxin Chen, Hanzi Mao, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang, (参考訳) マスク付き拡散モデル(MDM)は、他の離散拡散モデルよりも優れた性能を持つため、離散データの生成モデルとして人気があり、言語モデリングタスクの自己回帰モデル(ARM)と競合している。 マスク付き拡散フレームワークを単純化する最近の取り組みにより、連続空間拡散モデルやより原則化されたトレーニングやサンプリングレシピとの整合性がさらに高められた。 しかし,本論文では,MDMのトレーニングとサンプリングの両方が理論的には時間変数から解放され,拡散モデルのキーシグネチャとなり,代わりにマスクモデルと等価であることを明らかにした。 サンプリング面上の接続は,提案した第1ハイティングサンプリング(FHS)によって引き起こされる。 具体的には、FHSは理論上MDMの原生成プロセスと等価であり、時間を要するカテゴリサンプリングを著しく軽減し、20$\times$スピードアップを実現していることを示す。 さらに、我々の調査は、MDMが生成的パープレキシティにおいてARMを上回ることができるという以前の主張に異議を唱えている。 我々は,32ビット浮動小数点精度が不正確である場合でも,初めて基礎となる数値問題を同定した。 この数値問題により, 理論的にも実証的にも有効温度が低下し, 過去の文献におけるMDMs生成の不公平な評価結果が得られた。

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs' original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation challenges previous claims that MDMs can surpass ARMs in generative perplexity. We identify, for the first time, an underlying numerical issue, even with the 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that the numerical issue lowers the effective temperature both theoretically and empirically, leading to unfair assessments of MDMs' generation results in the previous literature.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# SITAR:行動認識のための半教師付き画像変換装置

SITAR: Semi-supervised Image Transformer for Action Recognition ( http://arxiv.org/abs/2409.02910v1 )

ライセンス: Link先を確認
Owais Iqbal, Omprakash Chakraborty, Aftab Hussain, Rameswar Panda, Abir Das, (参考訳) ラベル付きビデオの限られたセットからアクションを認識することは、視覚データの注釈付けが面倒であるだけでなく、分類された性質のためにコストがかかるため、依然として課題である。 さらに、深度3ドルの変換器を用いた時空間データの処理は、計算の複雑さを著しく引き起こす可能性がある。 本稿では,少数のラベル付きビデオと未ラベル付きビデオの集合を計算効率良く利用することにより,半教師付き環境での映像行動認識に対処することを目的とする。 具体的には、入力ビデオから行列形式で複数のフレームを並べ替え、スーパーイメージを構築する。 その後、ラベルなしサンプルの膨大なプールに乗じて、符号化されたスーパーイメージに対してコントラスト学習を採用する。 提案手法では,2つの経路を用いて時間的に拡張されたスーパー画像を生成する。 具体的には、2次元画像変換器を用いて表現を生成し、コントラスト損失関数を適用して、同一ビデオの表現を最大化しながら、異なるビデオからの表現の類似性を最小化する。 提案手法は,各種ベンチマークデータセットの半教師あり行動認識における従来の手法と比較して,計算コストを大幅に削減しつつ,優れた性能を示す。

Recognizing actions from a limited set of labeled videos remains a challenge as annotating visual data is not only tedious but also can be expensive due to classified nature. Moreover, handling spatio-temporal data using deep $3$D transformers for this can introduce significant computational complexity. In this paper, our objective is to address video action recognition in a semi-supervised setting by leveraging only a handful of labeled videos along with a collection of unlabeled videos in a compute efficient manner. Specifically, we rearrange multiple frames from the input videos in row-column form to construct super images. Subsequently, we capitalize on the vast pool of unlabeled samples and employ contrastive learning on the encoded super images. Our proposed approach employs two pathways to generate representations for temporally augmented super images originating from the same video. Specifically, we utilize a 2D image-transformer to generate representations and apply a contrastive loss function to minimize the similarity between representations from different videos while maximizing the representations of identical videos. Our method demonstrates superior performance compared to existing state-of-the-art approaches for semi-supervised action recognition across various benchmark datasets, all while significantly reducing computational costs.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# LVLMは運転免許を取得できるか? - 自動運転のための信頼性のあるAGIに向けてのベンチマーク

Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving ( http://arxiv.org/abs/2409.02914v1 )

ライセンス: Link先を確認
Yuhang Lu, Yichen Yao, Jiadong Tu, Jiangnan Shao, Yuexin Ma, Xinge Zhu, (参考訳) 近年、LVLM(Large Vision-Language Models)は、自律運転モデルの解釈可能性と堅牢性を高めるために、その一般的な知識を活用することを目的として、大きな注目を集めている。 しかし、LVLMは通常、大規模で汎用的なデータセットに依存しており、専門的かつ安全な運転に必要な専門知識が欠如している。 既存の視覚言語駆動データセットは、交通ルールや運転スキルに関する明確なガイダンスを提供することなく、主にシーン理解と意思決定に焦点を当てている。 このギャップを埋めるため、我々は、ハンドブック、理論テストデータ、シミュレーション道路試験データなど、さまざまな国から収集された100万件以上のデータを含む大規模データセットIDKBを提案する。 運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。 特に、IDKBを用いた15個のLVLMの総合的なテストを行い、自律運転の文脈における信頼性を評価し、広範囲な分析を行った。 また、一般的なモデルを微調整し、顕著なパフォーマンス向上を実現し、データセットの重要性をさらに検証しました。 プロジェクトページは以下の通りである。

Large Vision-Language Models (LVLMs) have recently garnered significant attention, with many efforts aimed at harnessing their general knowledge to enhance the interpretability and robustness of autonomous driving models. However, LVLMs typically rely on large, general-purpose datasets and lack the specialized expertise required for professional and safe driving. Existing vision-language driving datasets focus primarily on scene understanding and decision-making, without providing explicit guidance on traffic rules and driving skills, which are critical aspects directly related to driving safety. To bridge this gap, we propose IDKB, a large-scale dataset containing over one million data items collected from various countries, including driving handbooks, theory test data, and simulated road test data. Much like the process of obtaining a driver's license, IDKB encompasses nearly all the explicit knowledge needed for driving from theory to practice. In particular, we conducted comprehensive tests on 15 LVLMs using IDKB to assess their reliability in the context of autonomous driving and provided extensive analysis. We also fine-tuned popular models, achieving notable performance improvements, which further validate the significance of our dataset. The project page can be found at: \url{https://4dvlab.github.io/project_page/idkb.html}
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# 行列積状態を用いた擬似スペクトル法によるPDEの解法

Pseudospectral method for solving PDEs using Matrix Product States ( http://arxiv.org/abs/2409.02916v1 )

ライセンス: Link先を確認
Jorge Gidi, Paula García-Molina, Luca Tagliacozzo, Juan José García-Ripoll, (参考訳) 本研究では時間依存偏微分方程式(PDE)、特に行列積状態(MPS)を用いた時間依存偏微分方程式(Schr\"odinger equation)を解くことに焦点を当てる。 本稿では,Hermite Distributed Approximating Functions(HDAF)をMPSに拡張する手法を提案する。 HDAFをMPS有限精度代数に統合し、時間発展のための4種類の量子インスパイアされたアルゴリズムをテストした。 ベンチマーク問題は量子クエンチにおける粒子の膨張であり、HDAFは従来の有限差分法を同等のコストで上回る空間要求が急速に増加するのが特徴である。 さらに、フリープロパゲータへの効率的なHDAF近似は、分割ステップ法におけるフーリエ変換の必要性を回避し、コストと精度のバランスを改善して性能を大幅に向上させる。 どちらの手法もFFTベクトル法と類似のエラースケーリングと実行時間を示すが、MPSはメモリにおいて指数関数的な優位性を持ち、より大きな離散化と拡張を可能にするベクトル制限を克服する。 最後に、MPS HDAFスプリットステップ法は、粒子膨張の物理的挙動をダブルウェルポテンシャルで再現し、実際の研究シナリオの生存可能性を示す。

This research focuses on solving time-dependent partial differential equations (PDEs), in particular the time-dependent Schr\"odinger equation, using matrix product states (MPS). We propose an extension of Hermite Distributed Approximating Functionals (HDAF) to MPS, a highly accurate pseudospectral method for approximating functions of derivatives. Integrating HDAF into an MPS finite precision algebra, we test four types of quantum-inspired algorithms for time evolution: explicit Runge-Kutta methods, Crank-Nicolson method, explicitly restarted Arnoli iteration and split-step. The benchmark problem is the expansion of a particle in a quantum quench, characterized by a rapid increase in space requirements, where HDAF surpasses traditional finite difference methods in accuracy with a comparable cost. Moreover, the efficient HDAF approximation to the free propagator avoids the need for Fourier transforms in split-step methods, significantly enhancing their performance with an improved balance in cost and accuracy. Both approaches exhibit similar error scaling and run times compared to FFT vector methods; however, MPS offer an exponential advantage in memory, overcoming vector limitations to enable larger discretizations and expansions. Finally, the MPS HDAF split-step method successfully reproduces the physical behavior of a particle expansion in a double-well potential, demonstrating viability for actual research scenarios.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# UC-NeRF : 内視鏡的スパースから見た不確かさを意識した条件付き神経放射場

UC-NeRF: Uncertainty-aware Conditional Neural Radiance Fields from Endoscopic Sparse Views ( http://arxiv.org/abs/2409.02917v1 )

ライセンス: Link先を確認
Jiaxin Guo, Jiangliu Wang, Ruofeng Wei, Di Kang, Qi Dou, Yun-hui Liu, (参考訳) 外科的シーンの可視化は、最小侵襲の手術で内部の解剖学的構造を明らかにするために重要である。 新しいビューシンセサイザーは、幾何学と外観の再構築、理解、計画、そして外科シーンにおける意思決定の強化を提供する重要な技術である。 ニューラル・レージアンス・フィールド(Neural Radiance Field, NeRF)の顕著な業績にもかかわらず、手術シーンへの直接的適用は、内視鏡的スパース・ビューと重要な光度不整合という2つの課題により、満足のいく結果をもたらす。 本稿では, スパース手術の視界から, 厳密な形状・輝度のあいまいさに対処するために, 新規な視線合成のための不確実性を考慮した条件付きNeRFを提案する。 UC-NeRFの中核は、重度の測光不整合を適応的にモデル化するために、多視点不確実性推定を神経放射場に組み込むことである。 具体的には、UC-NeRFは、まず多視点ステレオネットワークという形で整合学習器を構築し、疎視から幾何学的対応を確立し、不確実性推定と特徴事前を生成する。 ニューラルレンダリングでは,光度不整合を明示的に扱うために不確実性推定を利用するベース適応型NeRFネットワークを設計する。 さらに、幾何学習を強化するために不確実性誘導幾何蒸留を用いる。 SCAREDとHamlynデータセットの実験は、外観と幾何学のレンダリングにおける優れたパフォーマンスを示し、現在の最先端のアプローチを一貫して上回ります。 私たちのコードは \url{https://github.com/wrld/UC-NeRF} でリリースされます。

Visualizing surgical scenes is crucial for revealing internal anatomical structures during minimally invasive procedures. Novel View Synthesis is a vital technique that offers geometry and appearance reconstruction, enhancing understanding, planning, and decision-making in surgical scenes. Despite the impressive achievements of Neural Radiance Field (NeRF), its direct application to surgical scenes produces unsatisfying results due to two challenges: endoscopic sparse views and significant photometric inconsistencies. In this paper, we propose uncertainty-aware conditional NeRF for novel view synthesis to tackle the severe shape-radiance ambiguity from sparse surgical views. The core of UC-NeRF is to incorporate the multi-view uncertainty estimation to condition the neural radiance field for modeling the severe photometric inconsistencies adaptively. Specifically, our UC-NeRF first builds a consistency learner in the form of multi-view stereo network, to establish the geometric correspondence from sparse views and generate uncertainty estimation and feature priors. In neural rendering, we design a base-adaptive NeRF network to exploit the uncertainty estimation for explicitly handling the photometric inconsistencies. Furthermore, an uncertainty-guided geometry distillation is employed to enhance geometry learning. Experiments on the SCARED and Hamlyn datasets demonstrate our superior performance in rendering appearance and geometry, consistently outperforming the current state-of-the-art approaches. Our code will be released at \url{https://github.com/wrld/UC-NeRF}.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# SpecMon: セキュリティプロトコルのモジュールブラックボックスランタイム監視

SpecMon: Modular Black-Box Runtime Monitoring of Security Protocols ( http://arxiv.org/abs/2409.02918v1 )

ライセンス: Link先を確認
Kevin Morio, Robert Künnemann, (参考訳) 正式なプロトコル仕様と実際の実装の間には検証のギャップがあり、この作業は、正式な仕様への準拠の監視を通じてブリッジすることを目的としています。 我々は、アプリケーションがイベントストリームを取得するのに使用するネットワークと暗号化ライブラリを実装します。 これはソースコードアクセスなしでも可能である。 次に、これらの観測結果を仕様モデルで有効なトレースにマッチングするために、効率的なアルゴリズムを使用します。 従来の作業とは対照的に,アルゴリズムは非決定性を扱うことができ,複数のセッションを処理できる。 また、WireGuard参照実装と先行作業のケーススタディで示すように、オーバーヘッドも低くなります。 WireGuardの参照Tamarinモデルは、ほとんど変更を加えることなく使用できることがわかった。 また,提案アルゴリズムは,仕様モデルに従って有効なイベントストリームのみを受け入れることを保証する。

There exists a verification gap between formal protocol specifications and their actual implementations, which this work aims to bridge via monitoring for compliance to the formal specification. We instrument the networking and cryptographic library the application uses to obtain a stream of events. This is possible even without source code access. We then use an efficient algorithm to match these observations to traces that are valid in the specification model. In contrast to prior work, our algorithm can handle non-determinism and thus, multiple sessions. It also achieves a low overhead, which we demonstrate on the WireGuard reference implementation and a case study from prior work. We find that the reference Tamarin model for WireGuard can be used with little change: We only need to specify wire formats and correct some small inaccuracies that we discovered while conducting the case study. We also provide a soundness result for our algorithm that ensures it accepts only event streams that are valid according to the specification model.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# HiPrompt: 階層型MLLMプロンプトを用いたチューニング不要な高分解能生成

HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts ( http://arxiv.org/abs/2409.02919v1 )

ライセンス: Link先を確認
Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo, (参考訳) 事前訓練された拡散モデルを用いた高解像度画像生成の可能性は非常に大きいが、これらのモデルは、特に4K解像度以上へのスケーリングにおいて、オブジェクトの反復や構造的アーティファクトの問題に悩まされることが多い。 問題の原因は,複数の尺度を生成するための単一のプロンプトが不十分な有効性をもたらすことにある。 これに対し、階層的なプロンプトを導入して上記の問題に対処する、新しいチューニング不要なソリューションであるHiPromptを提案する。 階層的なプロンプトは、グローバルとローカルの両方のガイダンスを提供する。 具体的には、グローバルガイダンスは、全体の内容を記述するユーザ入力から導き、ローカルガイダンスは、MLLMからのパッチワイズ記述を利用して、地域構造とテクスチャ生成を精巧にガイドする。 さらに、逆復調過程において、生成した雑音を低周波及び高周波空間成分に分解する。 これらのコンポーネントは、パッチに関する詳細な記述やより広範な画像レベルのプロンプトなど、複数のプロンプトレベルに条件付けされている。 さらに、生成者は局所的な空間領域にもっと集中し、生成した画像が高定義で一貫性のある局所的および大域的意味論、構造、テクスチャを維持することを保証できる。 広汎な実験により、HiPromptは高解像度画像生成における最先端の作業より優れており、オブジェクトの反復が著しく減少し、構造的品質が向上することが示された。

The potential for higher-resolution image generation using pretrained diffusion models is immense, yet these models often struggle with issues of object repetition and structural artifacts especially when scaling to 4K resolution and higher. We figure out that the problem is caused by that, a single prompt for the generation of multiple scales provides insufficient efficacy. In response, we propose HiPrompt, a new tuning-free solution that tackles the above problems by introducing hierarchical prompts. The hierarchical prompts offer both global and local guidance. Specifically, the global guidance comes from the user input that describes the overall content, while the local guidance utilizes patch-wise descriptions from MLLMs to elaborately guide the regional structure and texture generation. Furthermore, during the inverse denoising process, the generated noise is decomposed into low- and high-frequency spatial components. These components are conditioned on multiple prompt levels, including detailed patch-wise descriptions and broader image-level prompts, facilitating prompt-guided denoising under hierarchical semantic guidance. It further allows the generation to focus more on local spatial regions and ensures the generated images maintain coherent local and global semantics, structures, and textures with high definition. Extensive experiments demonstrate that HiPrompt outperforms state-of-the-art works in higher-resolution image generation, significantly reducing object repetition and enhancing structural quality.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (早期バージョン)

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) ( http://arxiv.org/abs/2409.02920v1 )

ライセンス: Link先を確認
Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo, (参考訳) デュアルアームロボットの効果的なコラボレーションとそのツール利用能力は、ロボット工学の発展においてますます重要な領域となっている。 これらのスキルは、さまざまな現実世界環境においてロボットの操作能力を拡大する上で重要な役割を担っている。 しかし、専門訓練データの不足により、進歩が妨げられている。 本稿では、実世界の遠隔操作データとデジタルツインの合成データを組み合わせた新しいベンチマークデータセットであるRoboTwinを紹介する。 COBOT Magicプラットフォームを使用して、ツールの使用状況や人間とロボットのインタラクションに関するさまざまなデータを収集しました。 我々は、2D画像を詳細な3Dモデルに変換することによって、AI生成コンテンツを用いてデジタルツインを作成する革新的なアプローチを提案する。 さらに,大規模言語モデルを用いて専門家レベルのトレーニングデータと,機能指向のタスク固有のポーズシーケンスを生成する。 私たちの主な貢献は次のとおりです。 1)RoboTwinベンチマークデータセット。 2)効率的な実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実- 3)エキスパートレベルの自動データ生成における言語モデルの利用。 これらの進歩は、ロボット訓練データの不足に対処するために設計されており、より有能で多用途なロボットシステムの開発を、幅広い現実世界の応用のために加速させる可能性がある。 プロジェクトページはhttps://robotwin-benchmark.github.io/early-version/で公開されている。

Effective collaboration of dual-arm robots and their tool use capabilities are increasingly important areas in the advancement of robotics. These skills play a significant role in expanding robots' ability to operate in diverse real-world environments. However, progress is impeded by the scarcity of specialized training data. This paper introduces RoboTwin, a novel benchmark dataset combining real-world teleoperated data with synthetic data from digital twins, designed for dual-arm robotic scenarios. Using the COBOT Magic platform, we have collected diverse data on tool usage and human-robot interaction. We present a innovative approach to creating digital twins using AI-generated content, transforming 2D images into detailed 3D models. Furthermore, we utilize large language models to generate expert-level training data and task-specific pose sequences oriented toward functionality. Our key contributions are: 1) the RoboTwin benchmark dataset, 2) an efficient real-to-simulation pipeline, and 3) the use of language models for automatic expert-level data generation. These advancements are designed to address the shortage of robotic training data, potentially accelerating the development of more capable and versatile robotic systems for a wide range of real-world applications. The project page is available at https://robotwin-benchmark.github.io/early-version/
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# 雑音量子データからの密度関数の学習

Learning Density Functionals from Noisy Quantum Data ( http://arxiv.org/abs/2409.02921v1 )

ライセンス: Link先を確認
Emiel Koridon, Felix Frohnert, Eric Prehn, Evert van Nieuwenburg, Jordi Tura, Stefano Polla, (参考訳) 量子シミュレーションにおけるノイズの多い中間規模量子(NISQ)デバイスの有用性の探索は、その固有ノイズと高い精度の達成に伴う高コストによって妨げられている。 これらの課題にもかかわらずユーティリティを見つけるための有望なアプローチは、古典的な機械学習(ML)モデルのトレーニングデータを生成するために量子デバイスを使用することだ。 本研究では,Fermi-Hubbardモデルの密度関数を学習するために,量子アルゴリズムが生成した雑音データを用いてMLモデルのトレーニングを行う。 我々は、NISQアルゴリズムの典型的なノイズを受ける小さなデータセットからニューラルネットワークMLモデルをうまく一般化できることを実証し、正確な解に対して様々なMLモデルをベンチマークする。 学習手順は、バイアスのないサンプリングノイズを効果的にフィルタリングすることができ、訓練されたモデルが個々のトレーニングデータポイントを上回っます。 逆に、変動量子固有解法に典型的な表現可能性と最適化誤差を持つデータに基づいて訓練すると、モデルはトレーニングデータに存在するバイアスを再現する。 トレーニングされたモデルは、コーンシャムのような密度最適化スキームにおける新しい問題インスタンスの解決に適用することができ、自動微分可能性の恩恵を受け、ほとんどの問題インスタンスに対して合理的に正確な解を得ることができる。 我々の研究結果は,NISQデバイスを実用的な量子シミュレーションに活用するための有望な経路であることを示唆し,量子コンピューティングとML技術の統合を成功させるために対処する必要がある潜在的なメリットと課題の両方を強調した。

The search for useful applications of noisy intermediate-scale quantum (NISQ) devices in quantum simulation has been hindered by their intrinsic noise and the high costs associated with achieving high accuracy. A promising approach to finding utility despite these challenges involves using quantum devices to generate training data for classical machine learning (ML) models. In this study, we explore the use of noisy data generated by quantum algorithms in training an ML model to learn a density functional for the Fermi-Hubbard model. We benchmark various ML models against exact solutions, demonstrating that a neural-network ML model can successfully generalize from small datasets subject to noise typical of NISQ algorithms. The learning procedure can effectively filter out unbiased sampling noise, resulting in a trained model that outperforms any individual training data point. Conversely, when trained on data with expressibility and optimization error typical of the variational quantum eigensolver, the model replicates the biases present in the training data. The trained models can be applied to solving new problem instances in a Kohn-Sham-like density optimization scheme, benefiting from automatic differentiability and achieving reasonably accurate solutions on most problem instances. Our findings suggest a promising pathway for leveraging NISQ devices in practical quantum simulations, highlighting both the potential benefits and the challenges that need to be addressed for successful integration of quantum computing and ML techniques.
翻訳日:2024-09-05 16:37:56 公開日:2024-09-04
# イベントカメラ用非同期ブロブトラッカー

Asynchronous Blob Tracker for Event Cameras ( http://arxiv.org/abs/2307.10593v3 )

ライセンス: Link先を確認
Ziwei Wang, Timothy Molloy, Pieter van Goor, Robert Mahony, (参考訳) イベントベースのカメラは、高時間分解能、低レイテンシ、高ダイナミックレンジのために、高速で動く物体を追跡するのに人気がある。 本稿では,生イベントをリアルタイムに非同期に追跡する新しいアルゴリズムを提案する。 本稿では,イベントブロブの概念を,条件空間の確率がブロブ様である事象発生の時空間的確率として導入する。 車のヘッドライトのような現実世界の多くのオブジェクトや、素早く動くフォアグラウンドオブジェクトは、イベントブロブデータを生成する。 提案アルゴリズムは,データアソシエーションのダイナミックしきい値と,イベントブロブ状態を追跡するために拡張カルマンフィルタを併用した近傍分類器を用いる。 提案アルゴリズムは, 高精度なブロブ追跡, 速度推定, 形状推定を, 難解な照明条件や高速動作(>11000ピクセル/秒)下でも実現している。 マイクロ秒の時間分解は、フィルタ出力を用いて時間対接触や距離推定などの二次情報を導出し、自律運転における衝突回避などの現実的な問題に応用できることを意味している。

Event-based cameras are popular for tracking fast-moving objects due to their high temporal resolution, low latency, and high dynamic range. In this paper, we propose a novel algorithm for tracking event blobs using raw events asynchronously in real time. We introduce the concept of an event blob as a spatio-temporal likelihood of event occurrence where the conditional spatial likelihood is blob-like. Many real-world objects such as car headlights or any quickly moving foreground objects generate event blob data. The proposed algorithm uses a nearest neighbour classifier with a dynamic threshold criteria for data association coupled with an extended Kalman filter to track the event blob state. Our algorithm achieves highly accurate blob tracking, velocity estimation, and shape estimation even under challenging lighting conditions and high-speed motions (> 11000 pixels/s). The microsecond time resolution achieved means that the filter output can be used to derive secondary information such as time-to-contact or range estimation, that will enable applications to real-world problems such as collision avoidance in autonomous driving.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# Sentinel: 分散型フェデレーション学習をセキュアにするためのアグリゲーション機能

Sentinel: An Aggregation Function to Secure Decentralized Federated Learning ( http://arxiv.org/abs/2310.08097v4 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdrán, Janosch Baltensperger, Enrique Tomás Martínez Beltrán, Pedro Miguel Sánchez Sánchez, Gérôme Bovet, Burkhard Stiller, (参考訳) Decentralized Federated Learning (DFL)は、協調モデルをトレーニングするための革新的なパラダイムとして登場し、単一障害点に対処する。 しかし、FLとDFLの安全性と信頼性は、毒性攻撃によって損なわれ、その性能に悪影響を及ぼす。 既存の防御機構は集中型FLのために設計されており、DFLの特異性を十分に活用していない。 そこで本研究では,DFLの毒殺対策戦略であるSentinelを紹介した。 Sentinelはローカルデータのアクセシビリティを活用し、類似性のフィルタリング、ブートストラップ検証、悪意のあるモデル更新に対する保護のための正規化からなる3段階のアグリゲーションプロトコルを定義する。 Sentinelは多様なデータセットとデータ分散で評価されている。 毒の種類や脅威レベルも確認されている。 その結果、IID(Independent and Identically Distributed)設定に従えば、未ターゲットおよびターゲットの毒殺攻撃に対する最先端のパフォーマンスが向上する。 さらに、非IID構成下では、Sentinelと他の最先端のロバストアグリゲーション手法の両方でパフォーマンスが劣化するかを解析する。

Decentralized Federated Learning (DFL) emerges as an innovative paradigm to train collaborative models, addressing the single point of failure limitation. However, the security and trustworthiness of FL and DFL are compromised by poisoning attacks, negatively impacting its performance. Existing defense mechanisms have been designed for centralized FL and they do not adequately exploit the particularities of DFL. Thus, this work introduces Sentinel, a defense strategy to counteract poisoning attacks in DFL. Sentinel leverages the accessibility of local data and defines a three-step aggregation protocol consisting of similarity filtering, bootstrap validation, and normalization to safeguard against malicious model updates. Sentinel has been evaluated with diverse datasets and data distributions. Besides, various poisoning attack types and threat levels have been verified. The results improve the state-of-the-art performance against both untargeted and targeted poisoning attacks when data follows an IID (Independent and Identically Distributed) configuration. Besides, under non-IID configuration, it is analyzed how performance degrades both for Sentinel and other state-of-the-art robust aggregation methods.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# 離散的および連続的多部絡み合いに対するエントロピー測度のポリゴン関係と部分付加性

The polygon relation and subadditivity of entropic measures for discrete and continuous multipartite entanglement ( http://arxiv.org/abs/2401.02066v3 )

ライセンス: Link先を確認
Lijun Liu, Xiaozhen Ge, Shuming Cheng, (参考訳) 最近の『Ge {\it et al』では、arXiv: 2312。 17496 (2023)] では, 離散的, 連続的, さらにはハイブリッド多部量子系の絡み合い特性を明らかにするのに有用な両部共役エンタングルメントのポリゴン関係を導出した。 本研究では、R'enyi と Tsallis のエントロピーの情報-理論的尺度を用いて、ポリゴン関係とエントロピーの副付加性との関係について検討する。 特に、エントロピー-ポリゴン関係は純粋に多ビット状態に対して導出され、量子境界問題の既知の結果を利用して多モードガウス状態に一般化される。 さらに、すべての離散的あるいは連続的な多部状態に対して、ポリゴン関係が、基礎となるエントロピーが部分加法的である場合に限り成り立つという意味で、ポリゴン関係と部分加法の間の同値性を確立する。 副生成物として、R\'enyi と Tsallis エントロピーの副付加性は全ての二部類ガウス状態に対して証明される。 最後に,ポリゴン関係とモノガミー関係の違いを明らかにし,その結果の一般化について論じる。 我々の研究は多粒子状態の豊富な構造をよりよく理解し、それゆえに多粒子絡みの研究に役立つと期待されている。

In a recent work [Ge {\it et al.}, arXiv: 2312. 17496 (2023)], we have derived the polygon relation of bipartite entanglement measures that is useful to reveal the entanglement properties of discrete, continuous, and even hybrid multipartite quantum systems. In this work, with the information-theoretical measures of R\'enyi and Tsallis entropies, we study the relationship between the polygon relation and the subadditivity of entropy. In particular, the entropy-polygon relations are derived for pure multi-qubit states and generalized to multi-mode Gaussian states, by utilizing the known results from the quantum marginal problem. Moreover, the equivalence between the polygon relation and subadditivity is established, in the sense that for all discrete or continuous multipartite states, the polygon relation holds if and only if the underlying entropy is subadditive. As byproduct, the subadditivity of R\'enyi and Tsallis entropies is proven for all bipartite Gaussian states. Finally, the difference between polygon relations and monogamy relations is clarified, and generalizations of our results are discussed. Our work provides a better understanding of the rich structure of multipartite states, and hence is expected to be helpful for the study of multipartite entanglement.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# 教師なし領域適応の観点からの高解像度医用画像分割の再考

Rethinking Barely-Supervised Volumetric Medical Image Segmentation from an Unsupervised Domain Adaptation Perspective ( http://arxiv.org/abs/2405.09777v3 )

ライセンス: Link先を確認
Zhiqiang Shen, Peng Cao, Junming Su, Jinzhu Yang, Osmar R. Zaiane, (参考訳) 本稿では,ほとんど管理されていないボリューム・イメージ・セグメンテーション (BSS) という,極めて困難な課題について検討する。 BSSトレーニングデータセットは2つの部分から構成される。 1) ラベル付き画像が単一のスライスアノテーションのみを含む、ほとんど注釈のないラベル付きセット 2)多数の未ラベルボリューム画像からなる未ラベルセット。 State-of-the-the-art BSS法は登録に基づくパラダイムを用いており、スライス間の画像登録を用いて、単一スライスアノテーションをボリュームの擬似ラベルに伝達し、完全に注釈付きラベル付きセットを構築し、半教師付きセグメンテーションスキームを適用することができる。 しかし、このパラダイムには限界があり、画像登録によって生成された擬似ラベルは信頼性が低くうるさい。 そこで本研究では,半教師付き学習方式でBSSを解く代わりに,BSSを教師なし領域適応問題として定式化する手法を提案する。 そこで本研究では,支配的登録パラダイムの代替として,新しいBSSフレームワークである‘textbf{B}arely-supervised learning \textbf{via} unsupervised domain \textbf{A}daptation (BvA)を提案する。 具体的には、まず、スライス・ツー・ボリュームラベル付きデータ合成のための新しいノイズフリーラベル付きデータ構築アルゴリズム(NFC)を設計する。 次に、周波数と空間の混合戦略(FSX)を導入し、領域シフトを緩和する。 大規模な実験により,本手法はBSSに有望な代替手段を提供することが示された。 特筆すべきは、左房セグメンテーションデータセットをわずかにラベル付けされた画像でトレーニングし、Diceスコアが81.20%に達し、最先端を61.71%上回ったことである。 コードはhttps://github.com/Senyh/BvA.comで入手できる。

This paper investigates an extremely challenging problem: barely-supervised volumetric medical image segmentation (BSS). A BSS training dataset consists of two parts: 1) a barely-annotated labeled set, where each labeled image contains only a single-slice annotation, and 2) an unlabeled set comprising numerous unlabeled volumetric images. State-of-the-art BSS methods employ a registration-based paradigm, which uses inter-slice image registration to propagate single-slice annotations into volumetric pseudo labels, constructing a completely annotated labeled set, to which a semi-supervised segmentation scheme can be applied. However, the paradigm has a critical limitation: the pseudo-labels generated by image registration are unreliable and noisy. Motivated by this, we propose a new perspective: instead of solving BSS within a semi-supervised learning scheme, this work formulates BSS as an unsupervised domain adaptation problem. To this end, we propose a novel BSS framework, \textbf{B}arely-supervised learning \textbf{via} unsupervised domain \textbf{A}daptation (BvA), as an alternative to the dominant registration paradigm. Specifically, we first design a novel noise-free labeled data construction algorithm (NFC) for slice-to-volume labeled data synthesis. Then, we introduce a frequency and spatial Mix-Up strategy (FSX) to mitigate the domain shifts. Extensive experiments demonstrate that our method provides a promising alternative for BSS. Remarkably, the proposed method, trained on the left atrial segmentation dataset with \textbf{only one} barely-labeled image, achieves a Dice score of 81.20%, outperforming the state-of-the-art by 61.71%. The code is available at https://github.com/Senyh/BvA.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# MCDubber:マルチモーダルなコンテキスト対応表現型ビデオダビング

MCDubber: Multimodal Context-Aware Expressive Video Dubbing ( http://arxiv.org/abs/2408.11593v3 )

ライセンス: Link先を確認
Yuan Zhao, Zhenqi Jia, Rui Liu, De Hu, Feilong Bao, Guanglai Gao, (参考訳) 自動ビデオダビング(AVD)は、与えられたスクリプトを取得し、唇の動きと韻律表現性に合わせた音声を生成することを目的としている。 現在のAVDモデルは、合成音声の韻律を高めるために、主に現在の文の視覚情報を利用する。 しかし, 生成したダビングの韻律とマルチモーダルな文脈との整合性は考慮する必要がある。 この側面は以前の研究で見過ごされてきた。 この問題に対処するため,大域的文脈韻律の整合性を確保するために,マルチモーダルなコンテキスト対応ビデオダビングモデルである「textbf{MCDubber}」を提案する。 MCDubber は,(1) 文脈持続時間調整器は,テキストフレームと唇フレーム間のコンテキスト認識アライメントを学習すること,(2) 文脈韻律予測器は,グローバルコンテキストの視覚的シーケンスを読み取って,コンテキスト認識のグローバルエネルギーとピッチを予測すること,(3) コンテキスト音響復号器は,隣接する接地トラスメルスペクトルの助けを借りて,最終的にグローバルコンテキストメルスペクトルを予測すること,の3つの主成分から構成される。 このプロセスを通じて、MCDubberは、ダビング時の現行文の韻律表現性に対するマルチモーダルコンテキストの影響を十分に検討する。 出力コンテキスト mel-spectrograms から対象文に属する抽出したmel-spectrogram は、最後の必要なダビングオーディオである。 Chemベンチマークデータセットの大規模な実験により、我々のMCDubberは、全ての高度なベースラインと比較してダビング表現性を著しく改善することが示された。 コードとデモはhttps://github.com/XiaoYuanJun-zy/MCDubber.comで公開されている。

Automatic Video Dubbing (AVD) aims to take the given script and generate speech that aligns with lip motion and prosody expressiveness. Current AVD models mainly utilize visual information of the current sentence to enhance the prosody of synthesized speech. However, it is crucial to consider whether the prosody of the generated dubbing aligns with the multimodal context, as the dubbing will be combined with the original context in the final video. This aspect has been overlooked in previous studies. To address this issue, we propose a Multimodal Context-aware video Dubbing model, termed \textbf{MCDubber}, to convert the modeling object from a single sentence to a longer sequence with context information to ensure the consistency of the global context prosody. MCDubber comprises three main components: (1) A context duration aligner aims to learn the context-aware alignment between the text and lip frames; (2) A context prosody predictor seeks to read the global context visual sequence and predict the context-aware global energy and pitch; (3) A context acoustic decoder ultimately predicts the global context mel-spectrogram with the assistance of adjacent ground-truth mel-spectrograms of the target sentence. Through this process, MCDubber fully considers the influence of multimodal context on the prosody expressiveness of the current sentence when dubbing. The extracted mel-spectrogram belonging to the target sentence from the output context mel-spectrograms is the final required dubbing audio. Extensive experiments on the Chem benchmark dataset demonstrate that our MCDubber significantly improves dubbing expressiveness compared to all advanced baselines. The code and demos are available at https://github.com/XiaoYuanJun-zy/MCDubber.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# 階層的変分オートエンコーダを用いた学習画像伝送

Learned Image Transmission with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2408.16340v2 )

ライセンス: Link先を確認
Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang, (参考訳) 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。 提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。 これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。 我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。 既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。 さらに,JSCCエンコーダを誘導するレートアテンションモジュールを導入し,事前情報に基づいて符号化戦略を最適化する。 様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。

In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Additionally, we introduce a rate attention module to guide the JSCC encoder in optimizing its encoding strategy based on prior information. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# Werewolfゲームにおける対話生成の状況分析と説得戦略による強化

Enhancing Dialogue Generation in Werewolf Game Through Situation Analysis and Persuasion Strategies ( http://arxiv.org/abs/2408.16586v2 )

ライセンス: Link先を確認
Zhiyang Qi, Michimasa Inaba, (参考訳) 自然言語処理の最近の進歩、特にGPT-4のような大規模言語モデル(LLM)は、対話システムを大幅に強化し、より自然で流動的な会話を生成できるようになった。 これらの改善にもかかわらず、継続的な対話の管理、メモリ保持、幻覚の最小化といった課題が続いている。 AIWolfDial2024は、複雑なインタラクティブ環境でLLMの能力をテストするために、不完全な情報ゲームであるWerewolf Gameを使用することによって、これらの課題に対処する。 本稿では,LLMをベースとしたWerewolf Game AIを提案する。 また、オオカミの役割については、論理的魅力、信用的魅力、感情的魅力など様々な説得戦略が採用され、他のプレイヤーが効果的に行動に沿うように説得する。

Recent advancements in natural language processing, particularly with large language models (LLMs) like GPT-4, have significantly enhanced dialogue systems, enabling them to generate more natural and fluent conversations. Despite these improvements, challenges persist, such as managing continuous dialogues, memory retention, and minimizing hallucinations. The AIWolfDial2024 addresses these challenges by employing the Werewolf Game, an incomplete information game, to test the capabilities of LLMs in complex interactive environments. This paper introduces a LLM-based Werewolf Game AI, where each role is supported by situation analysis to aid response generation. Additionally, for the werewolf role, various persuasion strategies, including logical appeal, credibility appeal, and emotional appeal, are employed to effectively persuade other players to align with its actions.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# Jina-ColBERT-v2: 汎用多言語対話レトリバー

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever ( http://arxiv.org/abs/2408.16672v3 )

ライセンス: Link先を確認
Rohan Jha, Bo Wang, Michael Günther, Georgios Mastrapas, Saba Sturua, Isabelle Mohr, Andreas Koukounas, Mohammad Kalim Akram, Nan Wang, Han Xiao, (参考訳) ColBERTのような多ベクトル密度モデルは情報検索に非常に有効であることが証明されている。 ColBERTの遅延相互作用評価は、クロスエンコーダで見られる共同クエリ文書の注意を近似し、二エンコーダアーキテクチャと最近のインデックス化と検索の最適化のおかげで、従来の高密度検索モデルに近い推論効率を維持している。 本稿では,長いコンテキストウィンドウと多言語検索をサポートする新しいアーキテクチャとトレーニングフレームワークを提案する。 我々の新しいモデルであるJina-ColBERT-v2は、英語と多言語検索タスクにまたがって強い性能を示す。

Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this paper, we introduce a novel architecture and a training framework to support long context window and multilingual retrieval. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks,
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# CSGO:テキスト・画像生成におけるコンテンツスタイルの構成

CSGO: Content-Style Composition in Text-to-Image Generation ( http://arxiv.org/abs/2408.16766v2 )

ライセンス: Link先を確認
Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li, (参考訳) 拡散モデルは、制御された画像生成において例外的な機能を示し、画像スタイルの転送への関心をさらに高めた。 既存の研究は主に、特定のデータが不足しているため、自由な手法(例えば、画像の反転)の訓練に重点を置いている。 本研究では,スタイリングされたデータ三重項を自動生成・浄化するコンテントスタイルの画像三重項に対するデータ構築パイプラインを提案する。 このパイプラインに基づいて、210kのイメージトリプレットを含む最初の大規模スタイル転送データセットであるIMAGStyleを構築し、コミュニティが探索と調査を行うことができる。 IMAGStyleを組み込んだCSGOを提案する。CSGOはエンドツーエンドのトレーニングに基づくスタイル伝達モデルであり、独立した特徴注入を用いたコンテンツとスタイルの特徴を明示的に分離する。 統一CSGOは、画像駆動型スタイル変換、テキスト駆動型スタイル合成、テキスト編集型スタイル合成を実装している。 画像生成におけるスタイル制御機能向上に対する我々のアプローチの有効性を,広範囲にわたる実験により実証した。 ソースコードへのさらなる視覚化とアクセスは、プロジェクトページにある。

The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: \url{https://csgo-gen.github.io/}.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04
# 異なるVictims、同じLayout: 強化されたEメール保護のためのEメールの視覚的類似性検出

Different Victims, Same Layout: Email Visual Similarity Detection for Enhanced Email Protection ( http://arxiv.org/abs/2408.16945v3 )

ライセンス: Link先を確認
Sachin Shukla, Omid Mirzaei, (参考訳) 効果的なスパム検出システムの追求において、しばしば、ルールベースの検出システムまたはキーワードに依存する機械学習(ML)ソリューションを通じて既知のスパムパターンを特定することに焦点が当てられている。 しかし、どちらのシステムも、低コストで達成できる回避技術やゼロデイ攻撃の影響を受けやすい。 そのため、ルールが更新されたり、MLモデルが再トレーニングされたりしても、防衛システムをバイパスした電子メールは、翌日に再びそれを行うことができる。 以前検出されなかったスパムに類似したレイアウトを示すメールを検知できないことは、顧客にとって問題であり、企業の信頼を損なう可能性がある。 我々の観察では、脅威アクターがメールキットを広範囲に再利用し、例えばメールの内容を変更するなど、ほとんど努力せずに検出を回避できることが示されている。 本研究では,電子メール脅威防御システムの検知能力を向上させるために,Pisco という電子メール視覚類似性検出手法を提案する。 我々は,異なる情報源から得られた実世界のサンプルに概念実証を適用した。 以上の結果から,Eメールキットは広範囲に再利用され,視覚的に類似したメールが,さまざまな時間間隔で当社の顧客に送信されていることが明らかとなった。 したがって,本手法は,テキストの特徴やキーワードに依存した検出エンジンがバイパスされる状況において非常に有用である。

In the pursuit of an effective spam detection system, the focus has often been on identifying known spam patterns either through rule-based detection systems or machine learning (ML) solutions that rely on keywords. However, both systems are susceptible to evasion techniques and zero-day attacks that can be achieved at low cost. Therefore, an email that bypassed the defense system once can do it again in the following days, even though rules are updated or the ML models are retrained. The recurrence of failures to detect emails that exhibit layout similarities to previously undetected spam is concerning for customers and can erode their trust in a company. Our observations show that threat actors reuse email kits extensively and can bypass detection with little effort, for example, by making changes to the content of emails. In this work, we propose an email visual similarity detection approach, named Pisco, to improve the detection capabilities of an email threat defense system. We apply our proof of concept to some real-world samples received from different sources. Our results show that email kits are being reused extensively and visually similar emails are sent to our customers at various time intervals. Therefore, this method could be very helpful in situations where detection engines that rely on textual features and keywords are bypassed, an occurrence our observations show happens frequently.
翻訳日:2024-09-05 12:43:35 公開日:2024-09-04