このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240915となっている論文です。

PDF登録状況(公開日: 20240915)

TitleAuthorsAbstract論文公表日・翻訳日
# 長文関係抽出のためのエンティティ対応自己認識と文脈化GCN

Entity-Aware Self-Attention and Contextualized GCN for Enhanced Relation Extraction in Long Sentences ( http://arxiv.org/abs/2409.13755v1 )

ライセンス: Link先を確認
Xin Wang, Xinyi Bai, (参考訳) 重要な自然言語処理(NLP)タスクとしての関係抽出は、テキスト内の名前付きエンティティ間の関係を特定することである。 近年, 依存木上のグラフ畳み込みネットワークは, 構文的特徴を捉えるために広く利用されており, 魅力的な性能を実現している。 しかし、既存の依存性ベースのアプローチのほとんどは、依存関係ツリーの外にある単語のポジティブな影響を無視し、時には関係抽出に関するリッチで有用な情報を伝達する。 本稿では,入力文の構文構造とシーケンスの意味的文脈を効率的に組み込んだ,エンティティ対応型自己意図型GCN(ESC-GCN)を提案する。 具体的には、相対的な位置自己注意は、単語位置に関連する全体的な意味的対関係を求め、文脈化されたグラフ畳み込みネットワークは、適切な操作をすることで、単語間のリッチな文内依存関係をキャプチャする。 さらに、エンティティ対応注意層は、最終的な関係予測を行うためにどのトークンが決定的かを動的に選択する。 このようにして,本提案モデルは依存性木からのノイズの影響を低減させるだけでなく,容易に無視できるエンティティ関連セマンティック表現も得る。 各種タスクに対する大規模な実験により,既存の依存性ベースモデルやシーケンスベースモデルと比較して,我々のモデルが性能の向上を図っている。 特に,長文の実体間の関係を抽出する上で,本モデルが優れている。

Relation extraction as an important natural Language processing (NLP) task is to identify relations between named entities in text. Recently, graph convolutional networks over dependency trees have been widely used to capture syntactic features and achieved attractive performance. However, most existing dependency-based approaches ignore the positive influence of the words outside the dependency trees, sometimes conveying rich and useful information on relation extraction. In this paper, we propose a novel model, Entity-aware Self-attention Contextualized GCN (ESC-GCN), which efficiently incorporates syntactic structure of input sentences and semantic context of sequences. To be specific, relative position self-attention obtains the overall semantic pairwise correlation related to word position, and contextualized graph convolutional networks capture rich intra-sentence dependencies between words by adequately pruning operations. Furthermore, entity-aware attention layer dynamically selects which token is more decisive to make final relation prediction. In this way, our proposed model not only reduces the noisy impact from dependency trees, but also obtains easily-ignored entity-related semantic representation. Extensive experiments on various tasks demonstrate that our model achieves encouraging performance as compared to existing dependency-based and sequence-based models. Specially, our model excels in extracting relations between entities of long sentences.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-15
# 言語モデルはメタデータを学習する:政治的スタンス検出ケーススタディ

Language Models Learn Metadata: Political Stance Detection Case Study ( http://arxiv.org/abs/2409.13756v1 )

ライセンス: Link先を確認
Stanley Cao, Felix Drinkall, (参考訳) スタンス検出は、オンライン議論の分析から政治キャンペーンの評価に至るまで、社会科学における多くの応用において重要なNLPタスクである。 本稿では,メタデータを政治的スタンス検出タスクに組み込むための最適な方法について検討する。 我々は,従来のメタデータと言語に基づく政治的スタンス検出データを組み合わせた手法がメタデータ情報を十分に活用していないことを実証した。 次に、政治発言に対する事前メタデータ(例えば、政党や政策)は、全ての基準を上回り、複雑なメタデータ包摂システムではタスクを最適に学習できないことを示す。

Stance detection is a crucial NLP task with numerous applications in social science, from analyzing online discussions to assessing political campaigns. This paper investigates the optimal way to incorporate metadata into a political stance detection task. We demonstrate that previous methods combining metadata with language-based data for political stance detection have not fully utilized the metadata information; our simple baseline, using only party membership information, surpasses the current state-of-the-art. We then show that prepending metadata (e.g., party and policy) to political speeches performs best, outperforming all baselines, indicating that complex metadata inclusion systems may not learn the task optimally.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-15
# LLMの効率的なハイブリッド推論:選択的クラウド支援による逆ベーストークンモデリング

Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance ( http://arxiv.org/abs/2409.13757v1 )

ライセンス: Link先を確認
Adarsh MS, Jithin VG, Ditto PS, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的なパフォーマンスで知られているが、その展開には高い計算コストと金銭的コストが伴う。 一方、より小規模な言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるため、より大きな言語モデルの性能に匹敵する。 本稿では,コストのかかるクラウドベースのLLMへの依存を最小限に抑えつつ,両モデルの強みを生かしたハイブリッド推論手法を提案する。 本手法では,トークン生成時のクラウドLCMの関与を動的に決定する報奨に基づくメカニズムを導入する。 具体的には、SLMによって予測される各トークンは、報酬スコアに対して評価され、このスコアが一定の閾値以下になったときのみ、次のトークン予測における支援のために相談されるクラウドLSMである。 この方法は、クラウドLLMへのトラフィックを減らすだけでなく、報酬スコアの閾値に応じて応答品質を柔軟に制御できる。 実験結果から,提案手法は全体の応答品質に最小限の影響を伴って,クラウドLLM使用率を著しく低減し,高性能言語モデルを展開するためのコスト効率の高いソリューションを提供することを示した。

Large language models (LLMs) are known for their exceptional performance across a range of natural language processing tasks, but their deployment comes at a high computational and financial cost. On the other hand, smaller language models (SLMs), which can be deployed on lower-cost edge devices, struggle to match the performance of their larger counterparts. This paper presents a novel hybrid inference approach that leverages the strengths of both model types while minimizing reliance on costly cloud-based LLMs. Unlike existing methods that route entire queries to either an SLM or a cloud LLM, our approach introduces a reward-based mechanism to dynamically determine the involvement of the cloud LLM during token generation. Specifically, each token predicted by the SLM is evaluated against a reward score, and only when this score falls below a certain threshold is the cloud LLM consulted for assistance in the next token prediction. This method not only reduces the traffic to the cloud LLM, thereby lowering costs, but also allows for flexible control over response quality depending on the reward score threshold. Experimental results demonstrate that our approach significantly reduces cloud LLM usage with minimal impact on overall response quality, offering a cost-effective solution for deploying high-performance language models
翻訳日:2024-11-07 05:24:17 公開日:2024-09-15
# 歌唱過程の最適化:深層学習モデルを用いたゲンレベース歌詞生成

Optimizing the Songwriting Process: Genre-Based Lyric Generation Using Deep Learning Models ( http://arxiv.org/abs/2409.13758v1 )

ライセンス: Link先を確認
Tracy Cai, Wilson Liang, Donte Townes, (参考訳) 伝統的な曲の書き方はかなり複雑で、ジャンルに合った歌詞を作り、包括的な詩を形成するのに要する時間で明らかである。 本研究の目的は、このプロセスを深層学習技術で単純化し、曲の書き込みを最適化し、アーティストがジャンルに留まりながらターゲットのオーディエンスにヒットできるようにすることである。 Spotifyの18,000曲のデータセットを使用して、トークンを使用して歌詞を個別の詩にパースする独自の前処理フォーマットを開発した。 これらの結果は,ベースライン事前訓練セク2セックモデルとLSTMに基づくニューラルネットワークモデルを歌のジャンルに応じてトレーニングするために用いられた。 その結果, ベースラインモデルでは高いリコール率 (ROUGE) が得られたが, どちらのモデルにも類似の精度 (BLEU) が得られた。 質的に見れば、オリジナルのモデルによって生成された歌詞のフレーズの多くは、必ずしも真の歌詞と全く同じではないにもかかわらず、どのジャンルにどのジャンルが収まるかが理解でき、識別可能であることが分かりました。 以上の結果から,歌詞生成はジャンルベースの歌詞作成や,歌詞作成プロセスの高速化に有効であることが示唆された。

The traditional songwriting process is rather complex and this is evident in the time it takes to produce lyrics that fit the genre and form comprehensive verses. Our project aims to simplify this process with deep learning techniques, thus optimizing the songwriting process and enabling an artist to hit their target audience by staying in genre. Using a dataset of 18,000 songs off Spotify, we developed a unique preprocessing format using tokens to parse lyrics into individual verses. These results were used to train a baseline pretrained seq2seq model, and a LSTM-based neural network models according to song genres. We found that generation yielded higher recall (ROUGE) in the baseline model, but similar precision (BLEU) for both models. Qualitatively, we found that many of the lyrical phrases generated by the original model were still comprehensible and discernible between which genres they fit into, despite not necessarily being the exact the same as the true lyrics. Overall, our results yielded that lyric generation can reasonably be sped up to produce genre-based lyrics and aid in hastening the songwriting process.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-15
# マルチモーダルウェアラブルとモバイルセンシングを用いた毎日の空調予測

Loneliness Forecasting Using Multi-modal Wearable and Mobile Sensing in Everyday Settings ( http://arxiv.org/abs/2410.00020v1 )

ライセンス: Link先を確認
Zhongqi Yang, Iman Azimi, Salar Jafarlou, Sina Labbaf, Brenda Nguyen, Hana Qureshi, Christopher Marcotullio, Jessica L. Borelli, Nikil Dutt, Amir M. Rahmani, (参考訳) 孤独の悪影響は、身体的および精神的な幸福の両方に深く影響する。 これまでの研究では、モバイルセンシング技術を用いてメンタルヘルスの問題を検知しているが、孤独感を予測し、孤独感とその予測的性質を推定するために最先端のウェアラブルデバイスを使用している研究はほとんどない。 本研究の目的は、スマートリングや時計などのウェアラブルデバイスを用いて、孤独の早期の生理的指標を監視することにより、孤独を予測できる可能性を検討することである。 さらに、スマートフォンは、初期の孤独な行動の兆候を捉えるために使われる。 そこで,本研究では,大学生のモニタリングを含む調査において得られた生理的・行動的情報を含む包括的データセットを活用する,パーソナライズされた機械学習技術を用いた。 パーソナライズされたモデルの開発を通じて、7日間の孤独度予測において、顕著な精度 0.82 と F-1 スコア 0.82 を達成した。 さらに、Shapley値の適用により、モデル説明可能性も向上した。 この研究によって得られた豊富なデータと予測手法が組み合わさって、介入を増強し、リスクのある集団における孤独の早期発見を促進する可能性を持っている。

The adverse effects of loneliness on both physical and mental well-being are profound. Although previous research has utilized mobile sensing techniques to detect mental health issues, few studies have utilized state-of-the-art wearable devices to forecast loneliness and estimate the physiological manifestations of loneliness and its predictive nature. The primary objective of this study is to examine the feasibility of forecasting loneliness by employing wearable devices, such as smart rings and watches, to monitor early physiological indicators of loneliness. Furthermore, smartphones are employed to capture initial behavioral signs of loneliness. To accomplish this, we employed personalized machine learning techniques, leveraging a comprehensive dataset comprising physiological and behavioral information obtained during our study involving the monitoring of college students. Through the development of personalized models, we achieved a notable accuracy of 0.82 and an F-1 score of 0.82 in forecasting loneliness levels seven days in advance. Additionally, the application of Shapley values facilitated model explainability. The wealth of data provided by this study, coupled with the forecasting methodology employed, possesses the potential to augment interventions and facilitate the early identification of loneliness within populations at risk.
翻訳日:2024-11-05 15:38:57 公開日:2024-09-15
# 2つの結合調和振動子の等方性と異方性ハミルトニアンの励起解

Exact solution of the isotropic and anisotropic Hamiltonian of two coupled harmonic oscillators ( http://arxiv.org/abs/2410.00021v1 )

ライセンス: Link先を確認
J. C. Vega, D. Ojeda-Guillén, R. D. Mota, (参考訳) 我々は、$SU(1,1)$および$SU(2)$群の代数的アプローチから、2つの結合調和振動子の等方的および異方的ハミルトニアンを研究する。 この問題のエネルギースペクトルと固有関数を得るために、$SU(1,1)$および$SU(2)$群のボソン生成子の項でハミルトニアンを記述する。 我々は、$su(1,1)$リー代数の1つのボソン実数と2つのボソン実数、および$su(2)$リー代数の1つのボソン実数を用いて、元のハミルトニアンを対角化するために3つの傾斜変換を適用する。 これらの変換により、等方性と異方性の場合の正確な解を得ることができ、そこからカップリングが無視された場合の特定の期待結果が得られる。

We study the isotropic and anisotropic Hamiltonian of two coupled harmonic oscillators from an algebraic approach of the $SU(1,1)$ and $SU(2)$ groups. In order to obtain the energy spectrum and eigenfunctions of this problem, we write its Hamiltonian in terms of the boson generators of the $SU(1,1)$ and $SU(2)$ groups. We use the one boson and two boson realizations of the $su(1,1)$ Lie algebra, and the one boson realization of the $su(2)$ Lie algebra to apply three tilting transformations to diagonalize the original Hamiltonian. These transformations let us to obtain the exact solutions of the isotropic and the anisotropic cases, from which the particular expected results are obtained for the cases where the coupling is neglected.
翻訳日:2024-11-05 15:29:13 公開日:2024-09-15
# 専門家から一般へ:政治的感性ビデオ分析におけるマルチモーダル言語モデルの支配

From Experts to the Public: Governing Multimodal Language Models in Politically Sensitive Video Analysis ( http://arxiv.org/abs/2410.01817v1 )

ライセンス: Link先を確認
Tanusree Sharma, Yujin Potter, Zachary Kilhoffer, Yun Huang, Dawn Song, Yang Wang, (参考訳) 本稿では、政治的に敏感なビデオの分析に焦点をあて、個人的および集団的な検討を通じて、MM-LLM(Multimodal large language model)のガバナンスについて検討する。 筆者らはまず,10人のジャーナリストへのインタビューを通じて,専門家によるビデオ解釈のベースライン理解を確立した。第2に,集中型自律組織(DAO)機構による民主的意思決定を促進するプラットフォームであるInclusive.AIを用いて,一般市民から114人の個人による議論を行った。 以上の結果から,専門家は感情や物語を重視する一方で,一般市民は事実の明確さ,状況の客観性,感情の中立性を優先した。 さらに、我々は異なるガバナンスメカニズムの影響について検討した。2次対重み付けの投票と、AIがどのように振る舞うべきかについての意思決定に等しい20-80の電力分布だ。 具体的には、二次投票は自由民主主義と政治的平等の認識を高め、AIに楽観的な参加者は投票プロセスがより参加的な民主主義のレベルが高いと認識した。 この結果から,AIガバナンスの民主化を支援するためのDAO機構の適用の可能性が示唆された。

This paper examines the governance of multimodal large language models (MM-LLMs) through individual and collective deliberation, focusing on analyses of politically sensitive videos. We conducted a two-step study: first, interviews with 10 journalists established a baseline understanding of expert video interpretation; second, 114 individuals from the general public engaged in deliberation using Inclusive.AI, a platform that facilitates democratic decision-making through decentralized autonomous organization (DAO) mechanisms. Our findings show that while experts emphasized emotion and narrative, the general public prioritized factual clarity, objectivity of the situation, and emotional neutrality. Additionally, we explored the impact of different governance mechanisms: quadratic vs. weighted ranking voting and equal vs. 20-80 power distributions on users decision-making on how AI should behave. Specifically, quadratic voting enhanced perceptions of liberal democracy and political equality, and participants who were more optimistic about AI perceived the voting process to have a higher level of participatory democracy. Our results suggest the potential of applying DAO mechanisms to help democratize AI governance.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-15
# AIのカーボンフットプリントをリスク管理フレームワークに統合する - 銀行部門における持続可能なコンプライアンスのための戦略とツール

Integrating AI's Carbon Footprint into Risk Management Frameworks: Strategies and Tools for Sustainable Compliance in Banking Sector ( http://arxiv.org/abs/2410.01818v1 )

ライセンス: Link先を確認
Nataliya Tkachenko, (参考訳) 本稿では,AIの炭素フットプリントを銀行セクターのリスク管理フレームワーク(RMF)に統合し,持続可能性目標と規制要件との整合性の重要性を強調する。 AIが銀行業務の中心となるにつれ、そのエネルギー集約的なプロセスは二酸化炭素排出量に大きく寄与し、環境、規制、評判のリスクを生じさせる。 EU AI Act, Corporate Sustainability Reporting Directive (CSRD), Corporate Sustainability Due Diligence Directive (CSDDD), and the Prudential Regulation Authority's SS1/23などの規制フレームワークは、環境配慮をAIモデルガバナンスに組み込むよう銀行に促している。 Open Mixture-of-Experts(OLMoE)フレームワークやAgentic RAGフレームワークなど、AI研究の最近の進歩は、より効率的でダイナミックなAIモデルを提供し、パフォーマンスを損なうことなく、カーボンフットプリントを削減している。 これらの技術的例を使って、エネルギー効率の良いモデルの採用、グリーンクラウドコンピューティングの利用、ライフサイクル管理の実装などを含む、銀行がRMF内のAIの炭素フットプリントを特定し、評価し、緩和するための構造化されたアプローチを概説する。

This paper examines the integration of AI's carbon footprint into the risk management frameworks (RMFs) of the banking sector, emphasising its importance in aligning with sustainability goals and regulatory requirements. As AI becomes increasingly central to banking operations, its energy-intensive processes contribute significantly to carbon emissions, posing environmental, regulatory, and reputational risks. Regulatory frameworks such as the EU AI Act, Corporate Sustainability Reporting Directive (CSRD), Corporate Sustainability Due Diligence Directive (CSDDD), and the Prudential Regulation Authority's SS1/23 are driving banks to incorporate environmental considerations into their AI model governance. Recent advancements in AI research, like the Open Mixture-of-Experts (OLMoE) framework and the Agentic RAG framework, offer more efficient and dynamic AI models, reducing their carbon footprint without compromising performance. Using these technological examples, the paper outlines a structured approach for banks to identify, assess, and mitigate AI's carbon footprint within their RMFs, including adopting energy-efficient models, utilising green cloud computing, and implementing lifecycle management.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-15
# 2UAV RANスライシング用ハイブリッド溶液

A hybrid solution for 2-UAV RAN slicing ( http://arxiv.org/abs/2409.11432v1 )

ライセンス: Link先を確認
Nathan Boyer, (参考訳) インターネットをドローンでユーザーに配布することも可能だ。 しかし、ユーザーの位置に応じてドローンを配置する必要がある。 さらに、第5世代(5G)ニューラジオ(NR)技術は幅広い用途や産業に対応するように設計されている。 NGNM 5G White Paper \cite{5gwhitepaper}は、これらの垂直ユースケースを3つのカテゴリに分類している。 物理ネットワークを複数の仮想ネットワークに分割することは、各アプリケーション用にカスタマイズされたサービスを提供し、運用コストを制限する最良の方法のようだ。 この設計は \textit{network slicing} として知られている。 これにより、各ドローンは3つのユーザークラス間で帯域幅をスライスする必要がある。 この問題全体(プレースメントと帯域幅)は最適化問題として定義できるが、効率的な解決は非常に難しいため、ほぼ常に典型的にはAIによって解決される。 インターンシップでは、一方のAIと他方の最適化を含むハイブリッドソリューションを構築することで、問題を最適化問題として見ることが依然として有用であることを証明したかったのです。 AIのみを使用するアプローチよりも優れた結果を得るために、私はそれを使っています。

It's possible to distribute the Internet to users via drones. However it is then necessary to place the drones according to the positions of the users. Moreover, the 5th Generation (5G) New Radio (NR) technology is designed to accommodate a wide range of applications and industries. The NGNM 5G White Paper \cite{5gwhitepaper} groups these vertical use cases into three categories: - enhanced Mobile Broadband (eMBB) - massive Machine Type Communication (mMTC) - Ultra-Reliable Low-latency Communication (URLLC). Partitioning the physical network into multiple virtual networks appears to be the best way to provide a customised service for each application and limit operational costs. This design is well known as \textit{network slicing}. Each drone must thus slice its bandwidth between each of the 3 user classes. This whole problem (placement + bandwidth) can be defined as an optimization problem, but since it is very hard to solve efficiently, it is almost always addressed by AI in the litterature. In my internship, I wanted to prove that viewing the problem as an optimization problem can still be useful, by building an hybrid solution involving on one hand AI and on the other optimization. I use it to achieve better results than approaches that use only AI, although at the cost of slightly larger (but still reasonable) computation times.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-15
# マトリックス/膜対応系のファジィ球の大きさと形状

Size and Shape of Fuzzy Spheres from Matrix/Membrane Correspondence ( http://arxiv.org/abs/2409.11435v1 )

ライセンス: Link先を確認
Hai H. Vo, Nguyen H. Nguyen, Trung V. Phan, (参考訳) D=(1+3)次元時空における正規化SU(N=2)行列モデルを用いて,地中ファジィ球の大きさと形状の統計について検討した。 行列・膜対応から楕円体として現れることを示す。 地表面波動関数の数値的および解析的近似により, 予測表面積, 周辺面積, 偏心率, 形状パラメータの推定を行う。 これらの量子膜の幾何学的定数は古典力学から大きく逸脱する。

We study the size and shape statistics of ground state fuzzy spheres when projected onto the transverse plane, utilizing the regularized SU(N=2) matrix model in D=(1+3)-dimensional spacetime. We show that they appear as ellipses, from matrix/membrane correspondence. With our numerical and analytical approximation for the ground state wavefunction, we provide estimations for their expected surface areas, perimeters, eccentricities, and shape-parameters. These geometric constants of quantum membranes deviate drastically from classical mechanics.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-15
# SDNにおけるフレキシブルトラフィック制御法の解析

Analysis of flexible traffic control method in SDN ( http://arxiv.org/abs/2409.11436v1 )

ライセンス: Link先を確認
Marta Szymczyk, (参考訳) 本研究の目的は、SDNネットワークにおけるフレキシブル制御の手法を分析し、SDNコントローラ性能のインテリジェントな適応を可能にする自己開発ソリューションを提案することである。 この研究は、既存のソリューションをレビューするだけでなく、ネットワーク管理の効率性と適応性を高めるアプローチを開発することを目的としている。 このプロジェクトでは、動的に変化する環境で選択に基づいて学習するネットワークの自律的な決定を可能にする、現代的なタイプの機械学習であるReinforcement Learningを使用している。 このソリューションは、ネットワークのパフォーマンス向上だけでなく、その柔軟性とリアルタイム適応性、フレキシブルなトラフィック制御も目標としている。

The aim of this paper is to analyze methods of flexible control in SDN networks and to propose a self-developed solution that will enable intelligent adaptation of SDN controller performance. This work aims not only to review existing solutions, but also to develop an approach that will increase the efficiency and adaptability of network management. The project uses a modern type of machine learning, Reinforcement Learning, which allows autonomous decisions of a network that learns based on its choices in a dynamically changing environment, which is most similar to the way humans learn. The solution aims not only to improve the network's performance, but also its flexibility and real-time adaptability - flexible traffic control.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-15
# 高分子ブレンドを用いた原子間力顕微鏡(AFM)画像解析のための機械学習

Machine Learning for Analyzing Atomic Force Microscopy (AFM) Images Generated from Polymer Blends ( http://arxiv.org/abs/2409.11438v1 )

ライセンス: Link先を確認
Aanish Paruchuri, Yunfei Wang, Xiaodan Gu, Arthi Jayaraman, (参考訳) 本稿では,高分子膜から得られた原子間力顕微鏡画像内の領域を特定するために,教師なし学習技術を用いた新しい機械学習ワークフローを提案する。 このワークフローの目的は、2種類のポリマードメインの空間的位置を手動介入をほとんど行わずに同定し、ドメインサイズ分布を計算し、その結果、材料の相分離状態をマクロ相またはミクロ相秩序または乱れ領域として評価することである。 高分子科学や工学の分野で頻繁に発生する上記の課題に応用可能な,コンピュータビジョンや信号処理など,他の分野で使用されている既存のアプローチを概観する。 次に、コンピュータビジョンとAFM画像データセット上の信号処理からこれらのアプローチを検証し、これらのアプローチの長所と短所を特定する。 最初のドメインセグメンテーションタスクでは、離散フーリエ変換や分散統計を用いた離散コサイン変換を用いたワークフローが最適であることがわかった。 コンピュータビジョン分野からのResNet50のディープラーニングアプローチは、DFTやDCTベースのワークフローと比較して、AFM画像の領域分割タスクにおいて、比較的低い性能を示した。 第2のタスクでは、144個の入力AFM画像に対して、既存のポリーピー・ピソン・パッケージを使用して、DFTベースのワークフローからその画像の出力から領域サイズ分布を計算する。 本稿では, 結晶又はアモルファス領域を有するポリマー試料からAIM画像の自動解析を行うためのMLモデリングとワークフロー, ドメイン間の鋭い界面や粗い界面, ミクロ・マクロ相分離領域などを求める, 高分子・軟質材料分野の研究者のためのガイドとして機能する。

In this paper we present a new machine learning workflow with unsupervised learning techniques to identify domains within atomic force microscopy images obtained from polymer films. The goal of the workflow is to identify the spatial location of the two types of polymer domains with little to no manual intervention and calculate the domain size distributions which in turn can help qualify the phase separated state of the material as macrophase or microphase ordered or disordered domains. We briefly review existing approaches used in other fields, computer vision and signal processing that can be applicable for the above tasks that happen frequently in the field of polymer science and engineering. We then test these approaches from computer vision and signal processing on the AFM image dataset to identify the strengths and limitations of each of these approaches for our first task. For our first domain segmentation task, we found that the workflow using discrete Fourier transform or discrete cosine transform with variance statistics as the feature works the best. The popular ResNet50 deep learning approach from computer vision field exhibited relatively poorer performance in the domain segmentation task for our AFM images as compared to the DFT and DCT based workflows. For the second task, for each of 144 input AFM images, we then used an existing porespy python package to calculate the domain size distribution from the output of that image from DFT based workflow. The information and open source codes we share in this paper can serve as a guide for researchers in the polymer and soft materials fields who need ML modeling and workflows for automated analyses of AFM images from polymer samples that may have crystalline or amorphous domains, sharp or rough interfaces between domains, or micro or macrophase separated domains.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-15
# Few-shot Intent 分類における事前訓練の有効性

Effectiveness of Pre-training for Few-shot Intent Classification ( http://arxiv.org/abs/2109.05782v2 )

ライセンス: Link先を確認
Haode Zhang, Yuwei Zhang, Li-Ming Zhan, Jiaxin Chen, Guangyuan Shi, Albert Y. S. Lam, Xiao-Ming Wu, (参考訳) 本報告では,数発の意図分類における事前学習の有効性について検討する。 既存のパラダイムでは、BERTのような大量のラベル付きコーパスで事前訓練された言語モデルが一般的であるが、公開データセットからラベル付き発話の小さなセットでBERTを単純に微調整するのは非常に効果的かつ効率的である。 具体的には、約1000のラベル付きデータを持つ微調整のBERTは、トレーニング済みモデル -- IntentBERTを生成する。 IntentBERTの高効率性は、数発のインテント検出の実現可能性と実用性を確認し、その高度な一般化能力は、インテント分類タスクが、ラベル付きデータの小さなセットから効率的に学習できる、同様の基盤構造を共有することを示唆している。 ソースコードはhttps://github.com/hdzhang-code/IntentBERT.comにある。

This paper investigates the effectiveness of pre-training for few-shot intent classification. While existing paradigms commonly further pre-train language models such as BERT on a vast amount of unlabeled corpus, we find it highly effective and efficient to simply fine-tune BERT with a small set of labeled utterances from public datasets. Specifically, fine-tuning BERT with roughly 1,000 labeled data yields a pre-trained model -- IntentBERT, which can easily surpass the performance of existing pre-trained models for few-shot intent classification on novel domains with very different semantics. The high effectiveness of IntentBERT confirms the feasibility and practicality of few-shot intent detection, and its high generalization ability across different domains suggests that intent classification tasks may share a similar underlying structure, which can be efficiently learned from a small set of labeled data. The source code can be found at https://github.com/hdzhang-code/IntentBERT.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-15
# クラスタリング適応ガウス過程回帰法:非線形固体力学問題の応答パターンに基づくリアルタイム予測

A clustering adaptive Gaussian process regression method: response patterns based real-time prediction for nonlinear solid mechanics problems ( http://arxiv.org/abs/2409.10572v1 )

ライセンス: Link先を確認
Ming-Jian Li, Yanping Lian, Zhanshan Cheng, Lehui Li, Zhidong Wang, Ruxin Gao, Daining Fang, (参考訳) 数値シミュレーションは非線形固体力学の問題を研究するのに強力である。 しかし、メッシュベースまたは粒子ベースの数値法は、特にリアルタイム解析要求の複雑な問題に対して、時間を要するという共通の欠点に悩まされている。 本研究では, 固体力学における非線形構造応答のリアルタイム予測を目的としたクラスタリング適応ガウス過程回帰(CAG)法を提案する。 これは、小さなサンプルサイズ、高精度、高効率なデータ駆動機械学習手法であり、非線形構造応答パターンを活用する。 従来のガウスプロセス回帰(GPR)法と同様に、オフラインおよびオンラインの段階で動作する。 オフラインの段階では、要求駆動型サンプルアロケーションのための異なるパターンにクラスタデータセットに適応的なサンプル生成技術を導入している。 これにより、関心のあるソリューション空間に対するクリティカルサンプルの包括的カバレッジが保証されます。 オンライン段階では、配当戦略に従い、事前予測分類は、訓練された多パターンガウス過程回帰器によって逐次予測される事前定義されたパターンに問題を分類する。 また, 提案手法では, 寸法の低減と復元技術を用いて効率を向上する。 材料, 幾何学, 境界条件の非線形性に関わる一連の問題をCAG法の能力を示すために提示する。 提案手法は1秒以内の精度で予測が可能であり,従来のGPRよりも1~3桁の誤差低減を行うことができる。 CAG法は, 非線形機械的問題をリアルタイムに予測し, 複雑な非線形構造応答パターンに光を当てるための強力なツールとして期待されている。

Numerical simulation is powerful to study nonlinear solid mechanics problems. However, mesh-based or particle-based numerical methods suffer from the common shortcoming of being time-consuming, particularly for complex problems with real-time analysis requirements. This study presents a clustering adaptive Gaussian process regression (CAG) method aiming for real-time prediction for nonlinear structural responses in solid mechanics. It is a data-driven machine learning method featuring a small sample size, high accuracy, and high efficiency, leveraging nonlinear structural response patterns. Similar to the traditional Gaussian process regression (GPR) method, it operates in offline and online stages. In the offline stage, an adaptive sample generation technique is introduced to cluster datasets into distinct patterns for demand-driven sample allocation. This ensures comprehensive coverage of the critical samples for the solution space of interest. In the online stage, following the divide-and-conquer strategy, a pre-prediction classification categorizes problems into predefined patterns sequentially predicted by the trained multi-pattern Gaussian process regressor. In addition, dimension reduction and restoration techniques are employed in the proposed method to enhance its efficiency. A set of problems involving material, geometric, and boundary condition nonlinearities is presented to demonstrate the CAG method's abilities. The proposed method can offer predictions within a second and attain high precision with only about 20 samples within the context of this study, outperforming the traditional GPR using uniformly distributed samples for error reductions ranging from 1 to 3 orders of magnitude. The CAG method is expected to offer a powerful tool for real-time prediction of nonlinear solid mechanical problems and shed light on the complex nonlinear structural response pattern.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-15
# 検出が容易になった: ソリティー脆弱性のための大規模言語モデルの可能性

Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities ( http://arxiv.org/abs/2409.10574v1 )

ライセンス: Link先を確認
Md Tauseef Alam, Raju Halder, Abyayananda Maiti, (参考訳) Ethereumのメインネット上でのSolidityスマートコントラクトの大規模展開は、近年、経済的に動機づけられた攻撃者を惹きつけている。 Ethereumの歴史では、2016年のDAO攻撃(5000万ドルの損失)、2017年のParity Walletハック(1億4600万ドルのロック)、2018年のBeautychainのトークンBEC(9億ドルの市場価値が0に低下)、2022年のNFTゲームブロックチェーン侵害(6億ドルの盗難)など、悪名高い攻撃がいくつかある。 本稿では,大規模言語モデル(LLM)の使用状況とOWASPトップ10脆弱性の検出能力について,包括的に検討する。 このデータセットは、GPT-3.5 TurboやGPT-4o Miniといったクローズドソースモデルとともに、CodeLlama、Llama2、CodeT5、FalconといったオープンソースのLLMのパフォーマンスをベンチマークし比較するために使用します。 提案するSmartVDフレームワークは,BLEUとROUGEのメトリクスを用いて,スマートコントラクトにおける脆弱性検出の有効性を評価することにより,これらのモデルに対して厳格に検証する。 また、SmartVDフレームワークのマルチクラス分類と生成能力を評価するために、ゼロショット、少数ショット、チェーンオブ思考の3つの異なる戦略についても検討する。 その結果,SmartVDはオープンソースモデルよりも優れており,GPT-3.5やGPT-4 Miniといったクローズドソースベースモデルよりも優れていることがわかった。 微調整後、GPT-3.5 TurboとGPT-4o Miniは、脆弱性の検出に99%の精度、タイプ識別に94%、重大度判定に98%の精度で優れた性能を達成した。 特に、SmartVDは 'chain-of- Thought' プロンプト技術で優れているが、微調整されたクローズドソースモデルは 'zero-shot' プロンプトアプローチで優れている。

The large-scale deployment of Solidity smart contracts on the Ethereum mainnet has increasingly attracted financially-motivated attackers in recent years. A few now-infamous attacks in Ethereum's history includes DAO attack in 2016 (50 million dollars lost), Parity Wallet hack in 2017 (146 million dollars locked), Beautychain's token BEC in 2018 (900 million dollars market value fell to 0), and NFT gaming blockchain breach in 2022 ($600 million in Ether stolen). This paper presents a comprehensive investigation of the use of large language models (LLMs) and their capabilities in detecting OWASP Top Ten vulnerabilities in Solidity. We introduce a novel, class-balanced, structured, and labeled dataset named VulSmart, which we use to benchmark and compare the performance of open-source LLMs such as CodeLlama, Llama2, CodeT5 and Falcon, alongside closed-source models like GPT-3.5 Turbo and GPT-4o Mini. Our proposed SmartVD framework is rigorously tested against these models through extensive automated and manual evaluations, utilizing BLEU and ROUGE metrics to assess the effectiveness of vulnerability detection in smart contracts. We also explore three distinct prompting strategies-zero-shot, few-shot, and chain-of-thought-to evaluate the multi-class classification and generative capabilities of the SmartVD framework. Our findings reveal that SmartVD outperforms its open-source counterparts and even exceeds the performance of closed-source base models like GPT-3.5 and GPT-4 Mini. After fine-tuning, the closed-source models, GPT-3.5 Turbo and GPT-4o Mini, achieved remarkable performance with 99% accuracy in detecting vulnerabilities, 94% in identifying their types, and 98% in determining severity. Notably, SmartVD performs best with the `chain-of-thought' prompting technique, whereas the fine-tuned closed-source models excel with the `zero-shot' prompting approach.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-15
# 安定マッチング問題に対するTie-breakingに基づく局所探索アルゴリズム

A Tie-breaking based Local Search Algorithm for Stable Matching Problems ( http://arxiv.org/abs/2409.10575v1 )

ライセンス: Link先を確認
Junyuan Qiu, (参考訳) 不完全リストと結びつき (SMTI) による安定した結婚問題と, 関係のある病院・居住者問題 (HRT) は, 幅広い実践的応用に適合する理論において重要である。 本稿では,SMTIとHRTの両問題に対して,最大サイズの弱安定マッチングを実現するために,タイブレーキングに基づく局所探索アルゴリズム(TBLS)を提案する。 TBLSは、すべてのネクタイを任意に解決することから始まり、好みのランクと現在の安定したマッチングに基づいて、ネクタイ内の相対順序を調整することにより、ネクタイ破り戦略を反復的に洗練する。 さらに,SMTI問題に特化して設計されたTBLS-Eについて紹介する。 この変種は、マッチングサイズを最大化する目的を維持しつつ、2つの単純な修正を通じて株式を拡大する。 他の10の近似アルゴリズムや局所探索アルゴリズムと比較して、TBLSは最も高いマッチングサイズを達成し、TBLS-Eは最も低い性平等コストを示す。 TBLS-EはTBLSに匹敵する大きさを保っている。 どちらのアルゴリズムも、大規模インスタンスの解法において、他の局所探索アルゴリズムよりも高速な計算速度を示す。

The stable marriage problem with incomplete lists and ties (SMTI) and the hospitals/residents problem with ties (HRT) are important in matching theory with broad practical applications. In this paper, we introduce a tie-breaking based local search algorithm (TBLS) designed to achieve a weakly stable matching of maximum size for both the SMTI and HRT problems. TBLS begins by arbitrarily resolving all ties and iteratively refines the tie-breaking strategy by adjusting the relative order within ties based on preference ranks and the current stable matching. Additionally, we introduce TBLS-E, an equity-focused variant of TBLS, specifically designed for the SMTI problem. This variant maintains the objective of maximizing matching size, while enhancing equity through two simple modifications. In comparison with ten other approximation and local search algorithms, TBLS achieves the highest matching size, while TBLS-E exhibits the lowest sex equality cost. Significantly, TBLS-E preserves a matching size comparable to that of TBLS. Both our algorithms demonstrate faster computational speed than other local search algorithms in solving large-sized instances.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-15
# 自動構造化データ抽出のための言語モデルと検索拡張生成

Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports ( http://arxiv.org/abs/2409.10576v1 )

ライセンス: Link先を確認
Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese, (参考訳) 目的:オープンウェイトな大規模言語モデル(LM)と検索拡張生成(RAG)を用いて、構造化されていない放射線学・病理学報告から構造化された臨床情報を抽出する自動システムを開発し、評価し、モデル構成変数が抽出性能に与える影響を評価する。 方法と材料:本研究では,脳腫瘍報告・データシステム(BT-RADS)スコアに注釈付き7,294件の放射線学レポートと,isocitrate dehydrogenase(IDH)変異ステータスに注釈付き2,154件の病理学レポートを使用した。 様々なLMとRAG構成のパフォーマンスをベンチマークするために、自動パイプラインが開発された。 モデルサイズ,量子化,プロンプト戦略,出力フォーマット,推論パラメータの影響を体系的に評価した。 結果: 診断結果からBT-RADSスコアの98%以上を抽出し, 病理所見からIDH変異の90%以上を抽出した。 最上位モデルは医療用微調整のラマ3である。 より大きく、より新しく、より細調整されたモデルは、古いモデルやより小さなモデルよりも一貫して優れていた。 モデル量子化はパフォーマンスに最小限の影響を及ぼした。 精度は大幅に向上した。 RAGは、複雑な病理報告では改善したが、短い放射線診断では改善しなかった。 結論: オープンLMは, 局所プライバシー保護アプリケーションを用いた非構造化臨床報告から構造化臨床データを自動抽出する可能性を示す。 注意深いモデル選択、プロンプトエンジニアリング、アノテートデータを用いた半自動最適化は、最適なパフォーマンスに不可欠である。 これらのアプローチは、医療データ抽出における人間と機械のコラボレーションの可能性を強調し、研究ワークフローで実用的に十分な信頼性を持つ可能性がある。

Purpose: To develop and evaluate an automated system for extracting structured clinical information from unstructured radiology and pathology reports using open-weights large language models (LMs) and retrieval augmented generation (RAG), and to assess the effects of model configuration variables on extraction performance. Methods and Materials: The study utilized two datasets: 7,294 radiology reports annotated for Brain Tumor Reporting and Data System (BT-RADS) scores and 2,154 pathology reports annotated for isocitrate dehydrogenase (IDH) mutation status. An automated pipeline was developed to benchmark the performance of various LMs and RAG configurations. The impact of model size, quantization, prompting strategies, output formatting, and inference parameters was systematically evaluated. Results: The best performing models achieved over 98% accuracy in extracting BT-RADS scores from radiology reports and over 90% for IDH mutation status extraction from pathology reports. The top model being medical fine-tuned llama3. Larger, newer, and domain fine-tuned models consistently outperformed older and smaller models. Model quantization had minimal impact on performance. Few-shot prompting significantly improved accuracy. RAG improved performance for complex pathology reports but not for shorter radiology reports. Conclusions: Open LMs demonstrate significant potential for automated extraction of structured clinical data from unstructured clinical reports with local privacy-preserving application. Careful model selection, prompt engineering, and semi-automated optimization using annotated data are critical for optimal performance. These approaches could be reliable enough for practical use in research workflows, highlighting the potential for human-machine collaboration in healthcare data extraction.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-15
# GLEAN: 対向騒音除去のための生成学習

GLEAN: Generative Learning for Eliminating Adversarial Noise ( http://arxiv.org/abs/2409.10578v1 )

ライセンス: Link先を確認
Justin Lyu Kim, Kyoungwan Woo, (参考訳) DALL-EやStable Diffusionのような強力な拡散モデルの時代には、デジタルアートコミュニティの多くは、これらのモデルを細調整することで、スタイルの模倣攻撃を受けた。 テキストから画像への拡散モデルによってアーティストのスタイルを模倣する能力は、特に明示的な同意なしに、深刻な倫理的問題を提起する。 様々な種類の摂動をデジタルアートに適用するツールであるGlazeは、知覚不可能なノイズから厳しい品質劣化に至るまでの人工物のコストにおいて、スタイルの模倣攻撃を防ぐことに大きな成功を収めている。 Glazeのリリースは、同様の保護方法の有効性に関するさらなる議論を引き起こした。 本稿では,GLEAN を用いた I2I 生成ネットワークを用いて,GLEAN の擬似攻撃前および後におけるグラズ画像からの摂動を除去する手法を提案する。 GLEANはその制限を強調し、さらなる開発を促進することで、Glazeのサポートと強化を目指している。

In the age of powerful diffusion models such as DALL-E and Stable Diffusion, many in the digital art community have suffered style mimicry attacks due to fine-tuning these models on their works. The ability to mimic an artist's style via text-to-image diffusion models raises serious ethical issues, especially without explicit consent. Glaze, a tool that applies various ranges of perturbations to digital art, has shown significant success in preventing style mimicry attacks, at the cost of artifacts ranging from imperceptible noise to severe quality degradation. The release of Glaze has sparked further discussions regarding the effectiveness of similar protection methods. In this paper, we propose GLEAN- applying I2I generative networks to strip perturbations from Glazed images, evaluating the performance of style mimicry attacks before and after GLEAN on the results of Glaze. GLEAN aims to support and enhance Glaze by highlighting its limitations and encouraging further development.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-15
# マイクロバイオームの深層学習と言語モデル研究の最近の進歩

Recent advances in deep learning and language models for studying the microbiome ( http://arxiv.org/abs/2409.10579v1 )

ライセンス: Link先を確認
Binghao Yan, Yunbi Nam, Lingyao Li, Rebecca A. Deek, Hongzhe Li, Siyuan Ma, (参考訳) 近年のディープラーニング、特に大規模言語モデル(LLM)の進歩は、マイクロバイオームやメタゲノミクスのデータの研究方法に大きな影響を与えた。 微生物タンパク質やゲノム配列は、自然言語と同様に生命の言語を形成し、複雑な微生物生態学から有用な知見を抽出するLLMの採用を可能にする。 本稿では,マイクロバイオームとメダゲノミクスデータの解析におけるディープラーニングと言語モデルの適用について概説する。 問題定式化、必要なデータセット、言語モデリング技術の統合に焦点を当てる。 タンパク質/ゲノム言語モデリングとその微生物研究への貢献について概説する。 また,新しいビロミクス言語モデリング,生合成遺伝子クラスタの予測,メタゲノミクス研究のための知識統合などの応用についても論じる。

Recent advancements in deep learning, particularly large language models (LLMs), made a significant impact on how researchers study microbiome and metagenomics data. Microbial protein and genomic sequences, like natural languages, form a language of life, enabling the adoption of LLMs to extract useful insights from complex microbial ecologies. In this paper, we review applications of deep learning and language models in analyzing microbiome and metagenomics data. We focus on problem formulations, necessary datasets, and the integration of language modeling techniques. We provide an extensive overview of protein/genomic language modeling and their contributions to microbiome studies. We also discuss applications such as novel viromics language modeling, biosynthetic gene cluster prediction, and knowledge integration for metagenomics studies.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-15
# 医療ファウンデーションモデルのための検証データ科学

Veridical Data Science for Medical Foundation Models ( http://arxiv.org/abs/2409.10580v1 )

ライセンス: Link先を確認
Ahmed Alaa, Bin Yu, (参考訳) 大規模言語モデル(LLM)のような基礎モデル(FM)の出現は、医学とそれ以上のデータ科学に文化的な変化をもたらした。 このシフトは、特定の、明確に定義されたドメイン質問のために訓練された専門的な予測モデルから、大量の非構造化データに基づいて事前訓練されたジェネラリストFMへ移行することで、様々な臨床タスクや質問に適応することができる。 基礎モデルライフサイクル(FMLC)には、計算資源、モデルとデータアクセス、意思決定能力が複数の利害関係者に分散されている。 FMは基本的に統計モデルであり、この新しいワークフローは、透明で科学的に再現可能なデータサイエンスの実践で期待される厳密な統計分析を妨げる、検証データサイエンス(VDS)の原則に挑戦する。 VDSの原理である予測可能性、計算可能性、安定性(PCS)を考慮して医療用FMLCを批判的に検討し、それが標準データサイエンスワークフローからどのように逸脱するかを説明する。 最後に,VDS の PCS 原則を拡張・洗練する医療用 FMLC を提案する。

The advent of foundation models (FMs) such as large language models (LLMs) has led to a cultural shift in data science, both in medicine and beyond. This shift involves moving away from specialized predictive models trained for specific, well-defined domain questions to generalist FMs pre-trained on vast amounts of unstructured data, which can then be adapted to various clinical tasks and questions. As a result, the standard data science workflow in medicine has been fundamentally altered; the foundation model lifecycle (FMLC) now includes distinct upstream and downstream processes, in which computational resources, model and data access, and decision-making power are distributed among multiple stakeholders. At their core, FMs are fundamentally statistical models, and this new workflow challenges the principles of Veridical Data Science (VDS), hindering the rigorous statistical analysis expected in transparent and scientifically reproducible data science practices. We critically examine the medical FMLC in light of the core principles of VDS: predictability, computability, and stability (PCS), and explain how it deviates from the standard data science workflow. Finally, we propose recommendations for a reimagined medical FMLC that expands and refines the PCS principles for VDS including considering the computational and accessibility constraints inherent to FMs.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-15
# ディープラーニングに基づく3Dセグメンテーション:サーベイ

Deep Learning Based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v4 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Saeed Anwar, Ajmal Mian, (参考訳) 3Dセグメンテーションは、自律運転とロボット工学の応用でコンピュータビジョンの根幹的で難しい問題である。 コンピュータビジョン、グラフィックス、機械学習のコミュニティから大きな注目を集めている。 手作りの特徴と機械学習の分類器に基づく従来の3Dセグメンテーション手法は、一般化能力に欠けていた。 2Dコンピュータビジョンの成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールとなっている。 この結果、さまざまなベンチマークデータセットで評価された文献に多くのメソッドが流入した。 RGB-Dとポイントクラウドセグメンテーションに関する調査論文は存在するが、最近の詳細な調査では、すべての3Dデータモダリティとアプリケーションドメインをカバーしている。 本稿では,このギャップを埋め,ディープラーニングに基づく3Dセグメンテーション技術の最近の進歩を包括的に調査する。 過去6年間の220以上の作品をカバーし、その強みと制限を分析し、ベンチマークデータセット上での競合結果について議論する。 この調査は、最も一般的に使用されているパイプラインの概要を提供し、最終的に将来有望な研究方向性を強調している。

3D segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving and robotics. It has received significant attention from the computer vision, graphics and machine learning communities. Conventional methods for 3D segmentation, based on hand-crafted features and machine learning classifiers, lack generalization ability. Driven by their success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks. This has led to an influx of many methods in the literature that have been evaluated on different benchmark datasets. Whereas survey papers on RGB-D and point cloud segmentation exist, there is a lack of a recent in-depth survey that covers all 3D data modalities and application domains. This paper fills the gap and comprehensively surveys the recent progress in deep learning-based 3D segmentation techniques. We cover over 220 works from the last six years, analyze their strengths and limitations, and discuss their competitive results on benchmark datasets. The survey provides a summary of the most commonly used pipelines and finally highlights promising research directions for the future.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# カーネル化概念消去

Kernelized Concept Erasure ( http://arxiv.org/abs/2201.12191v6 )

ライセンス: Link先を確認
Shauli Ravfogel, Francisco Vargas, Yoav Goldberg, Ryan Cotterell, (参考訳) テキストデータに対するニューラルモデルの表現空間は、トレーニング中に教師なしの方法で現れる。 これらの表現がどのように人間の解釈可能な概念を符号化するかを理解することは、根本的な問題である。 神経表現における概念の同定のための顕著なアプローチの1つは、消去によって概念の予測が表現から妨げられる線形部分空間を探すことである。 しかしながら、多くの線形消去アルゴリズムはトラクタブルで解釈可能であるが、ニューラルネットワークは必ずしも線形な方法で概念を表現するとは限らない。 非線形符号化された概念を識別するために,概念消去のための線形ミニマックスゲームのカーネル化を提案する。 我々は、特定の非線形敵が概念を予測するのを防ぐことが可能であることを実証した。 しかし、保護は異なる非線形敵に移動しない。 したがって、非線型符号化の概念を徹底的に消去することは、未解決の問題である。

The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# ZXダイアグラムの微分積分と量子機械学習への応用

Differentiating and Integrating ZX Diagrams with Applications to Quantum Machine Learning ( http://arxiv.org/abs/2201.13250v6 )

ライセンス: Link先を確認
Quanlong Wang, Richie Yeung, Mark Koch, (参考訳) ZX計算は、幅広い応用が成功した量子技術にとって有用なツールであることが証明されている。 これらの応用のほとんどは代数的性質のものである。 しかし、差別化と統合を含む他のタスクは、現在のZX技術では到達できないままである。 ここでは、ZX-計算の枠組み内での微分と積分を実現することにより、ZXを解析的視点に高める。 本稿では,バレンプラトーの解析に量子機械学習を応用し,ZX計算の新しい解析フレームワークを具体的に解説する。

ZX-calculus has proved to be a useful tool for quantum technology with a wide range of successful applications. Most of these applications are of an algebraic nature. However, other tasks that involve differentiation and integration remain unreachable with current ZX techniques. Here we elevate ZX to an analytical perspective by realising differentiation and integration entirely within the framework of ZX-calculus. We explicitly illustrate the new analytic framework of ZX-calculus by applying it in context of quantum machine learning for the analysis of barren plateaus.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# Few-shot Intent Detectionのための微調整事前学習言語モデル:事前学習と等方化の促進

Fine-tuning Pre-trained Language Models for Few-shot Intent Detection: Supervised Pre-training and Isotropization ( http://arxiv.org/abs/2205.07208v3 )

ライセンス: Link先を確認
Haode Zhang, Haowen Liang, Yuwei Zhang, Liming Zhan, Xiaolei Lu, Albert Y. S. Lam, Xiao-Ming Wu, (参考訳) 少数のアノテーションだけでタスク指向の対話システムに対して、適切な意図分類器を訓練することは困難である。 近年の研究では、公開ベンチマークから少量のラベル付き発話を教師付きで調整した事前学習言語モデルが非常に有用であることが示されている。 しかし,教師付き事前学習により異方性特徴空間が得られ,意味表現の表現力が抑制される可能性がある。 アイソトロピゼーションの最近の研究から着想を得て,特徴空間をアイソトロピに向けて規則化し,教師付き事前学習を改善することを提案する。 比較学習と相関行列に基づく2つの正則化器を提案し,その有効性を示す。 本研究の主目的は,アイソトロピゼーションによる教師付き事前学習の正規化を約束し,撮影意図検出の性能向上を図ることである。 ソースコードはhttps://github.com/fanolabs/isoIntentBert-mainで確認できる。

It is challenging to train a good intent classifier for a task-oriented dialogue system with only a few annotations. Recent studies have shown that fine-tuning pre-trained language models with a small amount of labeled utterances from public benchmarks in a supervised manner is extremely helpful. However, we find that supervised pre-training yields an anisotropic feature space, which may suppress the expressive power of the semantic representations. Inspired by recent research in isotropization, we propose to improve supervised pre-training by regularizing the feature space towards isotropy. We propose two regularizers based on contrastive learning and correlation matrix respectively, and demonstrate their effectiveness through extensive experiments. Our main finding is that it is promising to regularize supervised pre-training with isotropization to further improve the performance of few-shot intent detection. The source code can be found at https://github.com/fanolabs/isoIntentBert-main.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# Width-based Model CheckingからWidth-based Automated Theorem Provingへ

From Width-Based Model Checking to Width-Based Automated Theorem Proving ( http://arxiv.org/abs/2205.10995v3 )

ライセンス: Link先を確認
Mateus de Oliveira Oliveira, Farhad Vadiee, (参考訳) パラメータ化複雑性理論の分野では、グラフ上の組合せ特性に対する幅に基づくモデル検査アルゴリズムの開発とグラフ幅測度の研究が密接に関連している。 本研究では,境界幅のグラフのクラス上でのグラフ理論的予想の妥当性を検証するアルゴリズムに,広い範囲のモデルチェックアルゴリズムを変換する一般的なフレームワークを提案する。 我々のフレームワークはモジュラーであり、木幅や斜め幅を含むグラフのいくつかのよく研究された幅測度に対して適用することができる。 我々のフレームワークの定量的応用として、いくつかの長期グラフ理論予想に対して、入力として$k$の数値を取るアルゴリズムが存在し、$k^{O(1)} において、この予想が木幅のすべてのグラフ上で少なくとも$k$の値で有効であるかどうかを正確に判定するアルゴリズムが存在することを解析的に証明する。 これらの上界は、木幅のグラフのクラスを最大$k$とするこれらの予想の証明や反証のサイズの上界と見なすことができ、既に利用可能な手法を用いて得られる理論上界を著しく改善する。

In the field of parameterized complexity theory, the study of graph width measures has been intimately connected with the development of width-based model checking algorithms for combinatorial properties on graphs. In this work, we introduce a general framework to convert a large class of width-based model-checking algorithms into algorithms that can be used to test the validity of graph-theoretic conjectures on classes of graphs of bounded width. Our framework is modular and can be applied with respect to several well-studied width measures for graphs, including treewidth and cliquewidth. As a quantitative application of our framework, we prove analytically that for several long-standing graph-theoretic conjectures, there exists an algorithm that takes a number $k$ as input and correctly determines in time double-exponential in $k^{O(1)}$ whether the conjecture is valid on all graphs of treewidth at most $k$. These upper bounds, which may be regarded as upper-bounds on the size of proofs/disproofs for these conjectures on the class of graphs of treewidth at most $k$, improve significantly on theoretical upper bounds obtained using previously available techniques.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# Few-Shot Learningのための擬似ラベルに基づく半教師付きメタトレーニング

Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning ( http://arxiv.org/abs/2207.06817v3 )

ライセンス: Link先を確認
Xingping Dong, Tianran Ouyang, Shengcai Liao, Bo Du, Ling Shao, (参考訳) 既存の少数ショット学習(FSL)手法の多くは、メタトレーニングにおいて大量のラベル付きデータを必要とするが、これは大きな限界である。 ラベルの要件を軽減するため, FSL では,少数のラベル付きサンプルと未ラベル付きサンプル数を含む半教師付きメタトレーニング (SSMT) 設定が提案されている。 しかし、既存の手法では、未ラベル集合の仮定に反する未ラベル集合からのクラスを意識したサンプル選択が必要となる。 本稿では,実シナリオにおけるFSLの適用を促進するために,実際にラベルのないデータを用いた半教師付きメタトレーニング環境を提案する。 ラベル付きデータと真にラベル付けされていないデータの両方をよりよく活用するために,擬似ラベル付きメタラーニング(PLML)と呼ばれる,シンプルで効果的なメタトレーニングフレームワークを提案する。 まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。 次に,ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し,ノイズラベルからFSLモデルをよりよく学習するための特徴平滑化とノイズ抑圧を備えた新しいファインタニング手法を設計する。 驚くべきことに、2つのFSLデータセットにわたる広範な実験により、この単純なメタトレーニングフレームワークは、制限付きラベル付きデータの下での様々なFSLモデルの性能劣化を効果的に防止し、また最先端のSSMTモデルよりも大幅に優れていることがわかった。 さらに,メタトレーニングの恩恵を受けながら,提案手法は2つの代表的なSSLアルゴリズムも改善する。

Most existing few-shot learning (FSL) methods require a large amount of labeled data in meta-training, which is a major limit. To reduce the requirement of labels, a semi-supervised meta-training (SSMT) setting has been proposed for FSL, which includes only a few labeled samples and numbers of unlabeled samples in base classes. However, existing methods under this setting require class-aware sample selection from the unlabeled set, which violates the assumption of unlabeled set. In this paper, we propose a practical semi-supervised meta-training setting with truly unlabeled data to facilitate the applications of FSL in realistic scenarios. To better utilize both the labeled and truly unlabeled data, we propose a simple and effective meta-training framework, called pseudo-labeling based meta-learning (PLML). Firstly, we train a classifier via common semi-supervised learning (SSL) and use it to obtain the pseudo-labels of unlabeled data. Then we build few-shot tasks from labeled and pseudo-labeled data and design a novel finetuning method with feature smoothing and noise suppression to better learn the FSL model from noise labels. Surprisingly, through extensive experiments across two FSL datasets, we find that this simple meta-training framework effectively prevents the performance degradation of various FSL models under limited labeled data, and also significantly outperforms the state-of-the-art SSMT models. Besides, benefiting from meta-training, our method also improves two representative SSL algorithms as well.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-15
# 双曲多様体上のGPLVMを介して連続領域に運動分類学をもたらす

Bringing motion taxonomies to continuous domains via GPLVM on hyperbolic manifolds ( http://arxiv.org/abs/2210.01672v5 )

ライセンス: Link先を確認
Noémie Jaquier, Leonel Rozo, Miguel González-Duque, Viacheslav Borovitskiy, Tamim Asfour, (参考訳) 人間の運動分類学は、人間がどのように動いたり環境と相互作用するかを分類する高レベルの階層的抽象化として機能する。 把握、操作のスキル、全身的支援のポーズを分析するのに有用であることが証明されている。 階層と下位のカテゴリの設計に多大な努力を払っているにも関わらず、その使用は限られている。 これは、分類学の離散的階層構造と、そのカテゴリに関連する高次元の不均一なデータの間のギャップを埋める計算モデルが欠如していることに起因する可能性がある。 この問題を克服するために,我々は,関連する階層構造を捉えるハイパーボリック埋め込みを用いて分類データをモデル化することを提案する。 我々は、グラフに基づく潜在空間と距離保存制約による分類構造を組み込んだ新しいガウス過程双曲潜在変数モデルを定式化し、これを達成した。 我々は3つの異なるヒトの運動分類学のモデルの有効性を検証し、元のグラフ構造を忠実に保存する双曲的埋め込みを学習する。 本モデルでは,既存の分類群や新分類群の未確認データを適切にエンコードし,EuclideanおよびVAEベースの分類群よりも優れていることを示す。 最後に,概念実証実験を通じて,本モデルを用いて学習した埋め込み間の現実的な軌跡を生成できることを示す。

Human motion taxonomies serve as high-level hierarchical abstractions that classify how humans move and interact with their environment. They have proven useful to analyse grasps, manipulation skills, and whole-body support poses. Despite substantial efforts devoted to design their hierarchy and underlying categories, their use remains limited. This may be attributed to the lack of computational models that fill the gap between the discrete hierarchical structure of the taxonomy and the high-dimensional heterogeneous data associated to its categories. To overcome this problem, we propose to model taxonomy data via hyperbolic embeddings that capture the associated hierarchical structure. We achieve this by formulating a novel Gaussian process hyperbolic latent variable model that incorporates the taxonomy structure through graph-based priors on the latent space and distance-preserving back constraints. We validate our model on three different human motion taxonomies to learn hyperbolic embeddings that faithfully preserve the original graph structure. We show that our model properly encodes unseen data from existing or new taxonomy categories, and outperforms its Euclidean and VAE-based counterparts. Finally, through proof-of-concept experiments, we show that our model may be used to generate realistic trajectories between the learned embeddings.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-15
# Triadic Temporal Exponential Random Graph Models (TTERGM)

Triadic Temporal Exponential Random Graph Models (TTERGM) ( http://arxiv.org/abs/2211.16229v2 )

ライセンス: Link先を確認
Yifan Huang, Clayton Barham, Eric Page, PK Douglas, (参考訳) 時間指数的ランダムグラフモデル (TERGM) は、複雑なネットワーク(例えばソーシャルネットワーク)におけるエッジ形成と除去の時間パターンを推測するために使用できる強力な統計モデルである。 TERGMは、これらの進化するグラフの時系列データを予測するために、生成能力として使用することもできる。 しかし、この枠組みにおけるパラメータ推定は、三進的関係、小さな世界特性、そして二進的共変量の確率論的推定を制限するのに使用できる社会学習理論など、ソーシャルネットワークの現実的な特性を捉えることに失敗する。 本稿では、この空白を埋める3進時間時間指数的ランダムグラフモデル(TTERGM)を提案する。 我々は,グラフベクトル空間におけるマルコフ連鎖を最適化する確率分布として,ソーシャルネットワーク学習理論を表現している。 新しいパラメータはモンテカルロ最大推定によって近似される。 我々は,我々のTTERGMモデルが,GitHubのネットワークデータ上でのベンチマーク手法と比較して,精度の向上と精度の向上を実現していることを示す。

Temporal exponential random graph models (TERGM) are powerful statistical models that can be used to infer the temporal pattern of edge formation and elimination in complex networks (e.g., social networks). TERGMs can also be used in a generative capacity to predict longitudinal time series data in these evolving graphs. However, parameter estimation within this framework fails to capture many real-world properties of social networks, including: triadic relationships, small world characteristics, and social learning theories which could be used to constrain the probabilistic estimation of dyadic covariates. Here, we propose triadic temporal exponential random graph models (TTERGM) to fill this void, which includes these hierarchical network relationships within the graph model. We represent social network learning theory as an additional probability distribution that optimizes Markov chains in the graph vector space. The new parameters are then approximated via Monte Carlo maximum likelihood estimation. We show that our TTERGM model achieves improved fidelity and more accurate predictions compared to several benchmark methods on GitHub network data.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-15
# 量子鎖の準粒子状態におけるシャノンエントロピー

Shannon entropy in quasiparticle states of quantum chains ( http://arxiv.org/abs/2303.14132v2 )

ライセンス: Link先を確認
Wentao Ye, Jiaju Zhang, (参考訳) スピン-1/2XXX鎖の強磁性相と自由ボゾン鎖およびフェルミオン鎖の準粒子励起状態におけるシャノンエントロピーとそのサブシステムのシャノンエントロピーおよびサブシステムシャノン相互情報について検討する。 単一粒子および二重粒子状態に対しては、スケーリング限界における自由ボゾン鎖とフェルミオン鎖の様々な解析式を導出する。 これらの公式は、スケーリング極限におけるXXX鎖の特定のマグノン励起状態にも適用できる。 また, ボゾン系, フェルミオン系およびXXX系における三重粒子および四重粒子状態のシャノンエントロピーと相互情報の数値計算を行った。 シャノンエントロピーはエンタングルメントエントロピーとは異なり、運動量差が大きい準粒子に対しては分離しない。 さらに、大きな運動量差の極限において、一般に区別され、半古典的図形では説明できない普遍的な量子ボゾンとフェルミオンの結果が得られる。

We investigate the Shannon entropy of the total system and its subsystems, as well as the subsystem Shannon mutual information, in quasiparticle excited states of free bosonic and fermionic chains and the ferromagnetic phase of the spin-1/2 XXX chain. For single-particle and double-particle states, we derive various analytical formulas for free bosonic and fermionic chains in the scaling limit. These formulas are also applicable to certain magnon excited states in the XXX chain in the scaling limit. We also calculate numerically the Shannon entropy and mutual information for triple-particle and quadruple-particle states in bosonic, fermionic, and XXX chains. We discover that Shannon entropy, unlike entanglement entropy, typically does not separate for quasiparticles with large momentum differences. Moreover, in the limit of large momentum difference, we obtain universal quantum bosonic and fermionic results that are generally distinct and cannot be explained by a semiclassical picture.
翻訳日:2024-09-18 05:51:13 公開日:2024-09-15
# RoCOCO:MS-COCOのストレステスト画像テキストマッチングモデルに対するロバスト性ベンチマーク

RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models ( http://arxiv.org/abs/2304.10727v3 )

ライセンス: Link先を確認
Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun, (参考訳) 様々な下流タスクで視覚言語モデルが広く使われているため、その堅牢性を評価することが重要である。 本稿では,視覚言語モデルのロバスト性を評価するためのベンチマークを提案する。 我々は、ロバストモデルが言語的意味論と視覚的意味論の両方を適切に理解し、明示的なバリエーションに耐性があることを信じている。 この目的を追求するため、MS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いてSOTA(State-of-the-art)モデルを再評価する。 具体的には、単語を置換してテキストの意味を変更し、画像ミキシング技術を用いて視覚的に変化した画像を生成する。提案したベンチマークでは、多くのSOTAモデル(例えば、画像からテキストへのリコール@1:81.9\% $\rightarrow$ 48.4\%、BLIP 66.1\% $\rightarrow$ 37.6\%、VSE$\infty$)において、大きなパフォーマンス劣化を示す。 これは、現在の視覚言語モデルは微妙な変化に悩まされ、しばしばテキストや画像の全体的なコンテキストを理解するのに失敗していることを示している。 これらの知見に基づき,より堅牢な埋め込み学習のために,意味的コントラスト損失と視覚的コントラスト損失を提案する。 データセットとコードは {\url{https://github.com/pseulki/rococo}}で入手できる。

With the extensive use of vision-language models in various downstream tasks, evaluating their robustness is crucial. In this paper, we propose a benchmark for assessing the robustness of vision-language models. We believe that a robust model should properly understand both linguistic and visual semantics and be resilient to explicit variations. In pursuit of this goal, we create new variants of texts and images in the MS-COCO test set and re-evaluate the state-of-the-art (SOTA) models with the new data. Specifically, we alter the meaning of text by replacing a word, and generate visually altered images that maintain some visual context while introducing noticeable pixel changes through image mixing techniques.Our evaluations on the proposed benchmark reveal substantial performance degradation in many SOTA models (e.g., Image-to-Text Recall@1: 81.9\% $\rightarrow$ 48.4\% in BLIP, 66.1\% $\rightarrow$ 37.6\% in VSE$\infty$), with the models often favoring the altered texts/images over the original ones. This indicates the current vision-language models struggle with subtle changes and often fail to understand the overall context of texts and images. Based on these findings, we propose semantic contrastive loss and visual contrastive loss to learn more robust embedding. Datasets and code are available at {\url{https://github.com/pseulki/rococo}}.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# Sarah Frank-Wolfe: ベストレートと実用性を備えた制約付き最適化手法

Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features ( http://arxiv.org/abs/2304.11737v2 )

ライセンス: Link先を確認
Aleksandr Beznosikov, David Dobre, Gauthier Gidel, (参考訳) Frank-Wolfe (FW) 法は、機械学習アプリケーションで発生する構造化制約による最適化問題の解法として一般的な手法である。 近年、FWの確率的なバージョンが人気を集めており、完全な勾配の計算が違法に高価である大規模データセットによって動機付けられている。 本稿では、確率的有限サム最小化のためのFWアルゴリズムの2つの新しい変種を示す。 我々のアルゴリズムは、凸関数と非凸関数の両方に対して、既存の確率的FWアプローチの最良の収束保証を有する。 提案手法は,多くの確率的プロジェクションフリーアプローチに共通する,大規模なバッチを永久に収集する問題を持たない。 さらに、我々の2番目のアプローチでは、大きなバッチや完全な決定論的勾配は必要とせず、有限サム問題に対する多くの手法の典型的な弱点である。 提案手法のより高速な理論速度を実験的に検証した。

The Frank-Wolfe (FW) method is a popular approach for solving optimization problems with structured constraints that arise in machine learning applications. In recent years, stochastic versions of FW have gained popularity, motivated by large datasets for which the computation of the full gradient is prohibitively expensive. In this paper, we present two new variants of the FW algorithms for stochastic finite-sum minimization. Our algorithms have the best convergence guarantees of existing stochastic FW approaches for both convex and non-convex objective functions. Our methods do not have the issue of permanently collecting large batches, which is common to many stochastic projection-free approaches. Moreover, our second approach does not require either large batches or full deterministic gradients, which is a typical weakness of many techniques for finite-sum problems. The faster theoretical rates of our approaches are confirmed experimentally.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# トランスフォーマーを用いた両眼画像からの立体認識3次元物体検出

Transformer-based stereo-aware 3D object detection from binocular images ( http://arxiv.org/abs/2304.11906v4 )

ライセンス: Link先を確認
Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li, (参考訳) トランスフォーマーは、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な視覚オブジェクト検出タスクにおいて有望な進歩を示している。 さらに重要なことは、トランスフォーマーモデルにおける注意機構と双眼ステレオにおける3次元情報抽出は、どちらも類似性に基づくものである。 しかし、既存のTransformerベースの検出器を双眼鏡ステレオ3Dオブジェクト検出に直接適用すると、収束が遅く、精度が大幅に低下する。 この欠陥の主な原因は、既存のトランスフォーマーが双眼ステレオ特有の画像対応情報を無視していることである。 本稿では,両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討し,特にタスク固有画像対応情報の抽出と符号化に着目した。 この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。 TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モジュールを提案する。 対応を正規化サブピクセルレベルの不一致として符号化し、正弦波2D位置符号化と併用してシーンの3D位置情報を提供する。 マルチスケールステレオ特徴量を高めるために,Stereo Preserving Feature Pyramid Network (SPFPN)を提案する。 SPFPNは、規模内および規模の異なるステレオ特徴を融合させながら、対応情報を保存するように設計されている。 提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。 精度と推論速度の両面で、高度な競合相手と競合する。

Transformers have shown promising progress in various visual object detection tasks, including monocular 2D/3D detection and surround-view 3D detection. More importantly, the attention mechanism in the Transformer model and the 3D information extraction in binocular stereo are both similarity-based. However, directly applying existing Transformer-based detectors to binocular stereo 3D object detection leads to slow convergence and significant precision drops. We argue that a key cause of that defect is that existing Transformers ignore the binocular-stereo-specific image correspondence information. In this paper, we explore the model design of Transformers in binocular 3D object detection, focusing particularly on extracting and encoding task-specific image correspondence information. To achieve this goal, we present TS3D, a Transformer-based Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional Encoding (DAPE) module is proposed to embed the image correspondence information into stereo features. The correspondence is encoded as normalized sub-pixel-level disparity and is used in conjunction with sinusoidal 2D positional encoding to provide the 3D location information of the scene. To enrich multi-scale stereo features, we propose a Stereo Preserving Feature Pyramid Network (SPFPN). The SPFPN is designed to preserve the correspondence information while fusing intra-scale and aggregating cross-scale stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection average precision on the KITTI test set and takes 88 ms to detect objects from each binocular image pair. It is competitive with advanced counterparts in terms of both precision and inference speed.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# MARS: 車両損傷事例セグメンテーションのためのシークエンシャル・クアドツリーノードを用いたマスク注意保持

MARS: Mask Attention Refinement with Sequential Quadtree Nodes for Car Damage Instance Segmentation ( http://arxiv.org/abs/2305.04743v4 )

ライセンス: Link先を確認
Teerapong Panboonyuen, Naphat Nithisopa, Panin Pienroj, Laphonchai Jirachuphun, Chaiwasut Watthanasirikrit, Naruepon Pornwiriyakul, (参考訳) 自動車保険業界にとって、不運による自動車被害の評価が重要である。 しかし、深層学習ネットワークは車両の損傷画像を入力として設計されておらず、その分割マスクはいまだに粗いため、現実世界のアプリケーションでは精度は依然として不十分である。 本稿では,自動車損傷事例分割のためのMARS(Mask Attention Refinement with Sequential quadtree node)を提案する。 我々のMARSは、シーケンシャルなクアッドツリーノード層とクアッドツリートランスフォーマーの間のグローバルな依存関係を引き出す自己注意機構を表現し、チャネル重みを補正し、高精度なインスタンスマスクを予測する。 大規模な実験により、MARSはMask R-CNN [9]、PointRend [13]、Mask Transfiner [12]の3つの人気のあるベンチマークで、+1.3マスクAPベースのR50-FPNバックボーンと+2.3マスクAPベースのR101-FPNバックボーンで、SOTA(State-of-the-art)インスタンスセグメンテーションメソッドよりも優れていることが示された。 デモはhttps://github.com/kaopanboonyuen/MARS.comで公開しています。

Evaluating car damages from misfortune is critical to the car insurance industry. However, the accuracy is still insufficient for real-world applications since the deep learning network is not designed for car damage images as inputs, and its segmented masks are still very coarse. This paper presents MARS (Mask Attention Refinement with Sequential quadtree nodes) for car damage instance segmentation. Our MARS represents self-attention mechanisms to draw global dependencies between the sequential quadtree nodes layer and quadtree transformer to recalibrate channel weights and predict highly accurate instance masks. Our extensive experiments demonstrate that MARS outperforms state-of-the-art (SOTA) instance segmentation methods on three popular benchmarks such as Mask R-CNN [9], PointRend [13], and Mask Transfiner [12], by a large margin of +1.3 maskAP-based R50-FPN backbone and +2.3 maskAP-based R101-FPN backbone on Thai car-damage dataset. Our demos are available at https://github.com/kaopanboonyuen/MARS.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# シミュレーションに基づく最適化のための指数量子スピードアップ

Exponential Quantum Speedup for Simulation-Based Optimization Applications ( http://arxiv.org/abs/2305.08482v3 )

ライセンス: Link先を確認
Jonas Stein, Lukas Müller, Leonhard Hölscher, Georgios Chnitidis, Jezer Jojo, Afrah Farea, Mustafa Serdar Çelebi, David Bucher, Jonathan Wulf, David Fischer, Philipp Altmann, Claudia Linnhoff-Popien, Sebastian Feld, (参考訳) 多くの産業的な物理的プロセスのシミュレーションは、量子アルゴリズムを用いて指数関数的に高速に実行することができる。 しかし、このスピードアップは、シミュレーションのデータ入力と出力を効率的に実装できる場合にのみ有効である。 近年の最適状態生成の進歩は、多くのケースにおいて、アクセル量子ビットの適度なコストでデータ入力の問題を効果的に解くことができるが、出力問題は一般には効果的に解けないことを示す。 しかし、多くの実用的な応用において、多くのシミュレーション問題がより大きな最適化問題のサブプロブレムとしてのみ発生することを認識して、出力問題に悩まされない実用上の問題のクラスを同定し、定義する:量子シミュレーションベース最適化(QuSO)。 QuSOは、目的関数と/または制約がシミュレーションの結果の要約統計情報、すなわち量子状態ベクトルから効率的に抽出できる情報に依存する最適化問題を表す。 本稿では,シミュレーション問題の線形性を特徴とするQuSOのLinQuSOサブクラスに着目し,線形方程式系としてシミュレーション問題を定式化することができる。 量子特異値変換(QSVT)と量子近似最適化アルゴリズム(QAOA)を巧みに組み合わせることで、LinQuSO問題の大部分群が、そのシミュレーション成分に関して指数的量子スピードアップで解けることを示す。 最後に、このQuSO問題のサブグループに該当する2つの実用的なユースケースを提示する。

The simulation of many industrially relevant physical processes can be executed up to exponentially faster using quantum algorithms. However, this speedup can only be leveraged if the data input and output of the simulation can be implemented efficiently. While we show that recent advancements for optimal state preparation can effectively solve the problem of data input at a moderate cost of ancillary qubits in many cases, the output problem can provably not be solved efficiently in general. By acknowledging that many simulation problems arise only as a subproblem of a larger optimization problem in many practical applications however, we identify and define a class of practically relevant problems that does not suffer from the output problem: Quantum Simulation-based Optimization (QuSO). QuSO represents optimization problems whose objective function and/or constraints depend on summary statistic information on the result of a simulation, i.e., information that can be efficiently extracted from a quantum state vector. In this article, we focus on the LinQuSO subclass of QuSO, which is characterized by the linearity of the simulation problem, i.e., the simulation problem can be formulated as a system of linear equations. By cleverly combining the quantum singular value transformation (QSVT) with the quantum approximate optimization algorithm (QAOA), we prove that a large subgroup of LinQuSO problems can be solved with up to exponential quantum speedups with regards to their simulation component. Finally, we present two practically relevant use cases that fall within this subgroup of QuSO problems.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# 自己教師付き学習のための行列情報理論

Matrix Information Theory for Self-Supervised Learning ( http://arxiv.org/abs/2305.17326v7 )

ライセンス: Link先を確認
Yifan Zhang, Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan, (参考訳) 最大エントロピー符号化フレームワークは、SimSiam、Barlow Twins、MECといった多くの非コントラスト学習手法に対して統一的な視点を提供する。 このフレームワークに着想を得たMatrix-SSLは,行列情報理論を利用して最大エントロピー符号化損失を行列均一性損失として解釈する手法である。 さらに、Matrix-SSLは、行列アライメント損失をシームレスに取り込み、異なる分岐に共分散行列を直接アライメントすることで、最大エントロピー符号化法を強化する。 実験結果から, Matrix-SSLは, 線形評価条件下でのImageNetデータセットや, 伝達学習タスクのためのMS-COCO上で, 最先端の手法よりも優れていることがわかった。 具体的には,MS-COCO上で伝達学習を行う場合,MoCo v2やBYOLといった従来のSOTA手法よりも3.3%向上し,800エポックの事前学習に比べて400エポックに留まった。 また,行列クロスエントロピー損失を用いた7Bモデルを微調整し,標準クロスエントロピー損失に対するGSM8Kデータセットのマージンを3.1%とすることで,表現学習を言語モデリングシステムに導入する。 コードはhttps://github.com/yifanzhang-pro/Matrix-SSLで公開されている。

The maximum entropy encoding framework provides a unified perspective for many non-contrastive learning methods like SimSiam, Barlow Twins, and MEC. Inspired by this framework, we introduce Matrix-SSL, a novel approach that leverages matrix information theory to interpret the maximum entropy encoding loss as matrix uniformity loss. Furthermore, Matrix-SSL enhances the maximum entropy encoding method by seamlessly incorporating matrix alignment loss, directly aligning covariance matrices in different branches. Experimental results reveal that Matrix-SSL outperforms state-of-the-art methods on the ImageNet dataset under linear evaluation settings and on MS-COCO for transfer learning tasks. Specifically, when performing transfer learning tasks on MS-COCO, our method outperforms previous SOTA methods such as MoCo v2 and BYOL up to 3.3% with only 400 epochs compared to 800 epochs pre-training. We also try to introduce representation learning into the language modeling regime by fine-tuning a 7B model using matrix cross-entropy loss, with a margin of 3.1% on the GSM8K dataset over the standard cross-entropy loss. Code available at https://github.com/yifanzhang-pro/Matrix-SSL.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# PLMを用いた再検討 : 直接微調整と連続事前訓練

Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training ( http://arxiv.org/abs/2306.05278v2 )

ライセンス: Link先を確認
Haode Zhang, Haowen Liang, Liming Zhan, Albert Y. S. Lam, Xiao-Ming Wu, (参考訳) この課題は,少量のラベル付きデータのみを用いて,基礎となる意図に基づいて発話を分類する深層学習モデルを訓練することを伴う。 この問題に対処する現在のアプローチは、インテント分類器を訓練するための発話エンコーダとして使用する前に、外部リソース(会話コーパス、パブリックインテント検出データセット、自然言語理解データセットなど)に基づいて訓練済みの言語モデル(PLM)を微調整することで、継続的な事前トレーニングを行うことである。 本稿では,本課題におけるPLMの過度な適合問題は,予想されるほど深刻ではないため,継続事前学習は必須ではないことを示す。 具体的には、ラベル付きデータの増加に伴い、連続的な事前学習を用いる手法と比較して、ラベル付きサンプルのごく一部で直接微調整されたPLMが良好な結果をもたらすことが判明し、性能格差は急速に減少する。 限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。 実世界のベンチマークに関する総合的な実験は、クラスごとに2つ以上のラベル付きサンプルが与えられた場合、直接微調整は、外部データソースを使用して連続的な事前学習を行う強力なベースラインよりも優れていることを示している。 コードはhttps://github.com/hdzhang-code/DFTPlusにある。

We consider the task of few-shot intent detection, which involves training a deep learning model to classify utterances based on their underlying intents using only a small amount of labeled data. The current approach to address this problem is through continual pre-training, i.e., fine-tuning pre-trained language models (PLMs) on external resources (e.g., conversational corpora, public intent detection datasets, or natural language understanding datasets) before using them as utterance encoders for training an intent classifier. In this paper, we show that continual pre-training may not be essential, since the overfitting problem of PLMs on this task may not be as serious as expected. Specifically, we find that directly fine-tuning PLMs on only a handful of labeled examples already yields decent results compared to methods that employ continual pre-training, and the performance gap diminishes rapidly as the number of labeled data increases. To maximize the utilization of the limited available data, we propose a context augmentation method and leverage sequential self-distillation to boost performance. Comprehensive experiments on real-world benchmarks show that given only two or more labeled samples per class, direct fine-tuning outperforms many strong baselines that utilize external data sources for continual pre-training. The code can be found at https://github.com/hdzhang-code/DFTPlus.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# X線データを用いたCT画像分割のための量子最適化アルゴリズム

Quantum optimization algorithms for CT image segmentation from X-ray data ( http://arxiv.org/abs/2306.05522v2 )

ライセンス: Link先を確認
Kyungtaek Jun, (参考訳) CT(Computed tomography)は、人体の内部構造を医学的に解析するための重要なイメージング技術である。 これまで,再構成CT画像を取得して画像分割を行う必要があった。 しかし,本研究では,2次非制約二元最適化 (QUBO) と呼ばれる高度な量子最適化アルゴリズムを用いた新しい手法を提案する。 このアルゴリズムは、Randon変換を用いて、実験的に得られたシングラムと量子化されたセグメンテーションCT画像から得られた量子化されたシングラムとの差を最小限にしたX線投影データからのセグメンテーションCT画像の取得を可能にする。 本研究では,実世界のX線データの検証にD-Waveのハイブリッドソルバシステムを用いた。

Computed tomography (CT) is an important imaging technique used in medical analysis of the internal structure of the human body. Previously, image segmentation methods were required after acquiring reconstructed CT images to obtain segmented CT images which made it susceptible to errors from both reconstruction and segmentation algorithms. However, this paper introduces a new approach using an advanced quantum optimization algorithm called quadratic unconstrained binary optimization (QUBO). This algorithm enables acquisition of segmented CT images from X-ray projection data with minimized discrepancies between experimentally obtained sinograms and quantized sinograms derived from quantized segmented CT images using the Radon transform. This study utilized D-Wave's hybrid solver system for verification on real-world X-ray data.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-15
# 大規模言語モデルは本当に良い論理的推論子か? 総合的な評価とそれを超えるもの

Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond ( http://arxiv.org/abs/2306.09841v4 )

ライセンス: Link先を確認
Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria, (参考訳) 論理的推論は、知識工学と人工知能の分野において、一貫して根本的かつ重要な役割を担っている。 近年,Large Language Models (LLMs) が自然言語処理(NLP)における注目すべき革新として出現している。 しかし、LLMが人間の知性に類似した段階的な認知推論を必要とする論理的推論の課題に効果的に対処できるかどうかという問題は未解決のままである。 そこで本稿では,このギャップを埋め,包括的に評価することを目的としている。 まず,システマティックな評価を行うために,15の典型的な論理推論データセットを選択し,推論,帰納的,帰納的,混合形式の推論設定に整理する。 評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。 第二に、単純な指標のみに依存する以前の評価(eg , \emph{accuracy})とは違い、目的的および主観的な方法による微妙な評価を提案し、答えと説明の両方をカバーし、例えば \emph{answer correctness}, \emph{explain correctness}, \emph{explain completeness}, \emph{explain redundancy} などである。 さらに、LLMの論理的欠陥を明らかにするために、問題のあるケースは2次元の5つのエラータイプ、すなわち \emph{evidence selection process} と \emph{reasoning process} に起因する。 第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立なコンテンツを持つ新しいデータセットを提案する。 詳細な評価に基づいて、最終的に6次元から論理的推論能力の一般的な評価スキームを形成する(例えば、 \emph{Correct}, \emph{Rigorous}, \emph{Self-aware}, \emph{Active}, \emph{Oriented}, \emph{No Hallucination})。 LLMの長所と短所を反映し、将来の作品の指針を与える。

Logical reasoning consistently plays a fundamental and significant role in the domains of knowledge engineering and artificial intelligence. Recently, Large Language Models (LLMs) have emerged as a noteworthy innovation in natural language processing (NLP). However, the question of whether LLMs can effectively address the task of logical reasoning, which requires gradual cognitive inference similar to human intelligence, remains unanswered. To this end, we aim to bridge this gap and provide comprehensive evaluations in this paper. Firstly, to offer systematic evaluations, we select fifteen typical logical reasoning datasets and organize them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include 3 early-era representative LLMs and 4 trending LLMs. Secondly, different from previous evaluations relying only on simple metrics (e.g., \emph{accuracy}), we propose fine-level evaluations in objective and subjective manners, covering both answers and explanations, including \emph{answer correctness}, \emph{explain correctness}, \emph{explain completeness} and \emph{explain redundancy}. Additionally, to uncover the logical flaws of LLMs, problematic cases will be attributed to five error types from two dimensions, i.e., \emph{evidence selection process} and \emph{reasoning process}. Thirdly, to avoid the influences of knowledge bias and concentrate purely on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. Based on the in-depth evaluations, this paper finally forms a general evaluation scheme of logical reasoning capability from six dimensions (i.e., \emph{Correct}, \emph{Rigorous}, \emph{Self-aware}, \emph{Active}, \emph{Oriented} and \emph{No hallucination}). It reflects the pros and cons of LLMs and gives guiding directions for future works.
翻訳日:2024-09-18 03:47:45 公開日:2024-09-15
# レールのみ:トリリオンパラメータを用いたLDM訓練のための低コスト高性能ネットワーク

Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters ( http://arxiv.org/abs/2307.12169v5 )

ライセンス: Link先を確認
Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani, (参考訳) 本稿では,大規模言語モデル(LLM)をハイパースケールでトレーニングするための,低コストなネットワークアーキテクチャを提案する。 LLMの最適並列化戦略について検討し、LLMのユニークな通信パターンに合わせた新しいデータセンターネットワーク設計を提案する。 LLMトレーニングでは,ネットワーク内の疎結合パターンが生成され,全二分割ネットワークを効率的に構築する必要がなくなる。 その結果,従来のGPUクラスタのスピン層を排除した。 この設計をRailオンリーネットワークと呼び、従来のGPUデータセンタと比較してネットワークコストを38%から77%削減し、ネットワーク消費電力を37%から75%削減しながら、同じトレーニング性能を達成することを示した。 私たちのアーキテクチャは、全トラフィックに対して8.2%から11.2%の完了時間オーバーヘッドしか持たない、全対全通信を備えたMixture-of-Expert(MoE)モデルもサポートしています。 レールのみのネットワークにおける障害の堅牢性について検討し、異なるネットワークとトレーニングパラメータのパフォーマンスへの影響について考察する。

This paper presents a low-cost network architecture for training large language models (LLMs) at hyperscale. We study the optimal parallelization strategy of LLMs and propose a novel datacenter network design tailored to LLM's unique communication pattern. We show that LLM training generates sparse communication patterns in the network and, therefore, does not require any-to-any full-bisection network to complete efficiently. As a result, our design eliminates the spine layer in traditional GPU clusters. We name this design a Rail-only network and demonstrate that it achieves the same training performance while reducing the network cost by 38% to 77% and network power consumption by 37% to 75% compared to a conventional GPU datacenter. Our architecture also supports Mixture-of-Expert (MoE) models with all-to-all communication through forwarding, with only 8.2% to 11.2% completion time overhead for all-to-all traffic. We study the failure robustness of Rail-only networks and provide insights into the performance impact of different network and training parameters.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-15
# 量子力学における負-反則実験について

On the negative-result experiments in quantum mechanics ( http://arxiv.org/abs/2310.01955v2 )

ライセンス: Link先を確認
Kenichi Konishi, (参考訳) 量子力学(QM)におけるいわゆる負の反則実験(ヌル測度、相互作用自由測度など)について、最近提案された量子測度プロセスの新たな一般的な理解に照らしてコメントする。 この種の全ての実験(ヌル測度)は、意図的に偏った検出器を設置し、特定の事象を排除または選択する不適切な測定として理解することができる。 ヌル測定に基づく研究中の顕微鏡システムの状態の予測は、「マイクロシステムと検出器の相互作用を伴わない波動関数崩壊」と劇的に説明されることがある。 確かに正しいが、そのような予測は標準的なQM法の結果に過ぎず、いわゆる国家準備手続きの状況と異なるものではない。 もう1つの密接に関連する概念は、(第一級または)反復可能な測定である。 ヌル測定による予測の検証は、最終的には、信号増幅の非可逆的、不可逆的なプロセスであるマイクロシステムとマクロスコープの相互作用を含む標準の非バイアス測定を必要とする。

We comment on the so-called negative-result experiments (also known as null measurements, interaction-free measurements, and so on) in quantum mechanics (QM), in the light of the new general understanding of the quantum-measurement processes, proposed recently. All experiments of this kind (null-measurements) can be understood as improper measurements with an intentionally biased detector set up, which introduces exclusion or selection of certain events. The prediction on the state of a microscopic system under study based on a null measurement, is sometimes dramatically described as ``wave-function collapse without any microsystem-detector interactions". Though certainly correct, such a prediction is just a consequence of the standard QM laws, not different from the situation in the so-called state-preparation procedure. Another closely related concept is the (first-class or) repeatable measurements. The verification of the prediction made by a null-measurement requires eventually a standard unbiased measurement involving the microsystem-macroscopic detector interactions, which are nonadiabatic, irreversible processes of signal amplification.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-15
# CoBEV:奥行きと高さの相補性を考慮した道路側3次元物体検出

CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity ( http://arxiv.org/abs/2310.02815v3 )

ライセンス: Link先を確認
Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang, (参考訳) 道路カメラ駆動の3D物体検出は、視覚中心の車両の限界を超えて認識範囲を広げ、道路安全を高めるインテリジェント輸送システムにおいて重要な課題である。 これまでの研究では、深度や高さの情報のみを使用することに制限があったが、深さと高さの両方が発見され、実際は相補的である。 深さ特徴は正確な幾何学的手がかりを含むが、高さ特徴は主に高さ間隔の様々なカテゴリーを区別することに焦点を当てており、本質的に意味的な文脈を提供する。 この知見は、深度と高さを統合して堅牢なBEV表現を構築する、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEV(CoBEV)の開発を動機付けている。 基本的に、CoBEVは、各ピクセルの深さと高さの分布を推定し、新しく提案された2段階補足的特徴選択(CFS)モジュールを用いて、カメラ特徴を3次元空間にリフトする。 また、融合モダルCoBEV教師の以前の知識から検出精度を高めるために、BEV特徴蒸留フレームワークをシームレスに統合する。 我々は、道路側カメラベースのDAIR-V2X-IとRope3Dの公開3D検出ベンチマークと、プライベートなSupremind-Roadデータセットに関する広範な実験を行い、CoBEVが新しい最先端技術の精度を達成するだけでなく、長距離シナリオやノイズの多いカメラ障害に挑戦する従来の手法の堅牢性を著しく向上し、シーンやカメラパラメータの劇的な変化を伴う異種環境における大きなマージンによる一般化を促進する。 カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。 ソースコードはhttps://github.com/MasterHow/CoBEV.comで公開されている。

Roadside camera-driven 3D object detection is a crucial task in intelligent transportation systems, which extends the perception range beyond the limitations of vision-centric vehicles and enhances road safety. While previous studies have limitations in using only depth or height information, we find both depth and height matter and they are in fact complementary. The depth feature encompasses precise geometric cues, whereas the height feature is primarily focused on distinguishing between various categories of height intervals, essentially providing semantic context. This insight motivates the development of Complementary-BEV (CoBEV), a novel end-to-end monocular 3D object detection framework that integrates depth and height to construct robust BEV representations. In essence, CoBEV estimates each pixel's depth and height distribution and lifts the camera features into 3D space for lateral fusion using the newly proposed two-stage complementary feature selection (CFS) module. A BEV feature distillation framework is also seamlessly integrated to further enhance the detection accuracy from the prior knowledge of the fusion-modal CoBEV teacher. We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. For the first time, the vehicle AP score of a camera model reaches 80% on DAIR-V2X-I in terms of easy mode. The source code will be made publicly available at https://github.com/MasterHow/CoBEV.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-15
# RGBイベント融合による可変照明における交通物体検出の促進

Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion ( http://arxiv.org/abs/2311.00436v2 )

ライセンス: Link先を確認
Zhanwen Liu, Nan Yang, Yang Wang, Yuke Li, Xiangmo Zhao, Fei-Yue Wang, (参考訳) 可変照明下での交通物体検出は,従来のフレームベースカメラのダイナミックレンジの制限による情報損失が原因で困難である。 この問題に対処するために,バイオインスパイアされたイベントカメラを導入し,イベントストリームからシャープで完全なオブジェクト構造を抽出し,モダリティ融合により画像中の失われた情報を補償する新しいSFNetを提案する。 具体的には、固定区間イベントサンプリング法において、交通物体の多様な動作状態から生じる空間的・曖昧性の問題を軽減するために、高速不変フレーム(SIF)を生成するための信頼性構造生成ネットワーク(RSGNet)を提案する。 次に,適応的特徴補完モジュール (AFCM) を設計し, 画像のグローバルな光度分布を知覚することで, 画像中の情報損失を補償し, 照度ロスの表現を生成する。 最後に、既存のイベントベースオブジェクト検出データセットに大規模で高品質なアノテーションが欠如していることを踏まえ、63,931イメージの53のシーケンスと8クラスの208,000以上のラベルからなるDSEC-Detデータセットを構築します。 その結果,提案するSFNetは従来のカメラの知覚的境界を克服し,mAP50では8.0%,mAP50:95では5.9%,フレームベースでは8.0%の精度で性能を向上できることがわかった。 私たちのコードとデータセットはhttps://github.com/YN-Yang/SFNet.comで公開されます。

Traffic object detection under variable illumination is challenging due to the information loss caused by the limited dynamic range of conventional frame-based cameras. To address this issue, we introduce bio-inspired event cameras and propose a novel Structure-aware Fusion Network (SFNet) that extracts sharp and complete object structures from the event stream to compensate for the lost information in images through cross-modality fusion, enabling the network to obtain illumination-robust representations for traffic object detection. Specifically, to mitigate the sparsity or blurriness issues arising from diverse motion states of traffic objects in fixed-interval event sampling methods, we propose the Reliable Structure Generation Network (RSGNet) to generate Speed Invariant Frames (SIF), ensuring the integrity and sharpness of object structures. Next, we design a novel Adaptive Feature Complement Module (AFCM) which guides the adaptive fusion of two modality features to compensate for the information loss in the images by perceiving the global lightness distribution of the images, thereby generating illumination-robust representations. Finally, considering the lack of large-scale and high-quality annotations in the existing event-based object detection datasets, we build a DSEC-Det dataset, which consists of 53 sequences with 63,931 images and more than 208,000 labels for 8 classes. Extensive experimental results demonstrate that our proposed SFNet can overcome the perceptual boundaries of conventional cameras and outperform the frame-based method by 8.0% in mAP50 and 5.9% in mAP50:95. Our code and dataset will be available at https://github.com/YN-Yang/SFNet.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-15
# 文書のテンポラルシークエンシング

Temporal Sequencing of Documents ( http://arxiv.org/abs/2311.02578v2 )

ライセンス: Link先を確認
Michael Gervers, Gelila Tilahun, (参考訳) 我々は、中世イングランドの資産譲渡文書のコーパスである「アメリカ連邦演説」と「DEEDS」という、歴史的文書の集合を時間順に並べる、教師なしの方法の概要を述べる。 本手法は,非パラメトリック一般化線形モデル(Fan, Heckman, Wand, 1995)の帯域幅推定により,単語使用量の漸進的変化を効果的に把握することに依存する。 帯域幅に関連するコスト関数を検索するために必要なランクオーダーの数は、ドキュメントの小さなセットであっても、非常に大きい。 シミュレート・アニーリング(Simulated Annealing)アルゴリズムを用いた組合せ最適化の問題に対処し、最適文書時間順序を求める。 ランク順序付け法は, ランダムに配列されたベースラインと比較して, 両コーパスの時間的シークエンシングを著しく改善した。 この教師なしのアプローチは、未処理のドキュメントセットの時間的順序付けを可能にするべきである。

We outline an unsupervised method for temporal rank ordering of sets of historical documents, namely American State of the Union Addresses and DEEDS, a corpus of medieval English property transfer documents. Our method relies upon effectively capturing the gradual change in word usage via a bandwidth estimate for the non-parametric Generalized Linear Models (Fan, Heckman, and Wand, 1995). The number of possible rank orders needed to search through for cost functions related to the bandwidth can be quite large, even for a small set of documents. We tackle this problem of combinatorial optimization using the Simulated Annealing algorithm, which allows us to obtain the optimal document temporal orders. Our rank ordering method significantly improved the temporal sequencing of both corpora compared to a randomly sequenced baseline. This unsupervised approach should enable the temporal ordering of undated document sets.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-15
# HuatuoGPT-II : LLMの医療適応のためのワンステージトレーニング

HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs ( http://arxiv.org/abs/2311.09774v2 )

ライセンス: Link先を確認
Junying Chen, Xidong Wang, Ke Ji, Anningzhe Gao, Feng Jiang, Shunian Chen, Hongbo Zhang, Dingjie Song, Wenya Xie, Chuyi Kong, Jianquan Li, Xiang Wan, Haizhou Li, Benyou Wang, (参考訳) 言語モデルを特定のドメインに適応させる「ドメイン適応」は、専門知識(例えば医学)がLlama2のような一般的な言語モデルにカプセル化されない場合の一般的な慣習である。 この課題は、言語、ジャンル、フォーマットによって異なるため、2つのトレーニング段階にわたるデータの均一性にある。 この問題に対処し、学習プロトコルを簡素化するために、事前学習と教師付きステージの両方から、統一的でシンプルな入力出力ペアフォーマットに変換することを提案する。 従来の漢方医学など,ChatGPTのような独自LLMが比較的貧弱な領域において,新たなプロトコルを検証する。 開発モデルであるHuatuoGPT-IIは、中国の医学領域において、医学ライセンス試験など、多くのベンチマークで最先端のパフォーマンスを示している。 さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。 専門家による手作業による評価により、HuatuoGPT-II の既存の LLM に対する優位性がさらに証明された。 特に、HuatuoGPT-IIは中国の新しい医学ライセンス試験でベンチマークされ、その性能だけでなく、その一般化能力も示した。

Adapting a language model into a specific domain, a.k.a `domain adaption', is a common practice when specialized knowledge, e.g. medicine, is not encapsulated in a general language model like Llama2. The challenge lies in the heterogeneity of data across the two training stages, as it varies in languages, genres, or formats. To tackle this and simplify the learning protocol, we propose to transform heterogeneous data, from the both pre-training and supervised stages, into a unified, simple input-output pair format. We validate the new protocol in the domains where proprietary LLMs like ChatGPT perform relatively poorly, such as Traditional Chinese Medicine. The developed model, HuatuoGPT-II, has shown state-of-the-art performance in Chinese medicine domain on a number of benchmarks, e.g. medical licensing exams. It even outperforms proprietary models like ChatGPT and GPT-4 in some aspects, especially in Traditional Chinese Medicine. Expert manual evaluations further validate HuatuoGPT-II's advantages over existing LLMs. Notably, HuatuoGPT-II was benchmarked in a fresh Chinese National Medical Licensing Examination where it achieved the best performance, showcasing not only its effectiveness but also its generalization capabilities.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-15
# 微調整適応確率最適化器:勾配マグニチュードヒストグラム解析による最適ハイパーパラメータ$ε$の決定

Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis ( http://arxiv.org/abs/2311.11532v2 )

ライセンス: Link先を確認
Gustavo Silva, Paul Rodriguez, (参考訳) 確率的オプティマイザは、ディープニューラルネットワークモデルのトレーニング成功において重要な役割を果たす。 最適なモデル性能を達成するためには、設計者はモデルパラメータとオプティマイザハイパーパラメータの両方を慎重に選択する必要がある。 しかし、このプロセスは計算資源や処理時間の観点から頻繁に要求される。 ピーク性能のためにオプティマイザ・ハイパーパラメータのセット全体をチューニングすることは、確立された慣行であるが、アダム・オプティマイザのような適応確率最適化の先導において、セーフガード係数$\epsilon$と崩壊率$\beta$を含む、"低優先度"と誤ってラベルされたハイパーパラメータの個々の影響について、明確さの欠如がある。 本稿では,適応確率オプティマイザとセーフガードハイパーパラメータ$\epsilon$の徹底的な解析を行うため,損失勾配等級の経験的確率密度関数を「段階的等級ヒストグラム」と呼ぶ新しいフレームワークを提案する。 このフレームワークは、分類、言語モデリング、機械翻訳といった様々なタスクにおける最適なパフォーマンスに関連して、ハイパーパラメータ間の価値ある関係と依存関係を明らかにし、正当化する。 さらに, 最適セーフガードハイパーパラメータ$\epsilon$に対する精度の高い探索空間を自動的に推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。

Stochastic optimizers play a crucial role in the successful training of deep neural network models. To achieve optimal model performance, designers must carefully select both model and optimizer hyperparameters. However, this process is frequently demanding in terms of computational resources and processing time. While it is a well-established practice to tune the entire set of optimizer hyperparameters for peak performance, there is still a lack of clarity regarding the individual influence of hyperparameters mislabeled as "low priority", including the safeguard factor $\epsilon$ and decay rate $\beta$, in leading adaptive stochastic optimizers like the Adam optimizer. In this manuscript, we introduce a new framework based on the empirical probability density function of the loss' gradient magnitude, termed as the "gradient magnitude histogram", for a thorough analysis of adaptive stochastic optimizers and the safeguard hyperparameter $\epsilon$. This framework reveals and justifies valuable relationships and dependencies among hyperparameters in connection to optimal performance across diverse tasks, such as classification, language modeling and machine translation. Furthermore, we propose a novel algorithm using gradient magnitude histograms to automatically estimate a refined and accurate search space for the optimal safeguard hyperparameter $\epsilon$, surpassing the conventional trial-and-error methodology by establishing a worst-case search space that is two times narrower.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-15
# 2次元MRIセグメンテーションのためのベイズニューラルネットワーク

Bayesian Neural Networks for 2D MRI Segmentation ( http://arxiv.org/abs/2311.14875v3 )

ライセンス: Link先を確認
Lohith Konathala, (参考訳) 不確実性定量化は、医療画像セグメンテーションのような安全クリティカルなディープラーニングアプリケーションに不可欠である。 本稿では,ベイズニューラルネットワークと注意機構を統合したMRIセグメンテーションのための不確実性認識モデルであるBA U-Netを紹介する。 BA U-Netは正確で解釈可能な結果を提供し、信頼性の高い病理検査に不可欠である。 BraTS 2020に基づいて評価されたこのモデルは、深層学習に基づく医療画像における信頼度推定の重要な必要性に対処する。

Uncertainty quantification is vital for safety-critical Deep Learning applications like medical image segmentation. We introduce BA U-Net, an uncertainty-aware model for MRI segmentation that integrates Bayesian Neural Networks with Attention Mechanisms. BA U-Net delivers accurate, interpretable results, crucial for reliable pathology screening. Evaluated on BraTS 2020, this model addresses the critical need for confidence estimation in deep learning-based medical imaging.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-15
# Denoising Diffusion Probabilistic Modelの収束性についての一考察

A Note on the Convergence of Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.05989v2 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Omar Rivasplata, (参考訳) 拡散モデルは、深層生成モデルの最も重要なファミリーの1つである。 本稿では,データ生成分布と拡散モデルで学習した分布との間のワッサーシュタイン距離の定量的上限を導出する。 この分野でのこれまでの研究とは異なり、我々の結果は学習したスコア関数を仮定しない。 さらに、この境界は、ルベーグ測度のような密度 w.r.t のないものであっても、有界なインスタンス空間上の任意のデータ生成分布を保ち、上界は指数的依存に悩まされない。 我々の主な成果は、Mbacke et al (2023) の最近の研究に基づいており、我々の証明は初等的である。

Diffusion models are one of the most important families of deep generative models. In this note, we derive a quantitative upper bound on the Wasserstein distance between the data-generating distribution and the distribution learned by a diffusion model. Unlike previous works in this field, our result does not make assumptions on the learned score function. Moreover, our bound holds for arbitrary data-generating distributions on bounded instance spaces, even those without a density w.r.t. the Lebesgue measure, and the upper bound does not suffer from exponential dependencies. Our main result builds upon the recent work of Mbacke et al. (2023) and our proofs are elementary.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-15
# LookAhead: 敵の契約を解除してDeFi攻撃を防ぐ

LookAhead: Preventing DeFi Attacks via Unveiling Adversarial Contracts ( http://arxiv.org/abs/2401.07261v3 )

ライセンス: Link先を確認
Shoupeng Ren, Lipeng He, Tianyu Tu, Di Wu, Jian Liu, Kui Ren, Chun Chen, (参考訳) スマートコントラクトの脆弱性を悪用することに起因する分散型金融(DeFi)インシデントは、30億ドルを超える金銭的損害を極めた。 既存の防御メカニズムは、通常、被害者の契約をターゲットにした攻撃者が実行した悪意のあるトランザクションを検出し、反応することに焦点を当てる。 しかし、最初に公共のメムプールに現れないまま、マイナに直接トランザクションが送信されるプライベートトランザクションプールの出現により、現在の検出ツールは、攻撃活動を効果的に特定する上で重大な課題に直面している。 攻撃ロジックの多くは、被害者契約の活用を支援するコンポーネントとして1つ以上の中間的スマートコントラクトをデプロイすることに依存しているため、本稿では、敵取引ではなく敵契約を特定することに焦点を当てた、DeFi攻撃を検出するための新たな方向を提案する。 このアプローチでは、悪意のあるスマートコントラクトに見られる一般的な攻撃パターン、コードセマンティクス、本質的な特徴を活用して、マシンラーニング(ML)分類器と変換器モデルに基づくLookAheadシステムを構築します。 まず、EthereumとBSCブロックチェーン上にデプロイされた最近のコントラクトから抽出され、構築された機能からなる包括的なデータセットを構築します。 次に、Pruned Semantic-Control Flow Tokenization (PSCFT)と呼ばれるスマートコントラクトプログラムの凝縮表現を設計し、関数呼び出し、制御フロー、その他のパターン変換機能に基づいて悪意あるコードの振る舞いを理解するMLモデルの組み合わせを訓練する。 最後に、LookAheadの完全な実装と、敵の契約を検出するための性能指標の評価について述べる。

Decentralized Finance (DeFi) incidents stemming from the exploitation of smart contract vulnerabilities have culminated in financial damages exceeding 3 billion US dollars. Existing defense mechanisms typically focus on detecting and reacting to malicious transactions executed by attackers that target victim contracts. However, with the emergence of private transaction pools where transactions are sent directly to miners without first appearing in public mempools, current detection tools face significant challenges in identifying attack activities effectively. Based on the fact that most attack logic rely on deploying one or more intermediate smart contracts as supporting components to the exploitation of victim contracts, in this paper, we propose a new direction for detecting DeFi attacks that focuses on identifying adversarial contracts instead of adversarial transactions. Our approach allows us to leverage common attack patterns, code semantics and intrinsic characteristics found in malicious smart contracts to build the LookAhead system based on Machine Learning (ML) classifiers and a transformer model that is able to effectively distinguish adversarial contracts from benign ones, and make just-in-time predictions of potential zero-day attacks. Our contributions are three-fold: First, we construct a comprehensive dataset consisting of features extracted and constructed from recent contracts deployed on the Ethereum and BSC blockchains. Secondly, we design a condensed representation of smart contract programs called Pruned Semantic-Control Flow Tokenization (PSCFT) and use it to train a combination of ML models that understand the behaviour of malicious codes based on function calls, control flows and other pattern-conforming features. Lastly, we provide the complete implementation of LookAhead and the evaluation of its performance metrics for detecting adversarial contracts.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-15
# SegMamba:3D画像セグメンテーションのための長距離連続モデリングマンバ

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation ( http://arxiv.org/abs/2401.13560v4 )

ライセンス: Link先を確認
Zhaohu Xing, Tian Ye, Yijun Yang, Guang Liu, Lei Zhu, (参考訳) Transformerアーキテクチャは、グローバルな関係をモデル化する際、顕著な能力を示している。 しかし、これは高次元医用画像の処理において重要な計算課題となる。 これにより、このタスクの開発が妨げられ、広く採用される。 状態空間モデル(SSM)としてのMambaは、最近、シーケンシャルモデリングにおける長距離依存の顕著な方法として登場し、その顕著なメモリ効率と計算速度で自然言語処理に優れていた。 その成功にインスパイアされたSegMambaは,全ボリューム特徴の長距離依存性を各スケールで効果的にキャプチャするように設計された,新しい3次元医用画像である。 我々のSegMambaは、Transformerベースの手法とは対照的に、状態空間モデルの観点から全容積特徴モデリングを抜粋し、$64\times 64\times 64$}の解像度のボリューム特徴であっても、優れた処理速度を維持する。 BraTS2023データセットに関する包括的な実験は、SegMambaの有効性と効率を実証している。 SegMambaのコードは、https://github.com/ge-xing/SegMambaで入手できる。

The Transformer architecture has shown a remarkable ability in modeling global relationships. However, it poses a significant computational challenge when processing high-dimensional medical images. This hinders its development and widespread adoption in this task. Mamba, as a State Space Model (SSM), recently emerged as a notable manner for long-range dependencies in sequential modeling, excelling in natural language processing filed with its remarkable memory efficiency and computational speed. Inspired by its success, we introduce SegMamba, a novel 3D medical image \textbf{Seg}mentation \textbf{Mamba} model, designed to effectively capture long-range dependencies within whole volume features at every scale. Our SegMamba, in contrast to Transformer-based methods, excels in whole volume feature modeling from a state space model standpoint, maintaining superior processing speed, even with volume features at a resolution of {$64\times 64\times 64$}. Comprehensive experiments on the BraTS2023 dataset demonstrate the effectiveness and efficiency of our SegMamba. The code for SegMamba is available at: https://github.com/ge-xing/SegMamba
翻訳日:2024-09-18 03:05:43 公開日:2024-09-15
# 不完全協調ゲームにおける最適化バイアスの低減

Reducing Optimism Bias in Incomplete Cooperative Games ( http://arxiv.org/abs/2402.01930v3 )

ライセンス: Link先を確認
Filip Úradník, David Sychrovský, Jakub Černý, Martin Černý, (参考訳) 協調ゲーム理論は、解釈可能な機械学習、リソース割り当て、協調的な意思決定といった領域を含む、現代の人工知能に様々な応用がある。 しかし、協調ゲームを特定するには、指数関数的に多くの連立に値を割り当てることが必要であり、実際は1つの値であっても得ることは資源集約的である。 しかし、特定の連立価値を開示されていないままにしておくと、連立に個人が貢献するあいまいさが生じる。 この曖昧さは、しばしばプレイヤーが過度に楽観的な期待を抱き、固有の偏見または戦略的考察から起因し、しばしば実際の大連立価値を超える集団的主張をもたらす。 本稿では,協調ゲームにおけるプレイヤーの期待と達成可能な結果とのギャップを効率的に埋めることを目的として,連立価値を明らかにするためのシーケンスの最適化を目的としたフレームワークを提案する。 私たちの貢献は3倍です。 (i)各プレイヤーの連立価値の欠落を伴うゲームにおける楽観的な完成度と、それに伴うギャップについて検討し、より効率的な最適化を促進する解析的特性について検討する。 (二)オフライン・オンライン両方の連立の付加価値を開示することにより、既知の事前のゲームクラスにおけるこのギャップを最小化する方法を開発する。 三 実践シナリオにおけるアルゴリズムの性能を実証的に示すとともに、連立価値を明らかにする典型的な順序について調査する。

Cooperative game theory has diverse applications in contemporary artificial intelligence, including domains like interpretable machine learning, resource allocation, and collaborative decision-making. However, specifying a cooperative game entails assigning values to exponentially many coalitions, and obtaining even a single value can be resource-intensive in practice. Yet simply leaving certain coalition values undisclosed introduces ambiguity regarding individual contributions to the collective grand coalition. This ambiguity often leads to players holding overly optimistic expectations, stemming from either inherent biases or strategic considerations, frequently resulting in collective claims exceeding the actual grand coalition value. In this paper, we present a framework aimed at optimizing the sequence for revealing coalition values, with the overarching goal of efficiently closing the gap between players' expectations and achievable outcomes in cooperative games. Our contributions are threefold: (i) we study the individual players' optimistic completions of games with missing coalition values along with the arising gap, and investigate its analytical characteristics that facilitate more efficient optimization; (ii) we develop methods to minimize this gap over classes of games with a known prior by disclosing values of additional coalitions in both offline and online fashion; and (iii) we empirically demonstrate the algorithms' performance in practical scenarios, together with an investigation into the typical order of revealing coalition values.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-15
# Pathformer: 時系列予測のための適応経路を持つマルチスケールトランス

Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v5 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo, (参考訳) 時系列予測のための変換器は、主に制限または固定されたスケールからモデル時系列を予測し、様々なスケールにまたがる異なる特性を捉えることは困難である。 適応経路を持つマルチスケールトランスであるPathformerを提案する。 時間分解能と時間距離を統合してマルチスケールモデリングを行う。 マルチスケール分割は、時系列を様々な大きさのパッチを使用して異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバルな相関関係と局所的な詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 適応経路を用いたマルチスケールトランスフォーマーをさらに強化し、入力の時間的変動に基づくマルチスケールモデリングプロセスを適応的に調整し、パスフォーマーの精度と一般化を向上する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。 コードはhttps://github.com/decisionintelligence/pathformerで公開されている。

Transformers for time series forecasting mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. We propose Pathformer, a multi-scale Transformer with adaptive pathways. It integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale Transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics of the input, improving the accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios. The code is made available at https://github.com/decisionintelligence/pathformer.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-15
# LLMとヒューマン・コンディション

LLMs and the Human Condition ( http://arxiv.org/abs/2402.08403v5 )

ライセンス: Link先を確認
Peter Wallis, (参考訳) 理論に基づくAI研究は最近難しかったが、この研究の目的は、LLMが言語スキルを印象づけるときに実際に何をしているのかをモデルにすることである。 このモデルは、哲学、社会学、コンピュータ科学から、人間の意思決定に関する確立した3つの理論を統合する。 この論文は、AI研究の初期からの推論の集合的理解から始まります。 その後、多くの哲学者や、多くの現代のAI研究者によって取られた位置である「反応性システム」として一般的に考えられているものについて記述する。 提案モデルの第3の構成要素は社会学からであり、現代のエゴに不平を言ってはいないが、長年にわたって会話型ユーザインタフェースに取り組んでいる私たちを占有してきたというパズルを解き明かしている。

Theory based AI research has had a hard time recently and the aim here is to propose a model of what LLMs are actually doing when they impress us with their language skills. The model integrates three established theories of human decision-making from philosophy, sociology, and computer science. The paper starts with the collective understanding of reasoning from the early days of AI research - primarily because that model is how we humans think we think, and is the most accessible. It then describes what is commonly thought of as "reactive systems" which is the position taken by many philosophers and indeed many contemporary AI researchers. The third component to the proposed model is from sociology and, although not flattering to our modern ego, provides an explanation to a puzzle that for many years has occupied those of us working on conversational user interfaces.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-15
# 長期感情支援のためのステアリング対話型大言語モデル

Steering Conversational Large Language Models for Long Emotional Support Conversations ( http://arxiv.org/abs/2402.10453v2 )

ライセンス: Link先を確認
Navid Madani, Sougata Saha, Rohini Srihari, (参考訳) 本研究では,大規模言語モデル(LLM)が,会話の拡張における感情的支援戦略に一貫して従うことの難しさに対処する。 我々はLlama-2とLlama-3のモデルスイートのステアビリティに着目し、相互作用を通してこれらの戦略を維持する能力について検討する。 これを評価するために、注意マップを通して、モデルが引き起こした戦略への固執を定量化する戦略関連注意尺度(SRA)を導入する。 本研究では,ESConvデータセットから得られた戦略条件付き合成会話データセットを作成する。 また,この課題に対処するために,提案したSRA測定値から得られる様々なベースラインを提案し,対話を通して戦略に従うことにより,ベースモデルのステアビリティを大幅に向上させる微調整モデルを提案する。 コードとデータはGitHubで公開されています。

In this study, we address the challenge of enabling large language models (LLMs) to consistently adhere to emotional support strategies in extended conversations. We focus on the steerability of the Llama-2 and Llama-3 suite of models, examining their ability to maintain these strategies throughout interactions. To assess this, we introduce the Strategy Relevant Attention (SRA) metric, which quantifies the model's adherence to the prompted strategy through attention maps. To facilitate our study, we create a strategy-conditioned synthetic conversational dataset derived from the ESConv dataset. We also propose various baselines informed by our proposed SRA metric to address the challenge and propose a fine-tuned model that significantly enhances the steerability of the base model in following the strategy throughout the conversation. The code and data are publicly available on our GitHub.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-15
# HaluEval-Wild:野生の言語モデルの幻覚を評価する

HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild ( http://arxiv.org/abs/2403.04307v3 )

ライセンス: Link先を確認
Zhiying Zhu, Yiming Yang, Zhiqing Sun, (参考訳) 幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。 近年、知識集約型質問応答(QA)や要約のような従来のNLPタスクにおけるLLM幻覚を評価するために設計されたベンチマークは、動的な実世界の環境でのユーザ-LLMインタラクションの複雑さを捉えるには不十分である。 このギャップに対処するために、野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。 既存の実世界のユーザ-LLMインタラクションデータセットであるShareGPTから,難解な(Alpacaによって逆フィルタリングされる)ユーザクエリを慎重に収集し,さまざまなLSMの幻覚率を評価する。 収集したクエリを解析すると、5つの異なるタイプに分類し、LLMが示す幻覚の種類を詳細に分析し、強力なGPT-4モデルと検索拡張生成(RAG)を用いて参照回答を合成する。 本ベンチマークでは,実世界のインタラクションを反映したシナリオにおけるLCMの信頼性の向上と信頼性向上に向けた新たなアプローチを提案する。 私たちのベンチマークはhttps://github.com/HaluEval-Wild/HaluEval-Wildで公開しています。

Hallucinations pose a significant challenge to the reliability of large language models (LLMs) in critical domains. Recent benchmarks designed to assess LLM hallucinations within conventional NLP tasks, such as knowledge-intensive question answering (QA) and summarization, are insufficient for capturing the complexities of user-LLM interactions in dynamic, real-world settings. To address this gap, we introduce HaluEval-Wild, the first benchmark specifically designed to evaluate LLM hallucinations in the wild. We meticulously collect challenging (adversarially filtered by Alpaca) user queries from ShareGPT, an existing real-world user-LLM interaction datasets, to evaluate the hallucination rates of various LLMs. Upon analyzing the collected queries, we categorize them into five distinct types, which enables a fine-grained analysis of the types of hallucinations LLMs exhibit, and synthesize the reference answers with the powerful GPT-4 model and retrieval-augmented generation (RAG). Our benchmark offers a novel approach towards enhancing our comprehension of and improving LLM reliability in scenarios reflective of real-world interactions. Our benchmark is available at https://github.com/HaluEval-Wild/HaluEval-Wild.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-15
# RGBに基づくワンショットビュープランニングのための3次元拡散モデルからの先行点の抽出

Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning ( http://arxiv.org/abs/2403.16803v2 )

ライセンス: Link先を確認
Sicong Pan, Liren Jin, Xuying Huang, Cyrill Stachniss, Marija Popović, Maren Bennewitz, (参考訳) オブジェクト再構成は、環境との相互作用を必要とする多くの自律ロボットタスクに関係している。 このようなシナリオにおける重要な課題は、最初に未知のオブジェクトを再構築するための情報的測定を収集するビューの設定を計画することである。 ワンショットビュープランニングは、ビュー構成を予測し、すべてのビューを同時に接続する最も短いパスを計画することで、効率的なデータ収集を可能にする。 しかしながら、オブジェクトに関する事前の知識は、ワンショットビュープランニングを実行するために必要である。 本研究では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。 このような幾何学的前提をパイプラインに組み込むことで、再構成対象の1枚のRGB画像から始まる効果的なワンショットビュープランニングを実現する。 シミュレーションと実世界のセットアップにおける計画実験は、我々のアプローチがオブジェクト再構成の品質と移動コストのバランスをよく保っていることを示唆している。

Object reconstruction is relevant for many autonomous robotic tasks that require interaction with the environment. A key challenge in such scenarios is planning view configurations to collect informative measurements for reconstructing an initially unknown object. One-shot view planning enables efficient data collection by predicting view configurations and planning the globally shortest path connecting all views at once. However, prior knowledge about the object is required to conduct one-shot view planning. In this work, we propose a novel one-shot view planning approach that utilizes the powerful 3D generation capabilities of diffusion models as priors. By incorporating such geometric priors into our pipeline, we achieve effective one-shot view planning starting with only a single RGB image of the object to be reconstructed. Our planning experiments in simulation and real-world setups indicate that our approach balances well between object reconstruction quality and movement cost.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-15
# マルチエージェントシステムのコンフォーマルオフポリティ予測

Conformal Off-Policy Prediction for Multi-Agent Systems ( http://arxiv.org/abs/2403.16871v2 )

ライセンス: Link先を確認
Tom Kuipers, Renukanandan Tumu, Shuo Yang, Milad Kazemi, Rahul Mangharam, Nicola Paoletti, (参考訳) オフポリシー予測(Off-Policy Prediction、OPP)、すなわち、名目上の(行動的)ポリシーの下で収集されたデータのみを用いてターゲットポリシーの結果を予測することは、新しいポリシーの展開が安全でない可能性がある安全クリティカルシステムのデータ駆動分析における最重要問題である。 コンフォーマル・オフ・ポリティ・予測(COPP)に関する最近の研究は、コンフォーマル・オフ・ポリティ・予測(COPP)の枠組みを利用して、目標プロセス下で確率的保証のある予測領域を導出する。 既存のCOPP法は、ポリシースイッチングによって引き起こされる分散シフトを考慮できるが、単一のエージェントシステムとスカラー結果(例えば報酬)に限られる。 本研究では,マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを紹介し,複数のエージェントがポリシーを変更した場合に,すべてのエージェントの軌道に対する共同予測領域を導出する。 単一エージェントのシナリオとは異なり、この設定では、分散シフトがエゴエージェントだけでなく、すべてのエージェントの予測に影響を及ぼし、予測タスクは報酬値だけでなく、完全な多次元軌跡を含むため、複雑さが増す。 MA-COPPの重要な貢献は、既存のCOPP法が予測領域を構築するために必要とするエージェント軌道の出力空間の列挙や徹底的な探索を避けることである。 本研究では,JPRトラジェクトリの最大密度比から,実関節予測領域(JPR)の過剰近似を列挙することなく構築可能であることを示す。 我々は,PetttingZooライブラリとF1TENTH自律走行環境のマルチエージェントシステムにおけるMA-COPPの有効性を評価し,高次元および各種シフト設定における名目的カバレッジを実現する。

Off-Policy Prediction (OPP), i.e., predicting the outcomes of a target policy using only data collected under a nominal (behavioural) policy, is a paramount problem in data-driven analysis of safety-critical systems where the deployment of a new policy may be unsafe. To achieve dependable off-policy predictions, recent work on Conformal Off-Policy Prediction (COPP) leverage the conformal prediction framework to derive prediction regions with probabilistic guarantees under the target process. Existing COPP methods can account for the distribution shifts induced by policy switching, but are limited to single-agent systems and scalar outcomes (e.g., rewards). In this work, we introduce MA-COPP, the first conformal prediction method to solve OPP problems involving multi-agent systems, deriving joint prediction regions for all agents' trajectories when one or more ego agents change their policies. Unlike the single-agent scenario, this setting introduces higher complexity as the distribution shifts affect predictions for all agents, not just the ego agents, and the prediction task involves full multi-dimensional trajectories, not just reward values. A key contribution of MA-COPP is to avoid enumeration or exhaustive search of the output space of agent trajectories, which is instead required by existing COPP methods to construct the prediction region. We achieve this by showing that an over-approximation of the true joint prediction region (JPR) can be constructed, without enumeration, from the maximum density ratio of the JPR trajectories. We evaluate the effectiveness of MA-COPP in multi-agent systems from the PettingZoo library and the F1TENTH autonomous racing environment, achieving nominal coverage in higher dimensions and various shift settings.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-15
# 経験的達成関数を用いた単目的ブラックボックス最適化アルゴリズムの解析

Using the Empirical Attainment Function for Analyzing Single-objective Black-box Optimization Algorithms ( http://arxiv.org/abs/2404.02031v2 )

ライセンス: Link先を確認
Manuel López-Ibáñez, Diederick Vermetten, Johann Dreo, Carola Doerr, (参考訳) 繰り返しブラックボックスオプティマイザの性能を評価する方法として広く受け入れられているのは、所定のランタイムよりも遅く達成された、事前定義された品質目標の経験的累積分布関数(ECDF)を分析することである。 本研究では,経験的達成関数(EAF)に基づく代替手法を検討するとともに,対象とするECDFがAEFの近似であることを示す。 我々は、EAFがターゲットベースECDFに対していくつかの優位性を持っていると論じる。 特に、関数毎の品質目標を定義する必要はなく、パフォーマンスの違いをより正確に捉え、分析を豊かにする追加の要約統計を使用することが可能である。 また、収束曲線上の平均面積は、より単純で計算できるが、同値な任意の時間性能の測定値であることを示す。 EAFのアクセシビリティを容易にするため、IOHanalyzerプラットフォームにモジュールを統合して計算する。 最後に、合成例とBBOBスイートで利用可能なデータを通して、AEFの使用について説明する。

A widely accepted way to assess the performance of iterative black-box optimizers is to analyze their empirical cumulative distribution function (ECDF) of pre-defined quality targets achieved not later than a given runtime. In this work, we consider an alternative approach, based on the empirical attainment function (EAF) and we show that the target-based ECDF is an approximation of the EAF. We argue that the EAF has several advantages over the target-based ECDF. In particular, it does not require defining a priori quality targets per function, captures performance differences more precisely, and enables the use of additional summary statistics that enrich the analysis. We also show that the average area over the convergence curves is a simpler-to-calculate, but equivalent, measure of anytime performance. To facilitate the accessibility of the EAF, we integrate a module to compute it into the IOHanalyzer platform. Finally, we illustrate the use of the EAF via synthetic examples and via the data available for the BBOB suite.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-15
# ブレス=ワッサーシュタイン多様体上のフレシェ回帰に対するワッサーシュタイン F-テスト

Wasserstein F-tests for Fréchet regression on Bures-Wasserstein manifolds ( http://arxiv.org/abs/2404.03878v2 )

ライセンス: Link先を確認
Haoshu Xu, Hongzhe Li, (参考訳) 本稿では、無作為な共分散行列を用いた回帰解析の問題を結果とみなし、ブールス=ワッサーシュタイン多様体上のFr'echet回帰の枠組みにおけるユークリッド共変量について考察する。 このような回帰問題は単細胞ゲノミクスや神経科学に多くの応用があり、そこでは大きなサンプル集合上で共分散行列が測定される。 ブレス=ヴァッサーシュタイン多様体上の Fr'echet 回帰は、条件付き Fr'echet の平均が$x$であるような条件付き Fr'echet を推定するものとして定式化される。 非漸近的な $\sqrt{n}$-rate of convergence (最大$\log n$ factor) は、我々の推定器 $\hat{Q}_n(x)$ uniformly for $\left\|x\right\| \lesssim \sqrt{\log n}$ に対して得られる。 さらに、点の推定値 $\hat{Q}_n(x)$ に対する中心極限定理が得られ、共変量効果のテストに対する洞察を与える。 テスト統計学の零分布は独立なカイ二乗の重み付き和に収束することが示され、これは提案されたテストが漸近的に所望の意義レベルを持つことを意味する。 また、連続した代替品の列に対して試験の電力性能を実証する。 シミュレーションの結果,漸近分布の精度が示された。 提案手法は,遺伝子共発現ネットワークの変化を年齢とともに示す単一細胞遺伝子発現データセットに適用した。

This paper considers the problem of regression analysis with random covariance matrix as outcome and Euclidean covariates in the framework of Fr\'echet regression on the Bures-Wasserstein manifold. Such regression problems have many applications in single cell genomics and neuroscience, where we have covariance matrix measured over a large set of samples. Fr\'echet regression on the Bures-Wasserstein manifold is formulated as estimating the conditional Fr\'echet mean given covariates $x$. A non-asymptotic $\sqrt{n}$-rate of convergence (up to $\log n$ factors) is obtained for our estimator $\hat{Q}_n(x)$ uniformly for $\left\|x\right\| \lesssim \sqrt{\log n}$, which is crucial for deriving the asymptotic null distribution and power of our proposed statistical test for the null hypothesis of no association. In addition, a central limit theorem for the point estimate $\hat{Q}_n(x)$ is obtained, giving insights to a test for covariate effects. The null distribution of the test statistic is shown to converge to a weighted sum of independent chi-squares, which implies that the proposed test has the desired significance level asymptotically. Also, the power performance of the test is demonstrated against a sequence of contiguous alternatives. Simulation results show the accuracy of the asymptotic distributions. The proposed methods are applied to a single cell gene expression data set that shows the change of gene co-expression network as people age.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-15
# コンピュータ病理診断のための知識強化型ビジュアルランゲージプレトレーニング

Knowledge-enhanced Visual-Language Pretraining for Computational Pathology ( http://arxiv.org/abs/2404.09942v2 )

ライセンス: Link先を確認
Xiao Zhou, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Weidi Xie, Yanfeng Wang, (参考訳) 本稿では,公共資源から収集した大規模画像テキストペアと,病理学におけるドメイン固有の知識を活用することで,コンピュータ病理学における視覚表現学習の課題を考察する。 具体的には、以下の貢献をします。 (i)32個のヒト組織から病理診断を必要とする4,718の疾患について50,470個の情報属性からなる病理知識ツリーをキュレートする。 私たちの知る限りでは、これが最初の包括的構造的病理知識基盤である。 (II)我々は、言語モデルを介して潜伏埋め込み空間に病理学固有の知識を計画し、それを視覚表現学習の指導に利用する知識強化型視覚言語事前学習手法を開発した。 3) 提案手法の有効性を検証するため, クロスモーダル検索, 病理診断におけるゼロショット分類, スライド画像全体(WSI)におけるゼロショットのサブタイプなど, 様々な下流タスクにおいて, 大幅な性能向上を図っている。

In this paper, we consider the problem of visual representation learning for computational pathology, by exploiting large-scale image-text pairs gathered from public resources, along with the domain-specific knowledge in pathology. Specifically, we make the following contributions: (i) We curate a pathology knowledge tree that consists of 50,470 informative attributes for 4,718 diseases requiring pathology diagnosis from 32 human tissues. To our knowledge, this is the first comprehensive structured pathology knowledge base; (ii) We develop a knowledge-enhanced visual-language pretraining approach, where we first project pathology-specific knowledge into latent embedding space via a language model, and use it to guide the visual representation learning; (iii) We conduct thorough experiments to validate the effectiveness of our proposed components, demonstrating significant performance improvement on various downstream tasks, including cross-modal retrieval, zero-shot classification on pathology patches, and zero-shot tumor subtyping on whole slide images (WSIs).
翻訳日:2024-09-18 02:25:37 公開日:2024-09-15
# COBRA -- 形状回帰分析に基づく単一画像からのオブジェクトポーズ推定の方法に依存しない品質評価

COBRA -- COnfidence score Based on shape Regression Analysis for method-independent quality assessment of object pose estimation from single images ( http://arxiv.org/abs/2404.16471v3 )

ライセンス: Link先を確認
Panagiotis Sapoutzoglou, George Giapitzakis, George Terzakis, Maria Pateraki, (参考訳) 本稿では,単一画像意味解析に依存するポーズ推定手法の一般的なアルゴリズムを提案する。 このアルゴリズムは、複数のガウス過程を組み合わせた軽量な配置形状表現を用いる。 それぞれのガウス過程(GP)は、オブジェクトの座標系内の複数の基準点からその表面への距離正規分布を生成し、予測されたポーズを評価するための幾何学的評価フレームワークを提供する。 我々の信頼度尺度は、形状テンプレートへの画素バックプロジェクションの平均混合確率からなる。 本報告実験では,物体のGPベース表現の精度と実際の幾何モデルとの比較を行い,セグメンテーションとポーズ推定を併用した固有測度と対照的に,アウトレーヤの影響を捉えることができることを示す。

We present a generic algorithm for scoring pose estimation methods that rely on single image semantic analysis. The algorithm employs a lightweight putative shape representation using a combination of multiple Gaussian Processes. Each Gaussian Process (GP) yields distance normal distributions from multiple reference points in the object's coordinate system to its surface, thus providing a geometric evaluation framework for scoring predicted poses. Our confidence measure comprises the average mixture probability of pixel back-projections onto the shape template. In the reported experiments, we compare the accuracy of our GP based representation of objects versus the actual geometric models and demonstrate the ability of our method to capture the influence of outliers as opposed to the corresponding intrinsic measures that ship with the segmentation and pose estimation methods.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-15
# 複雑な運転シーンの異常セグメンテーションのための画素マニフォールドのランダムウォーク

Random Walk on Pixel Manifolds for Anomaly Segmentation of Complex Driving Scenes ( http://arxiv.org/abs/2404.17961v2 )

ライセンス: Link先を確認
Zelong Zeng, Kaname Tomite, (参考訳) 複雑な運転シーンの異常セグメンテーションにおいて、最先端の手法は異常スコアを計算するために異常スコア関数を利用する。 これらの関数に対して、各画素に対する不整クラスのロジットを正確に予測することは、異常スコアを正確に推測するために重要である。 しかし、現実世界の運転シナリオでは、シーンの多様性は、しばしば空間にピクセルの埋め込みの歪んだ多様体をもたらす。 この効果は、既存の手法で見過ごされる関心事である、推論中のロジット予測にピクセル埋め込みを直接使用することには影響しない。 この問題に対処するために,Pixel Manifolds (RWPM) 上でランダムウォーク(Random Walk)と呼ばれる新しい手法を提案する。 RWPMはランダムウォークを用いて画素間の固有の関係を明らかにし、画素埋め込みを洗練させる。 改良された画素埋め込みにより多様体の歪みが軽減され、異常スコアの精度が向上する。 大規模な実験により,RWPMは既存の異常セグメンテーション法の性能を一貫して改善し,最良の結果が得られることが示された。 コードは: \url{https://github.com/ZelongZeng/RWPM}で入手できる。

In anomaly segmentation for complex driving scenes, state-of-the-art approaches utilize anomaly scoring functions to calculate anomaly scores. For these functions, accurately predicting the logits of inlier classes for each pixel is crucial for precisely inferring the anomaly score. However, in real-world driving scenarios, the diversity of scenes often results in distorted manifolds of pixel embeddings in the space. This effect is not conducive to directly using the pixel embeddings for the logit prediction during inference, a concern overlooked by existing methods. To address this problem, we propose a novel method called Random Walk on Pixel Manifolds (RWPM). RWPM utilizes random walks to reveal the intrinsic relationships among pixels to refine the pixel embeddings. The refined pixel embeddings alleviate the distortion of manifolds, improving the accuracy of anomaly scores. Our extensive experiments show that RWPM consistently improve the performance of the existing anomaly segmentation methods and achieve the best results. Code is available at: \url{https://github.com/ZelongZeng/RWPM}.
翻訳日:2024-09-18 02:25:36 公開日:2024-09-15
# 真の単一光子絡み合った状態の2次元交互量子ウォークによるデュアルメッセージングシステムによる量子暗号プロトコル

Quantum cryptographic protocols with dual messaging system via 2D alternate quantum walk of a genuine single-photon entangled state ( http://arxiv.org/abs/2405.00663v2 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin, (参考訳) 単一光子絡み合い状態(または一般に単光子絡み合い状態(SPES))は、多光子(または多光子)よりも安全な量子情報の符号化と処理の方法を提供する。 初期分離可能な状態から2次元の代替量子ウォーク設定によって生成されたSPESは、3方向または2方向の絡み合いがある。 このレターは、生成された真の3方向と非ローカルの2方向のSPESを暗号鍵として使用して、2つの異なるメッセージを同時に安全にエンコードできることを示している。 メッセージ暗号化復号手順を詳述し、インターセプト・アンド・リセンドやman-in-the-middleのような盗聴者攻撃に対する3方向と2方向のSPESベースの暗号プロトコルのレジリエンスを示す。 また、単一光子を用いてこれらのプロトコルを実験的に実現し、3自由度はOAM、パス、偏光である。 我々は,このプロトコルが量子通信タスクの無条件セキュリティを持つことを証明した。 生成されたSPESを使って2つの異なるメッセージを同時に符号化する能力は、提案した暗号プロトコルの汎用性と効率性を示している。 この能力は量子通信システムのスループットを大幅に改善する可能性がある。

A single-photon entangled state (or single-particle entangled state (SPES) in general) can offer a more secure way of encoding and processing quantum information than their multi-photon (or multi-particle) counterparts. The SPES generated via a 2D alternate quantum-walk setup from initially separable states can be either 3-way or 2-way entangled. This letter shows that the generated genuine three-way and nonlocal two-way SPES can be used as cryptographic keys to securely encode two distinct messages simultaneously. We detail the message encryption-decryption steps and show the resilience of the 3-way and 2-way SPES-based cryptographic protocols against eavesdropper attacks like intercept-and-resend and man-in-the-middle. We also detail the experimental realization of these protocols using a single photon, with the three degrees of freedom being OAM, path, and polarization. We have proved that the protocols have unconditional security for quantum communication tasks. The ability to simultaneously encode two distinct messages using the generated SPES showcases the versatility and efficiency of the proposed cryptographic protocol. This capability could significantly improve the throughput of quantum communication systems.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-15
# API注入攻撃検出のためのFew-Shot異常検出のための分類・検索フレームワーク

A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks ( http://arxiv.org/abs/2405.11247v2 )

ライセンス: Link先を確認
Udi Aharon, Ran Dubin, Amit Dvir, Chen Hajaj, (参考訳) アプリケーション・プログラミング・インタフェース(API) インジェクション・アタック(インジェクション・アタック)は、しばしば機密データにアクセスしたり、不正な目的でオンラインシステムを操作するために利用される、不正または悪意のないAPIの使用を指す。 APIを騙して利用するアクターを識別することは、要求の多い問題を引き起こす。 APIセキュリティの分野では注目すべき進歩とコントリビューションがあったが、攻撃でよく見られるペイロードにマッチしない新しいアプローチを使用する攻撃者を扱う場合、依然として大きな課題が残っている。 また、攻撃者は意図せず、目的が意図した境界を超えることによって、標準的な機能を利用することができる。 したがって、APIセキュリティは、異常な振る舞いを素早く識別し、応答できる機械学習モデルのような高度な計算知能メソッドによって、これまで以上に洗練され、動的でなければならない。 これらの課題に対応するために,我々は,FastTextの埋め込みに基づいた,API専用の汎用言語モデルをトレーニングする,2つの主要な部分からなる,教師なしの新規なショット異常検出フレームワークを提案する。 次に,近似Nearest Neighborサーチを分類・検索手法として用いた。 当社のフレームワークでは,通常のAPI要求のごく一部の例を使用して,高速で軽量な分類モデルをトレーニングすることが可能です。 CSIC 2010 と ATRDF 2023 データセットを用いて,本フレームワークの性能評価を行った。 その結果,本フレームワークは,非教師付き異常検出ベースライン(SOTA)と比較して,API攻撃検出精度の向上を図っている。

Application Programming Interface (API) Injection attacks refer to the unauthorized or malicious use of APIs, which are often exploited to gain access to sensitive data or manipulate online systems for illicit purposes. Identifying actors that deceitfully utilize an API poses a demanding problem. Although there have been notable advancements and contributions in the field of API security, there remains a significant challenge when dealing with attackers who use novel approaches that don't match the well-known payloads commonly seen in attacks. Also, attackers may exploit standard functionalities unconventionally and with objectives surpassing their intended boundaries. Thus, API security needs to be more sophisticated and dynamic than ever, with advanced computational intelligence methods, such as machine learning models that can quickly identify and respond to abnormal behavior. In response to these challenges, we propose a novel unsupervised few-shot anomaly detection framework composed of two main parts: First, we train a dedicated generic language model for API based on FastText embedding. Next, we use Approximate Nearest Neighbor search in a classification-by-retrieval approach. Our framework allows for training a fast, lightweight classification model using only a few examples of normal API requests. We evaluated the performance of our framework using the CSIC 2010 and ATRDF 2023 datasets. The results demonstrate that our framework improves API attack detection accuracy compared to the state-of-the-art (SOTA) unsupervised anomaly detection baselines.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-15
# 第2回未来課題:検索拡張型対話システム(FutureDial-RAG)

The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG) ( http://arxiv.org/abs/2405.13084v2 )

ライセンス: Link先を確認
Yucheng Cai, Si Chen, Yuxuan Wu, Yi Huang, Junlan Feng, Zhijian Ou, (参考訳) 近年,大規模言語モデル (LLMs) の幻覚を緩和するために,RAG(Recovery augmented generation)に注目が集まっている。 SLT 2024では,対話システムにおけるRAG研究の促進を目的としたFutureDial-RAGチャレンジを開催する。 この課題は、知識ベースクエリとそれに対応する結果のアノテーションを含む3000近い高品質なダイアログを備えた、実際の顧客サービスデータセットであるMobileCS2データセットの上に構築されている。 データセット上では,知識検索のためのトラック1と応答生成のためのトラック2という2つのタスクを定義し,RAGとの対話システムにおける中核的な研究課題である。 我々は,2つのトラックのベースラインシステムを構築し,そのシステムが正確な検索を行い,情報的かつ一貫性のある応答を生成できるかどうかを計測する。 ベースラインの結果から,2つのタスクをうまくこなすことは非常に困難であることが示され,参加チームとコミュニティは実生活の対話システムにRAGをうまく活用する方法を学ぶことが奨励される。

Recently, increasing research interests have focused on retrieval augmented generation (RAG) to mitigate hallucination for large language models (LLMs). Following this trend, we launch the FutureDial-RAG challenge at SLT 2024, which aims at promoting the study of RAG for dialog systems. The challenge builds upon the MobileCS2 dataset, a real-life customer service datasets with nearly 3000 high-quality dialogs containing annotations for knowledge base query and corresponding results. Over the dataset, we define two tasks, track 1 for knowledge retrieval and track 2 for response generation, which are core research questions in dialog systems with RAG. We build baseline systems for the two tracks and design metrics to measure whether the systems can perform accurate retrieval and generate informative and coherent response. The baseline results show that it is very challenging to perform well on the two tasks, which encourages the participating teams and the community to study how to make better use of RAG for real-life dialog systems.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-15
# Memristor-based Reservoir System を用いた時系列予測とシーケンス学習

Time-Series Forecasting and Sequence Learning Using Memristor-based Reservoir System ( http://arxiv.org/abs/2405.13347v2 )

ライセンス: Link先を確認
Abdullah M. Zyarah, Dhireesha Kudithipudi, (参考訳) 時間系列情報処理のフロンティアを強固なリソースで拡張するエッジデバイスの領域に押し付けることは、システムが情報を処理し、デバイス上でローカルに学習する能力によって妨げられている。 時系列情報の局所的な処理と学習は、通常、情報を取得し、数百のパラメータを時間内に調整することを含むため、集中的な計算と大量の記憶を必要とする。 本研究では,効率的な時間的データ処理とオンライン学習を両立させる,メムリスタベースのエコー状態ネットワークアクセラレータを開発した。 提案した設計は、負荷エネルギー消費と気象条件の予測など、実世界のタスクを含む様々なデータセットを用いてベンチマークされる。 実験結果から,ハードウェアモデルはソフトウェアと比較して性能の限界劣化を経験していることがわかった。 これは主に、memristor デバイスをエミュレートする際に、限られた精度とネットワークパラメータの動的範囲に起因する。 提案システムは, 寿命, 頑健性, エネルギー遅延生成物について評価した。 このシステムはデバイス故障に対して10%以下で合理的な堅牢性を示すことが観察された。 さらに、同じ技術ノードで実装されたカスタムCMOSデジタル設計と比較して247倍のエネルギー消費削減を実現している。

Pushing the frontiers of time-series information processing in the ever-growing domain of edge devices with stringent resources has been impeded by the systems' ability to process information and learn locally on the device. Local processing and learning of time-series information typically demand intensive computations and massive storage as the process involves retrieving information and tuning hundreds of parameters back in time. In this work, we developed a memristor-based echo state network accelerator that features efficient temporal data processing and in-situ online learning. The proposed design is benchmarked using various datasets involving real-world tasks, such as forecasting the load energy consumption and weather conditions. The experimental results illustrate that the hardware model experiences a marginal degradation in performance as compared to the software counterpart. This is mainly attributed to the limited precision and dynamic range of network parameters when emulated using memristor devices. The proposed system is evaluated for lifespan, robustness, and energy-delay product. It is observed that the system demonstrates reasonable robustness for device failure below 10%, which may occur due to stuck-at faults. Furthermore, 247X reduction in energy consumption is achieved when compared to a custom CMOS digital design implemented at the same technology node.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-15
# Mallows-DPO: 好みの分散でLLMを微調整する

Mallows-DPO: Fine-Tune Your LLM with Preference Dispersions ( http://arxiv.org/abs/2405.14953v2 )

ライセンス: Link先を確認
Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang, (参考訳) 直接選好最適化(DPO)は、人間からのフィードバック(RLHF)による強化学習を改善するための一般的なアプローチとして最近登場し、大きな言語モデル(LLM)を微調整する技術の改善につながった。 しかし、DPOの弱点は、人間の好みの多様性を特徴づける能力の欠如にある。 Mallows の選好ランク理論に触発されて,新しいアプローチである Mallows-DPO を開発した。 このアプローチの際立った特徴は、人選好のプロンプトへの分散を反映する分散指標である。 我々は,既存のDPOモデルを,この分散指数の特別なケースに還元し,Mallows-DPOと統合できることを示す。 さらに、この分散指数を用いて、合成バンディットの選択から制御可能な世代や対話に至るまで、幅広いベンチマークタスクにおいて、DPOの性能を高めるとともに、優れた一般化能力を維持しながら、どのようにして(実際に)この分散指数を使用するかを実証する。

Direct Preference Optimization (DPO) has recently emerged as a popular approach to improve reinforcement learning with human feedback (RLHF), leading to better techniques to fine-tune large language models (LLM). A weakness of DPO, however, lies in its lack of capability to characterize the diversity of human preferences. Inspired by Mallows' theory of preference ranking, we develop in this paper a new approach, the Mallows-DPO. A distinct feature of this approach is a dispersion index, which reflects the dispersion of human preference to prompts. We show that existing DPO models can be reduced to special cases of this dispersion index, thus unified with Mallows-DPO. More importantly, we demonstrate (empirically) how to use this dispersion index to enhance the performance of DPO in a broad array of benchmark tasks, from synthetic bandit selection to controllable generations and dialogues, while maintaining great generalization capabilities.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-15
# 可変ゼーマン分割下におけるスピン-1/2ハイゼンベルクXYZ+DM+KSEAモデルにおける熱量子資源と確率的テレポーテーションに関する研究

A Study on Thermal Quantum Resources and Probabilistic Teleportation in Spin-1/2 Heisenberg XYZ+DM+KSEA Model under Variable Zeeman Splitting ( http://arxiv.org/abs/2405.16294v2 )

ライセンス: Link先を確認
Asad Ali, Saif Al-Kuwari, M. T. Rahim, Mehrdad Ghominejad, Hazrat Ali, Saeed Haddadi, (参考訳) 我々は、ギブス密度演算子によって記述された熱状態におけるジアラロシンスキー-モリヤ(DM)とカプラン-シェフツマン-エンチン-ヴルマン-アハロニ(KSEA)相互作用を添加したスピン-1/2ハイゼンベルクXYZモデルにおける様々な量子コヒーレンスと量子相関の挙動について検討した。 我々は、異なる量子リソースの制限された階層的分類を理解することを目的としており、ベル非局所性$\subseteq$ 量子ステアリング$\subseteq$ 量子エンタングルメント$\subseteq$ 量子ディスコード$\subseteq$ 量子コヒーレンス。 この階層は、量子コヒーレンスからより特定の量子現象に移行する際に必要となる厳しい条件を強調している。 量子コヒーレンス, 量子相関, テレポーテーションの忠実度を高めるために, 本分析では, 独立に供給された正弦波磁場制御と, DMとKSEAの相互作用が考慮されたシステムに与える影響を考察した。 その結果、チャネルの絡み合いや量子相関性の向上は、常にテレポーテーションの成功を保証したり、テレポーテーションの忠実性を改善することさえ保証しないことが明らかとなった。 したがって、テレポーテーションの忠実度とチャネルの根底にある量子的性質の関係は複雑である。 本研究は、量子コヒーレンスと相関階層の複雑な相互作用に関する貴重な知見を提供し、量子通信および情報処理技術への潜在的応用を提供する。

We investigate the behavior of various measures of quantum coherence and quantum correlation in the spin-1/2 Heisenberg XYZ model with added Dzyaloshinsky-Moriya (DM) and Kaplan--Shekhtman--Entin-Wohlman--Aharony (KSEA) interactions at a thermal regime described by a Gibbs density operator. We aim to understand the restricted hierarchical classification of different quantum resources, where Bell nonlocality $\subseteq$ quantum steering $\subseteq$ quantum entanglement $\subseteq$ quantum discord $\subseteq$ quantum coherence. This hierarchy highlights the increasingly stringent conditions required as we move from quantum coherence to more specific quantum phenomena. In order to enhance quantum coherence, quantum correlation, and fidelity of teleportation, our analysis encompasses the effects of independently provided sinusoidal magnetic field control as well as DM and KSEA interactions on the considered system. The results reveal that enhancing the entanglement or quantum correlation of the channel does not always guarantee successful teleportation or even an improvement in teleportation fidelity. Thus, the relationship between teleportation fidelity and the channel's underlying quantum properties is intricate. Our study provides valuable insights into the complex interplay of quantum coherence and correlation hierarchy, offering potential applications for quantum communication and information processing technologies.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-15
# 最適双対化による大規模言語モデルのワンショット安全アライメント

One-Shot Safety Alignment for Large Language Models via Optimal Dualization ( http://arxiv.org/abs/2405.19544v2 )

ライセンス: Link先を確認
Xinmeng Huang, Shuo Li, Edgar Dobriban, Osbert Bastani, Hamed Hassani, Dongsheng Ding, (参考訳) LLM(Large Language Models, 大規模言語モデル)を取り巻く安全性の懸念が高まり、その利便性と安全性を同時に向上するために、様々な人間の好みに合わせる必要がある。 有望なアプローチは、RLHF(Reinforcement Learning from Human Feedback)を通じて安全性の制約を実施することである。 このような制約付きRLHFでは、一般的なラグランジアンベースの原始双対ポリシー最適化手法は計算コストが高く、しばしば不安定である。 本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。 我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。 このショートカットは、煩雑な原始二重ポリシー反復の必要性を排除し、計算負担を大幅に低減し、訓練安定性を向上させる。 我々の戦略はモデルベースと嗜好ベースのシナリオ(それぞれMoCANとPeCAN)の2つの実践的アルゴリズムに導かれる。 幅広い実験により,本手法の有効性が示された。

The growing safety concerns surrounding Large Language Models (LLMs) raise an urgent need to align them with diverse human preferences to simultaneously enhance their helpfulness and safety. A promising approach is to enforce safety constraints through Reinforcement Learning from Human Feedback (RLHF). For such constrained RLHF, common Lagrangian-based primal-dual policy optimization methods are computationally expensive and often unstable. This paper presents a dualization perspective that reduces constrained alignment to an equivalent unconstrained alignment problem. We do so by pre-optimizing a smooth and convex dual function that has a closed form. This shortcut eliminates the need for cumbersome primal-dual policy iterations, thus greatly reducing the computational burden and improving training stability. Our strategy leads to two practical algorithms in model-based and preference-based scenarios (MoCAN and PeCAN, respectively). A broad range of experiments demonstrate the effectiveness of our methods.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-15
# 3次元行動表現学習のためのクロスモーダル知識による段階的蒸留

Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning ( http://arxiv.org/abs/2405.20606v2 )

ライセンス: Link先を確認
Yang Chen, Tian He, Junfeng Fu, Ling Wang, Jingcai Guo, Ting Hu, Hong Cheng, (参考訳) スケルトンをベースとした行動表現学習は、骨格配列を符号化することで人間の行動を解釈し理解することを目的としており、これは教師あり学習と自己教師あり学習の2つの主要な訓練パラダイムに分類される。 しかしながら、以前のワンホット分類では、労働集約的な事前定義されたアクションカテゴリアノテーションを必要とし、後者は、骨格構造を損なう可能性のあるプリテキストタスクにおける骨格変換(例えば、収穫)を含む。 これらの課題に対処するために, プログレッシブ蒸留を用いたクロスモーダルコントラスト学習に基づく新しいスケルトンベースのトレーニングフレームワーク(C$^2$VL)を導入する。 具体的には、事前に訓練された大型マルチモーダルモデル(LMM)によって生成される視覚言語知識プロンプトを用いて、視覚言語行動概念空間を確立する。 さらに、モーダル表現学習プロセスにおいて、モーダル内自己相似性とモーダル間相互整合性を軟化したターゲットを提案し、視覚言語知識のプロンプトとそれに対応する骨格の引き抜きの程度を段階的に制御し、指導する。 これらの柔らかいインスタンス識別と自己知識蒸留戦略は、ノイズの多い骨格ビジョン言語対からのより良い骨格に基づく行動表現の学習に寄与する。 推論フェーズでは,動作認識のための入力として骨格データのみが必要であり,視覚言語的なプロンプトは不要である。 NTU RGB+D 60, NTU RGB+D 120, PKU-MMDデータセットの大規模な実験により, 提案手法が従来の手法より優れ, 最先端の結果が得られた。 コードは、https://github.com/cseeyangchen/C2VL.comで入手できる。

Skeleton-based action representation learning aims to interpret and understand human behaviors by encoding the skeleton sequences, which can be categorized into two primary training paradigms: supervised learning and self-supervised learning. However, the former one-hot classification requires labor-intensive predefined action categories annotations, while the latter involves skeleton transformations (e.g., cropping) in the pretext tasks that may impair the skeleton structure. To address these challenges, we introduce a novel skeleton-based training framework (C$^2$VL) based on Cross-modal Contrastive learning that uses the progressive distillation to learn task-agnostic human skeleton action representation from the Vision-Language knowledge prompts. Specifically, we establish the vision-language action concept space through vision-language knowledge prompts generated by pre-trained large multimodal models (LMMs), which enrich the fine-grained details that the skeleton action space lacks. Moreover, we propose the intra-modal self-similarity and inter-modal cross-consistency softened targets in the cross-modal representation learning process to progressively control and guide the degree of pulling vision-language knowledge prompts and corresponding skeletons closer. These soft instance discrimination and self-knowledge distillation strategies contribute to the learning of better skeleton-based action representations from the noisy skeleton-vision-language pairs. During the inference phase, our method requires only the skeleton data as the input for action recognition and no longer for vision-language prompts. Extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets demonstrate that our method outperforms the previous methods and achieves state-of-the-art results. Code is available at: https://github.com/cseeyangchen/C2VL.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-15
# 拡散モデルを用いたレイアウト非依存のシーンテキスト画像合成

Layout Agnostic Scene Text Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2406.01062v5 )

ライセンス: Link先を確認
Qilong Zhangli, Jindong Jiang, Di Liu, Licheng Yu, Xiaoliang Dai, Ankit Ramchandani, Guan Pang, Dimitris N. Metaxas, Praveen Krishnan, (参考訳) 拡散モデルは画像生成の質を著しく向上させてきたが、それらの画像内のテキストを正確かつ整合的にレンダリングする能力は依然として大きな課題である。 従来の拡散に基づくシーンテキスト生成法は、中間レイアウト出力に依存して制限されるのが一般的である。 この依存はしばしば、レイアウト生成フェーズの決定論的性質から生じる固有の制限として、テキストスタイルやフォントの制限された多様性をもたらす。 これらの課題に対処するために、SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。 そうすることで、SceneTextGenはテキストのより自然で多様な表現を促進する。 文字レベルのインスタンスセグメンテーションモデルと単語レベルのスポッティングモデルを組み合わせることで、不要なテキスト生成とマイナーな文字不正確な問題に対処する。 本手法の有効性は,標準拡散法とテキスト固有法を比較検討し,異なる公開視覚テキストデータセット間で生成した画像に対する文字認識率の向上を示すことで検証した。

While diffusion models have significantly advanced the quality of image generation their capability to accurately and coherently render text within these images remains a substantial challenge. Conventional diffusion-based methods for scene text generation are typically limited by their reliance on an intermediate layout output. This dependency often results in a constrained diversity of text styles and fonts an inherent limitation stemming from the deterministic nature of the layout generation phase. To address these challenges this paper introduces SceneTextGen a novel diffusion-based model specifically designed to circumvent the need for a predefined layout stage. By doing so SceneTextGen facilitates a more natural and varied representation of text. The novelty of SceneTextGen lies in its integration of three key components: a character-level encoder for capturing detailed typographic properties coupled with a character-level instance segmentation model and a word-level spotting model to address the issues of unwanted text generation and minor character inaccuracies. We validate the performance of our method by demonstrating improved character recognition rates on generated images across different public visual text datasets in comparison to both standard diffusion based methods and text specific methods.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-15
# 外周部を有する多物体追跡のための畳み込みアンセントカルマンフィルタ

Convolutional Unscented Kalman Filter for Multi-Object Tracking with Outliers ( http://arxiv.org/abs/2406.01380v2 )

ライセンス: Link先を確認
Shiqi Liu, Wenhan Cao, Chang Liu, Tianyi Zhang, Shengbo Eben Li, (参考訳) マルチオブジェクトトラッキング(MOT)は、自律運転におけるナビゲーションに不可欠な技術である。 トラッキング・バイ・検出システムでは、複雑なトラフィックシナリオのため、バイアス、偽陽性、ミスが避けられない。 最近の追跡手法は、これらのアウトリーチを見渡すフィルタリングアルゴリズムに基づいており、トラッキングの精度を低下させ、オブジェクトの軌道の損失も減少させる。 この課題に対処するために、実測データの分布とフィルタリングに使用される名目計測モデルとの相違点として、外れ値の生成に関する確率論的視点を採用する。 さらに、畳み込み操作を設計することで、この不特定性を緩和できることを実証する。 一般に採用されている追跡アルゴリズムにおいて、この操作を広く使われているKalmanフィルタ(UKF)に組み込むと、UKF(Convolutional UKF)と呼ばれる外れ値に頑健なUKFの変種を導出する。 本稿では,ConvUKFがガウス共役性を維持し,リアルタイムな追跡を可能にすることを示す。 また,ConvUKFが外乱の存在下で有界な追従誤差を持つことも証明した。 KITTIおよびnuScenesデータセットの実験結果は、MOTタスクの代表的なベースラインアルゴリズムと比較して精度が向上した。

Multi-object tracking (MOT) is an essential technique for navigation in autonomous driving. In tracking-by-detection systems, biases, false positives, and misses, which are referred to as outliers, are inevitable due to complex traffic scenarios. Recent tracking methods are based on filtering algorithms that overlook these outliers, leading to reduced tracking accuracy or even loss of the objects trajectory. To handle this challenge, we adopt a probabilistic perspective, regarding the generation of outliers as misspecification between the actual distribution of measurement data and the nominal measurement model used for filtering. We further demonstrate that, by designing a convolutional operation, we can mitigate this misspecification. Incorporating this operation into the widely used unscented Kalman filter (UKF) in commonly adopted tracking algorithms, we derive a variant of the UKF that is robust to outliers, called the convolutional UKF (ConvUKF). We show that ConvUKF maintains the Gaussian conjugate property, thus allowing for real-time tracking. We also prove that ConvUKF has a bounded tracking error in the presence of outliers, which implies robust stability. The experimental results on the KITTI and nuScenes datasets show improved accuracy compared to representative baseline algorithms for MOT tasks.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-15
# PolyLUT-Add:広入力付きFPGAベースのLUT推論

PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs ( http://arxiv.org/abs/2406.04910v2 )

ライセンス: Link先を確認
Binglei Lou, Richard Rademacher, David Boland, Philip H. W. Leong, (参考訳) FPGAには、エッジにディープニューラルネットワーク(DNN)をデプロイする技術として、明確なアドバンテージがある。 ルックアップテーブル(LUT)ベースのネットワークでは、ニューロンがLUTを使って直接モデル化され、FPGA上で超低レイテンシと高領域効率を提供するというこの約束を最大化することができる。 残念ながら、LUTリソースの使用量はLUTへの入力数とともに指数関数的に拡大し、PolyLUTを小さなLUTサイズに制限している。 この研究はPolyLUT-Addを導入し、これは精度を向上させるために$A$ PolyLUTサブニューロンを組み合わせることによってニューロンの接続性を高める技術である。 さらに,スケーラビリティを向上させる新しいアーキテクチャについて述べる。 我々は,MNIST,Jet Substructure Classification,Network Intrusion Detectionベンチマークに対する実装評価を行い,同様の精度でPolyLUT-AddがLUTの2.0-13.9\times$と1.2-1.6\times$の遅延低減を実現していることを確認した。

FPGAs have distinct advantages as a technology for deploying deep neural networks (DNNs) at the edge. Lookup Table (LUT) based networks, where neurons are directly modeled using LUTs, help maximize this promise of offering ultra-low latency and high area efficiency on FPGAs. Unfortunately, LUT resource usage scales exponentially with the number of inputs to the LUT, restricting PolyLUT to small LUT sizes. This work introduces PolyLUT-Add, a technique that enhances neuron connectivity by combining $A$ PolyLUT sub-neurons via addition to improve accuracy. Moreover, we describe a novel architecture to improve its scalability. We evaluated our implementation over the MNIST, Jet Substructure classification, and Network Intrusion Detection benchmark and found that for similar accuracy, PolyLUT-Add achieves a LUT reduction of $2.0-13.9\times$ with a $1.2-1.6\times$ decrease in latency.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-15
# イオントラップ量子ハードウェア上の分子電気双極子モーメントの相対論的VQE計算

Relativistic VQE calculations of molecular electric dipole moments on trapped ion quantum hardware ( http://arxiv.org/abs/2406.04992v2 )

ライセンス: Link先を確認
Palak Chawla, Shweta, K. R. Swain, Tushti Patel, Renu Bala, Disha Shetty, Kenji Sugisaki, Sudhindu Bikash Mandal, Jordi Riu, Jan Nogue, V. S. Prasannaa, B. P. Das, (参考訳) 量子古典的ハイブリッド変分量子固有解法(VQE)アルゴリズムは、量子コンピュータにおける原子と分子の計算において最も活発に研究されているトピックである。 本研究は、従来のコンピュータ上でBeHからRaH分子の永久電気双極子モーメント(PDM)を計算するための高精度18量子相対論的VQEシミュレーションと、IonQ量子デバイス上でのSrHに対する6および12量子PDM計算を提案する。 そこで本研究では,ZX-Calculusルーチンを保留する強化学習や因果フロー,エラー軽減,選択後手法など,様々な資源削減手法を適用した。 我々の12量子ビット回路の2量子ゲート数を99.71%削減し、古典的に選択された活性空間内で評価した場合、PDMの精度は2.35%に留まる。 現行のIonQ Forte-Iハードウェアでは、PDMの誤差は古典的な計算に比べて-1.17%、最適化されていない回路に比べて1.21%に過ぎなかった。

The quantum-classical hybrid variational quantum eigensolver (VQE) algorithm is among the most actively studied topics in atomic and molecular calculations on quantum computers, yet few studies address properties other than energies or account for relativistic effects. This work presents high-precision 18-qubit relativistic VQE simulations for calculating the permanent electric dipole moments (PDMs) of BeH to RaH molecules on traditional computers, and 6- and 12-qubit PDM computations for SrH on IonQ quantum devices. To achieve high precision on current noisy intermediate scale era quantum hardware, we apply various resource reduction methods, including Reinforcement Learning and causal flow preserving ZX-Calculus routines, along with error mitigation and post-selection techniques. Our approach reduces the two-qubit gate count in our 12-qubit circuit by 99.71%, with only a 2.35% trade-off in precision for PDM when evaluated classically within a suitably chosen active space. On the current generation IonQ Forte-I hardware, the error in PDM is -1.17% relative to classical calculations and only 1.21% compared to the unoptimized circuit.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-15
# Aegis: 分散型拡張ブロックチェーン

Aegis: A Decentralized Expansion Blockchain ( http://arxiv.org/abs/2406.05904v2 )

ライセンス: Link先を確認
Yogev Bar-On, Roi Bar-Zur, Omer Ben-Porat, Nimrod Cohen, Ittay Eyal, Matan Sitbon, (参考訳) ブロックチェーンは、ノードの委員会によって運営される金融システムを実装する。 確立されたブロックチェーンの堅牢性は、インフラストラクチャを活用して拡張チェーンを作成する機会を提供する。 拡張チェーンは、プライマリチェーンのセキュリティとトークンの安定性から恩恵を受けながら、プライマリチェーンを活用または実装するプライマリチェーンに追加機能を提供する。 実際、EthereumのEigenLayerのようなツールは、ノードをプライマリチェーンに(担保として)張ることを可能にし、拡張チェーンを運用する責任を負う委員会を形成する。 しかし、これはこぼれだ。 古典的なプロトコルは正しいと仮定するが、よく知られたノードは無期限に正しいままである。 しかし、私たちの場合、その利害関係は正しさを動機付けます。 ノードがその利害関係を取り下げると、その正しさを仮定する根拠は存在しない。 新しい課題に対処するため、プライマリチェーンの利害関係に基づいた拡張チェーンであるAegisを、境界付きプライマリチェーンの書き込み時間として提示する。 Aegis は Aegis ブロックからプライマリブロックへの参照を使用して委員会を定義し、プライマリチェーンのチェックポイントで決定を継続し、前回が廃止された場合、プライマリチェーンにリセットして新しい委員会を設置する。 Aegisノード間のレイテンシが低い場合、常に安全と迅速な進捗を保証する。

Blockchains implement monetary systems operated by committees of nodes. The robustness of established blockchains presents an opportunity to leverage their infrastructure for creating expansion chains. Expansion chains can provide additional functionality to the primary chain they leverage or implement separate functionalities, while benefiting from the primary chain's security and the stability of its tokens. Indeed, tools like Ethereum's EigenLayer enable nodes to stake (deposit collateral) on a primary chain to form a committee responsible for operating an expansion chain. But here is the rub. Classical protocols assume correct, well-behaved nodes stay correct indefinitely. Yet in our case, the stake incentivizes correctness--it will be slashed (revoked) if its owner deviates. Once a node withdraws its stake, there is no basis to assume its correctness. To address the new challenge, we present Aegis, an expansion chain based on primary-chain stake, assuming a bounded primary-chain write time. Aegis uses references from Aegis blocks to primary blocks to define committees, checkpoints on the primary chain to perpetuate decisions, and resets on the primary chain to establish a new committee if the previous one becomes obsolete. It ensures safety at all times and rapid progress when latency among Aegis nodes is low.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-15
# デジタル公共商品のプライバシ要件と現実

Privacy Requirements and Realities of Digital Public Goods ( http://arxiv.org/abs/2406.15842v2 )

ライセンス: Link先を確認
Geetika Gopi, Aadyaa Maddi, Omkhar Arasaratnam, Giulia Fanti, (参考訳) 国際開発コミュニティでは、「デジタル・パブリック・グッズ」という用語が、国連(UN)持続可能な開発目標に対応するためのオープンソースのデジタル製品(ソフトウェア、データセットなど)を指すために使われる。 DPGは、世界中の政府サービス(ID管理、医療登録など)に利用されている。 DPGは機密データを処理できるため、国連はDPGのファーストオーダー要件としてユーザプライバシを確立している。 DPGのプライバシーリスクは、現在、DPGのプライバシー姿勢を評価するために設計された質問を含む、DPG標準によって部分的に管理されている。 本研究は、適切なプライバシー保護を確保するため、現行のDMG標準の有効性について検討する。 本稿では,ユーザプライバシ保護に関するDSGからの回答を体系的に評価する。 プライバシの脅威を特定し,DSG標準に対する回答と比較するため,広範に使用されている3つのDSGの詳細なケーススタディも提示する。 以上の結果から,現在のDSG標準の評価手法の限界が明らかとなった。 我々は、プライバシーに関する DPG 標準を強化するための事前勧告と提案を提示することで、結論付ける。 さらに、この研究は、エンドユーザーだけでなく、サードパーティによるユーザー対応技術の採用者に対しても、プライバシーのコミュニケーションに関するより有用なプライバシー研究を促進することを願っています。

In the international development community, the term "digital public goods" is used to describe open-source digital products (e.g., software, datasets) that aim to address the United Nations (UN) Sustainable Development Goals. DPGs are increasingly being used to deliver government services around the world (e.g., ID management, healthcare registration). Because DPGs may handle sensitive data, the UN has established user privacy as a first-order requirement for DPGs. The privacy risks of DPGs are currently managed in part by the DPG standard, which includes a prerequisite questionnaire with questions designed to evaluate a DPG's privacy posture. This study examines the effectiveness of the current DPG standard for ensuring adequate privacy protections. We present a systematic assessment of responses from DPGs regarding their protections of users' privacy. We also present in-depth case studies from three widely-used DPGs to identify privacy threats and compare this to their responses to the DPG standard. Our findings reveal limitations in the current DPG standard's evaluation approach. We conclude by presenting preliminary recommendations and suggestions for strengthening the DPG standard as it relates to privacy. Additionally, we hope this study encourages more usable privacy research on communicating privacy, not only to end users but also third-party adopters of user-facing technologies.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-15
# 開境界を持つ可積分スピン鎖のスペクトル保存変形

Spectrum-preserving deformations of integrable spin chains with open boundaries ( http://arxiv.org/abs/2406.17171v2 )

ライセンス: Link先を確認
Yunfeng Jiang, Yuan Miao, (参考訳) 我々は、強い相互作用と正確に解ける量子多体系のためにスペクトルの一部を無傷に残す局所的な変形の族を発見した。 この変形はベーテ・アンザッツ方程式(BAE)を保存するため、アイソ・ベーエ流と呼ばれる。 流路上の全ての理論は同じBAEを共有しているが、スペクトルは異なる。 スペクトルの一部は、流路全体に沿って無傷で残っている。 このような状態は創発対称性によって保護される。 スペクトルの残りの部分は流れに沿って連続的に変化し、長さのスピン鎖に対して二重に縮退する。 奇長鎖に対しては、変形されたスペクトルは、スピン鎖の長さが$L$であるマグノン数$(L+1)/2$のセクターから2重縮退するペアも含む。 我々は${\rm XXX}_{1/2}$モデルのイソBAEフローを詳細に議論し、$q$変形されたXXZや高スピンの${\rm XXX}_{s}$スピン鎖を含むより一般的なモデルに対してイソBAEフローが存在することを示す。

We discover a family of local deformations that leave part of the spectrum intact for strongly interacting and exactly solvable quantum many-body systems. Since the deformation preserves the Bethe Ansatz equations (BAE), it is dubbed the iso-BAE flow. Although all theories on the flow share the same BAE, the spectra are different. Part of the spectrum remains intact along the whole flow. Such states are protected by an emergent symmetry. The remaining parts of the spectrum change continuously along the flow and are doubly degenerate for even length spin chains. For odd length chains, the deformed spectrum also comprises doubly degenerate pairs apart from the sector with magnon number $(L+1)/2$, where $L$ is the length of the spin chain. We discuss the iso-BAE flow for the ${\rm XXX}_{1/2}$ model in detail and show that the iso-BAE flows exist for more general models including $q$-deformed XXZ as well as higher spin ${\rm XXX}_{s}$ spin chains.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-15
# HuatuoGPT-Vision - マルチモーダルLCMへの医用視覚知識注入を目指して

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale ( http://arxiv.org/abs/2406.19280v2 )

ライセンス: Link先を確認
Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang, (参考訳) GPT-4Vのようなマルチモーダル大規模言語モデル(MLLM)の急速な開発は、大きな進歩をもたらした。 しかし、これらのモデルは、データプライバシの懸念と高いアノテーションコストから生じる、医療ビジョンテキストデータの量と品質の制限により、医療マルチモーダル能力の課題に直面している。 先駆的なアプローチでは、PubMedの大規模で識別されていない医療画像テキストペアを使用してこれらの制限に対処するが、固有のデータノイズのために依然として不足している。 そこで我々は,医療用VQAサンプル13万件のPubMedVisionデータセットを作成するために,医療用画像テキストペアをPubMedから改良し,MLLM(GPT-4V)を「公開されていない」能力で使用した。 検証の結果, (1) PubMedVision は現在のMLLMの医療マルチモーダル能力を大幅に向上させ,MMMU Health & Medicine トラックを含むベンチマークの大幅な改善, (2) 医療専門家による手作業によるチェック, 実験結果による他のデータ構築手法と比較して, データセットの優れたデータ品質を評価することができることがわかった。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionをトレーニングし、オープンソースMLLMの医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-15
# ネットワークサービス劣化の早期検出:フロー内アプローチ

Early Detection of Network Service Degradation: An Intra-Flow Approach ( http://arxiv.org/abs/2407.06637v2 )

ライセンス: Link先を確認
Balint Bicski, Adrian Pekar, (参考訳) 本研究では,早期のフロー特性を利用して,コンピュータネットワークにおけるサービス劣化(SD)を予測する新しい手法を提案する。 本稿では,ネットワークフローの観測可能な(O)セグメントに着目し,特にパケット間時間(PIAT)値や他の派生メトリクスを分析し,観測不可能な(NO)セグメントの挙動を推定する。 総合評価により,観測遅延サンプル10点の最適O/NO分割閾値を同定し,予測精度と資源利用量のバランスをとる。 Logistic Regression、XGBoost、Multi-Layer Perceptronなどのモデルを評価すると、XGBoostは他のモデルよりも優れており、F1スコアは0.74、バランスの取れた精度は0.84、AUROCは0.97である。 本研究は, 資源制約環境におけるネットワークトラフィック監視の実践的ソリューションとして, 包括的早期フロー機能の導入の有効性と本手法の可能性を明らかにするものである。 このアプローチは、潜在的なSDにプリエンプティブに対処することで、ユーザエクスペリエンスとネットワークパフォーマンスの向上を保証し、高品質なネットワークサービスを維持するための堅牢なフレームワークの基礎を提供する。

This research presents a novel method for predicting service degradation (SD) in computer networks by leveraging early flow features. Our approach focuses on the observable (O) segments of network flows, particularly analyzing Packet Inter-Arrival Time (PIAT) values and other derived metrics, to infer the behavior of non-observable (NO) segments. Through a comprehensive evaluation, we identify an optimal O/NO split threshold of 10 observed delay samples, balancing prediction accuracy and resource utilization. Evaluating models including Logistic Regression, XGBoost, and Multi-Layer Perceptron, we find XGBoost outperforms others, achieving an F1-score of 0.74, balanced accuracy of 0.84, and AUROC of 0.97. Our findings highlight the effectiveness of incorporating comprehensive early flow features and the potential of our method to offer a practical solution for monitoring network traffic in resource-constrained environments. This approach ensures enhanced user experience and network performance by preemptively addressing potential SD, providing the basis for a robust framework for maintaining high-quality network services.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-15
# PLMを用いたFew-Shot Intent Detectorの最小化

Minimizing PLM-Based Few-Shot Intent Detectors ( http://arxiv.org/abs/2407.09943v2 )

ライセンス: Link先を確認
Haode Zhang, Albert Y. S. Lam, Xiao-Ming Wu, (参考訳) 近年の研究では、ラベル付きデータによる事前学習言語モデル~(PLM)に基づく効率的な意図検出の訓練が可能であることが実証されている。 しかし、モバイルデバイスのようなリソース制約のある環境にこれらの検出器を配置することは、そのサイズが大きいため、課題となる。 本研究では, PLM をベースとしたインテント検出装置のサイズを最小化するため, この課題に対処することを目的としている。 具体的には,大規模言語モデル(LLM)をデータ拡張に利用し,知識蒸留に最先端モデル圧縮法を用い,V-Pruneと呼ばれる語彙解析機構を考案する。 これらの手法により,トランスフォーマーとボキャブラリの両方を含むモデルメモリ使用率21の圧縮比を実現し,実世界の4つのベンチマークでほぼ同じ性能を維持した。

Recent research has demonstrated the feasibility of training efficient intent detectors based on pre-trained language model~(PLM) with limited labeled data. However, deploying these detectors in resource-constrained environments such as mobile devices poses challenges due to their large sizes. In this work, we aim to address this issue by exploring techniques to minimize the size of PLM-based intent detectors trained with few-shot data. Specifically, we utilize large language models (LLMs) for data augmentation, employ a cutting-edge model compression method for knowledge distillation, and devise a vocabulary pruning mechanism called V-Prune. Through these approaches, we successfully achieve a compression ratio of 21 in model memory usage, including both Transformer and the vocabulary, while maintaining almost identical performance levels on four real-world benchmarks.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-15
# 診断の連鎖を利用した解釈可能な医療エージェントを目指すCoD

CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis ( http://arxiv.org/abs/2407.13301v2 )

ライセンス: Link先を確認
Junying Chen, Chi Gui, Anningzhe Gao, Ke Ji, Xidong Wang, Xiang Wan, Benyou Wang, (参考訳) 医学診断の分野は、大きな言語モデル(LLM)の出現とともに大きな変革を遂げてきたが、これらのモデルにおける解釈可能性の課題は、ほとんど未解決のままである。 本研究は, LLMに基づく診断の解釈可能性を高めるために, CoD (Chain-of-Diagnosis) を導入する。 CoDは診断プロセスを、医師の思考過程を反映した診断連鎖に変換し、透明な推論経路を提供する。 さらに、CoDは、意思決定における透明性を確保するために、病気の信頼性分布を出力する。 この解釈可能性により、モデル診断は制御可能となり、信頼性のエントロピーの低減を通じて、調査のための重要な症状を識別する助けとなる。 9604症例を診断できる診断用GPTを開発した。 実験の結果,診断GPTは診断ベンチマークにおいて他のLLMよりも優れていた。 さらに、診断GPTは、診断リガーの可制御性を確保しつつ、解釈可能性を提供する。

The field of medical diagnosis has undergone a significant transformation with the advent of large language models (LLMs), yet the challenges of interpretability within these models remain largely unaddressed. This study introduces Chain-of-Diagnosis (CoD) to enhance the interpretability of LLM-based medical diagnostics. CoD transforms the diagnostic process into a diagnostic chain that mirrors a physician's thought process, providing a transparent reasoning pathway. Additionally, CoD outputs the disease confidence distribution to ensure transparency in decision-making. This interpretability makes model diagnostics controllable and aids in identifying critical symptoms for inquiry through the entropy reduction of confidences. With CoD, we developed DiagnosisGPT, capable of diagnosing 9604 diseases. Experimental results demonstrate that DiagnosisGPT outperforms other LLMs on diagnostic benchmarks. Moreover, DiagnosisGPT provides interpretability while ensuring controllability in diagnostic rigor.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-15
# OpenSU3D: ファンデーションモデルを用いたオープンワールド3Dシーン理解

OpenSU3D: Open World 3D Scene Understanding using Foundation Models ( http://arxiv.org/abs/2407.14279v2 )

ライセンス: Link先を確認
Rafay Mohiuddin, Sai Manoj Prakhya, Fiona Collins, Ziyuan Liu, André Borrmann, (参考訳) 本稿では,3次元環境のオープンワールド理解を推し進めるオープンセット,インスタンスレベルの3次元シーン表現を構築するための,新しいスケーラブルなアプローチを提案する。 既存の手法では、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題があり、複雑なクエリでの有効性が制限される。 提案手法は,2次元基礎モデルを用いてインスタンスレベルのシーン表現を段階的に構築し,マスクや特徴ベクトル,名前,キャプションなどのインスタンスレベルの詳細を効率的に集約することで,これらの制限を克服する。 複雑なクエリ上でのコンテキスト知識と性能を高めるために,特徴ベクトルの融合スキームを導入する。 さらに,ロバストな自動アノテーションと空間推論タスクのための大規模言語モデルについても検討する。 我々は,ScanNetとReplicaの複数のシーンに対する提案手法を,オープンワールド3Dシーン理解における最先端の手法を超越して,ゼロショットの一般化能力を示すデータセットから評価した。

In this paper, we present a novel, scalable approach for constructing open set, instance-level 3D scene representations, advancing open world understanding of 3D environments. Existing methods require pre-constructed 3D scenes and face scalability issues due to per-point feature vector learning, limiting their efficacy with complex queries. Our method overcomes these limitations by incrementally building instance-level 3D scene representations using 2D foundation models, efficiently aggregating instance-level details such as masks, feature vectors, names, and captions. We introduce fusion schemes for feature vectors to enhance their contextual knowledge and performance on complex queries. Additionally, we explore large language models for robust automatic annotation and spatial reasoning tasks. We evaluate our proposed approach on multiple scenes from ScanNet and Replica datasets demonstrating zero-shot generalization capabilities, exceeding current state-of-the-art methods in open world 3D scene understanding.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-15
# SlowFast-LLaVA:ビデオ大言語モデルのための強力なトレーニングフリーベースライン

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models ( http://arxiv.org/abs/2407.15841v2 )

ライセンス: Link先を確認
Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan, (参考訳) SlowFast-LLaVA(略してSF-LLaVA)は、トレーニング不要なビデオ大言語モデル(LLM)であり、一般的に使用されるLCMのトークン予算を超えることなく、詳細な空間的意味論と長距離時間的文脈を共同でキャプチャすることができる。 これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。 具体的には、Slow経路は、できるだけ多くの空間的詳細を保ちながら、低フレームレートで特徴を抽出し(例えば、12x24トークン)、Fast経路は高いフレームレートで動作するが、より大きな空間的プーリングストライド(例えば、ダウンサンプリング6x)を使用してモーションキューにフォーカスする。 その結果,詳細な映像理解に有用な空間的特徴と時間的特徴の両方を適切に捉えることが可能となった。 実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。 いくつかのベンチマークでは、ビデオデータセットに微調整された最先端のVideo LLMと比較して、同等またはそれ以上のパフォーマンスを実現している。 コードはhttps://github.com/apple/ml-slowfast-llava.comで公開されている。

We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as much spatial detail as possible (e.g., with 12x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for detailed video understanding. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets. Code has been made available at: https://github.com/apple/ml-slowfast-llava.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-15
# シャープはアグリゲートエキスパートエラーに縛られる

Sharp bounds on aggregate expert error ( http://arxiv.org/abs/2407.16642v2 )

ライセンス: Link先を確認
Aryeh Kontorovich, (参考訳) 我々は、条件に依存しない専門家からのバイナリアドバイスを集約する古典的な問題を再考する。 我々の関心事は、最適決定規則の誤り確率である。 対称誤差(感度 = 特異性)の場合、最適誤差確率の厳密な境界が知られている。 一般の非対称の場合、この量に関する非自明な推定を意識していない。 我々の貢献は、一般の場合における最適誤差確率の鋭い上と下の境界から成り、対称特殊の場合において最もよく知られた結果を回復し、鋭くする。 これは2つの積分布間の総変動距離を推定するのと等価であることが判明したので、この重要かつ挑戦的な問題にも関係している。

We revisit the classic problem of aggregating binary advice from conditionally independent experts, also known as the Naive Bayes setting. Our quantity of interest is the error probability of the optimal decision rule. In the case of symmetric errors (sensitivity = specificity), reasonably tight bounds on the optimal error probability are known. In the general asymmetric case, we are not aware of any nontrivial estimates on this quantity. Our contribution consists of sharp upper and lower bounds on the optimal error probability in the general case, which recover and sharpen the best known results in the symmetric special case. Since this turns out to be equivalent to estimating the total variation distance between two product distributions, our results also have bearing on this important and challenging problem.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-15
# プライバシ保護階層型モデル分散推論

Privacy-Preserving Hierarchical Model-Distributed Inference ( http://arxiv.org/abs/2407.18353v2 )

ライセンス: Link先を確認
Fatemeh Jafarian Dehkordi, Yasaman Keshtkarjahromi, Hulya Seferoglu, (参考訳) 本稿では、クライアントがデータを所有/生成し、モデルオーナ(クラウドサーバ)が事前トレーニングされたMLモデルを持ち、エッジサーバがクラウドサーバのMLモデルを使用してクライアントのデータに対してML推論を行う階層的なセットアップのための、プライバシ保護機械学習(ML)推論プロトコルを設計することに焦点を当てる。 私たちの目標は、データとMLモデルの両方にプライバシを提供しながら、ML推論をスピードアップすることにあります。 私たちのアプローチ i)エッジサーバでモデル分散推論(モデル並列化)を使用し、 (ii)クラウドサーバへの通信量を削減する。 当社のプライバシ保存型階層型階層型モデル分散推論では,ML推論における線形計算に付加的な秘密共有と線形同型暗号を用いており,非線形関数の処理にはガーブラード回路と新規な3要素不規則転送を用いる。 privateMDIはオフラインとオンラインのフェーズで構成されている。 オンラインフェーズの通信オーバーヘッドを低減しつつ、オフラインフェーズでデータ交換の大部分が実行されるように、これらのフェーズを設計しました。 特に、オンラインフェーズでは、クラウドサーバへの通信は行わず、クライアントとエッジサーバ間の通信量が最小化される。 実験の結果,PrivateMDIはベースラインと比較してML推論時間を著しく短縮することがわかった。

This paper focuses on designing a privacy-preserving Machine Learning (ML) inference protocol for a hierarchical setup, where clients own/generate data, model owners (cloud servers) have a pre-trained ML model, and edge servers perform ML inference on clients' data using the cloud server's ML model. Our goal is to speed up ML inference while providing privacy to both data and the ML model. Our approach (i) uses model-distributed inference (model parallelization) at the edge servers and (ii) reduces the amount of communication to/from the cloud server. Our privacy-preserving hierarchical model-distributed inference, privateMDI design uses additive secret sharing and linearly homomorphic encryption to handle linear calculations in the ML inference, and garbled circuit and a novel three-party oblivious transfer are used to handle non-linear functions. privateMDI consists of offline and online phases. We designed these phases in a way that most of the data exchange is done in the offline phase while the communication overhead of the online phase is reduced. In particular, there is no communication to/from the cloud server in the online phase, and the amount of communication between the client and edge servers is minimized. The experimental results demonstrate that privateMDI significantly reduces the ML inference time as compared to the baselines.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-15
# 変わらぬ環境における黒白鳥の仮説

A Hypothesis on Black Swan in Unchanging Environments ( http://arxiv.org/abs/2407.18422v2 )

ライセンス: Link先を確認
Hyunin Lee, Chanwoo Park, David Abel, Ming Jin, (参考訳) 黒い白鳥の出来事は、非常に高いリスクをもたらす統計的に稀な出来事である。 黒い白鳥の出来事を定義する典型的な見解は、予測不可能な時間変化の環境に由来すると強く考えられているが、コミュニティは黒白鳥の出来事の包括的定義を欠いている。 そこで本論文では,高リスクで統計的に稀な事象が,その価値と可能性の人間の誤認による変化のない環境においても発生しうると主張する。 まず、黒白鳥事象を慎重に分類し、空間的な黒白鳥事象に着目し、黒白鳥事象の定義を数学的に定式化する。 これらの定義が、人間の知覚を合理的に補正することで、そのような事象を防ぐアルゴリズムの開発の道を開くことを願っている。

Black swan events are statistically rare occurrences that carry extremely high risks. A typical view of defining black swan events is heavily assumed to originate from an unpredictable time-varying environments; however, the community lacks a comprehensive definition of black swan events. To this end, this paper challenges that the standard view is incomplete and claims that high-risk, statistically rare events can also occur in unchanging environments due to human misperception of their value and likelihood, which we call as spatial black swan event. We first carefully categorize black swan events, focusing on spatial black swan events, and mathematically formalize the definition of black swan events. We hope these definitions can pave the way for the development of algorithms to prevent such events by rationally correcting human perception.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-15
# エンコーダに基づくNERと大規模言語モデルの比較分析によるロシア求職者のスキル抽出

Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies ( http://arxiv.org/abs/2407.19816v2 )

ライセンス: Link先を確認
Nikita Matkin, Aleksei Smirnov, Mikhail Usanin, Egor Ivanov, Kirill Sobyanin, Sofiia Paklina, Petr Parshakov, (参考訳) 労働市場は急速に変化しており、求職者への需要が増加し、求人数が急増している。 雇用主の要求や重要なスキルの欠如により、仕事の説明から本質的なスキルや能力の特定は困難である。 本研究では、エンコーダとLarge Language Models(LLM)を用いた従来の名前付きエンティティ認識(NER)手法を比較して、ロシアの職種からスキルを抽出することで、これらの課題に対処する。 トレーニングに4000の職種、テストに1,472のラベル付きデータセットを使用して、両方のアプローチのパフォーマンスを評価する。 その結果、従来のNERモデル、特にDeepPavlov RuBERT NERは、精度、精度、リコール、推測時間など、様々な指標でLLMを上回ります。 これらの結果から,従来のNERモデルは,スキル抽出,求職要件の明確化,求職者への求職者の求職能力と雇用者の期待の整合を支援するための,より効率的かつ効率的なソリューションを提供する可能性が示唆された。 この研究は、自然言語処理(NLP)の分野と労働市場、特に非英語の文脈におけるその応用に寄与する。

The labor market is undergoing rapid changes, with increasing demands on job seekers and a surge in job openings. Identifying essential skills and competencies from job descriptions is challenging due to varying employer requirements and the omission of key skills. This study addresses these challenges by comparing traditional Named Entity Recognition (NER) methods based on encoders with Large Language Models (LLMs) for extracting skills from Russian job vacancies. Using a labeled dataset of 4,000 job vacancies for training and 1,472 for testing, the performance of both approaches is evaluated. Results indicate that traditional NER models, especially DeepPavlov RuBERT NER tuned, outperform LLMs across various metrics including accuracy, precision, recall, and inference time. The findings suggest that traditional NER models provide more effective and efficient solutions for skill extraction, enhancing job requirement clarity and aiding job seekers in aligning their qualifications with employer expectations. This research contributes to the field of natural language processing (NLP) and its application in the labor market, particularly in non-English contexts.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-15
# 文脈関連質問生成のための大規模言語モデルの比較

Comparison of Large Language Models for Generating Contextually Relevant Questions ( http://arxiv.org/abs/2407.20578v2 )

ライセンス: Link先を確認
Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo, Atsushi Shimada, (参考訳) 本研究では,Large Language Models (LLMs) の教育環境における自動質問生成における有効性について検討した。 3つのLSMを比較し、微調整なしで大学のスライドテキストから質問を作成できる。 まず、Llama 2-Chat 13Bを用いて、スライドから回答フレーズを抽出し、3つのモデルが回答毎に質問を生成した。 学生の教育的応用に適合するかどうかを調査するため, 学生46名を対象に, 明瞭度, 妥当性, 難易度, スライド関係, 質問・回答アライメントの5つの指標について, 合計246問を調査した。 その結果, GPT-3.5 と Llama 2-Chat 13B は Flan T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。 GPT-3.5は特に、入力された回答にマッチする質問の調整に優れる。 この研究の貢献は、教育における自動質問生成のためのLLMの能力の分析である。

This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide text without fine-tuning. Questions were obtained in a two-step pipeline: first, answer phrases were extracted from slides using Llama 2-Chat 13B; then, the three models generated questions for each answer. To analyze whether the questions would be suitable in educational applications for students, a survey was conducted with 46 students who evaluated a total of 246 questions across five metrics: clarity, relevance, difficulty, slide relation, and question-answer alignment. Results indicate that GPT-3.5 and Llama 2-Chat 13B outperform Flan T5 XXL by a small margin, particularly in terms of clarity and question-answer alignment. GPT-3.5 especially excels at tailoring questions to match the input answers. The contribution of this research is the analysis of the capacity of LLMs for Automatic Question Generation in education.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-15
# 農業用物体検出のための空間変圧器ネットワークYOLOモデル

Spatial Transformer Network YOLO Model for Agricultural Object Detection ( http://arxiv.org/abs/2407.21652v2 )

ライセンス: Link先を確認
Yash Zambre, Ekdev Rajkitkul, Akshatha Mohan, Joshua Peeples, (参考訳) 対象検出は、関心のある対象を自律的に特定することによって、コンピュータビジョンの分野において重要な役割を果たす。 You Only Look Once (YOLO)モデルは効果的な単発検出器である。 しかし、YOLOは散らばった、あるいは部分的に隠されたシーンの課題に直面し、小さな、低コントラストのオブジェクトと戦うことができる。 本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。 提案するSTN-YOLOは,画像の重要な領域に着目し,検出前のモデルの空間的不変性を改善することにより,モデルの有効性を高めることを目的としている。 提案手法は,定性的かつ定量的に物体検出性能を向上する。 我々はSTNモジュール内の異なるローカライゼーションネットワークの影響と、異なる空間変換におけるモデルのロバスト性について検討する。 農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。 コードとデータセットは公開されています。

Object detection plays a crucial role in the field of computer vision by autonomously locating and identifying objects of interest. The You Only Look Once (YOLO) model is an effective single-shot detector. However, YOLO faces challenges in cluttered or partially occluded scenes and can struggle with small, low-contrast objects. We propose a new method that integrates spatial transformer networks (STNs) into YOLO to improve performance. The proposed STN-YOLO aims to enhance the model's effectiveness by focusing on important areas of the image and improving the spatial invariance of the model before the detection process. Our proposed method improved object detection performance both qualitatively and quantitatively. We explore the impact of different localization networks within the STN module as well as the robustness of the model across different spatial transformations. We apply the STN-YOLO on benchmark datasets for Agricultural object detection as well as a new dataset from a state-of-the-art plant phenotyping greenhouse facility. Our code and dataset are publicly available.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-15
# 大規模財産図におけるマイニングパスアソシエーションルール

Mining Path Association Rules in Large Property Graphs (with Appendix) ( http://arxiv.org/abs/2408.02029v2 )

ライセンス: Link先を確認
Yuya Sasaki, Panagiotis Karras, (参考訳) エッジラベルと頂点属性を持つグラフから、頻繁なパスの正規性をどうやってマイニングできるのか? ルールマイニングの課題は、アイテムセットやサブストラクチャにおける規則パターンの発見に成功している。 しかし、私たちの知る限りでは、この概念は大きなプロパティグラフのパスパターンにはまだ拡張されていない。 本稿では,パス・アソシエーション・ルール・マイニング(PARM)の問題を紹介する。 グラフ内の2つの頂点間の任意の \emph{reachability path} に適用すると、PARM は頂点属性とエッジラベルによって識別される経路パターンが互いに共起する規則的な方法を発見する。 我々は,探索空間を効果的に創り出すために,対単調性特性を利用した効率的でスケーラブルなアルゴリズムPIONEERを開発した。 さらに、近似手法を考案し、並列化を用いて、スケーラブルな経路関連ルールマイニングを実現する。 実世界のグラフデータを用いた実験により,経路関連ルールの重要性と解の効率性を検証した。

How can we mine frequent path regularities from a graph with edge labels and vertex attributes? The task of association rule mining successfully discovers regular patterns in item sets and substructures. Still, to our best knowledge, this concept has not yet been extended to path patterns in large property graphs. In this paper, we introduce the problem of path association rule mining (PARM). Applied to any \emph{reachability path} between two vertices within a large graph, PARM discovers regular ways in which path patterns, identified by vertex attributes and edge labels, co-occur with each other. We develop an efficient and scalable algorithm PIONEER that exploits an anti-monotonicity property to effectively prune the search space. Further, we devise approximation techniques and employ parallelization to achieve scalable path association rule mining. Our experimental study using real-world graph data verifies the significance of path association rules and the efficiency of our solutions.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-15
# 1ショットは連続赤外小ターゲットセグメンテーションに十分である

One Shot is Enough for Sequential Infrared Small Target Segmentation ( http://arxiv.org/abs/2408.04823v2 )

ライセンス: Link先を確認
Bingbing Dan, Meihui Li, Tao Tang, Jing Zhang, (参考訳) Infrared small target sequences exhibit strong similarity between frames and containing rich contextual information, which ismotive to achieve sequence infrared small target segmentation (IRSTS) with minimal data。 そこで我々は,SAMのゼロショット一般化能力を逐次IRSTSに完全に適応させるワンショット・トレーニングフリーな手法を提案する。 具体的には、まずまず、局所特徴マッチング(LFM)を通して信頼度マップを得る。 信頼マップの最高点は、手動のプロンプトを置き換えるプロンプトとして使用される。 そして,ドメインギャップに起因する過分割問題に対処するため,PPCFモジュールを設計する。 その後,ミスや誤検出を防止するため,最終マスクを生成するために三段アンサンブル(TLE)モジュールを導入する。 実験により,本手法は最先端のIRSTS法に匹敵する性能を達成するために1ショットしか必要とせず,他の1ショットセグメンテーション法よりも大幅に優れていることが示された。 さらに,アノテーションの種類や参照画像の選択における本手法の堅牢性について検討した。

Infrared small target sequences exhibit strong similarities between frames and contain rich contextual information, which motivates us to achieve sequential infrared small target segmentation (IRSTS) with minimal data. Inspired by the success of Segment Anything Model (SAM) across various downstream tasks, we propose a one-shot and training-free method that perfectly adapts SAM's zero-shot generalization capability to sequential IRSTS. Specifically, we first obtain a confidence map through local feature matching (LFM). The highest point in the confidence map is used as the prompt to replace the manual prompt. Then, to address the over-segmentation issue caused by the domain gap, we design the point prompt-centric focusing (PPCF) module. Subsequently, to prevent miss and false detections, we introduce the triple-level ensemble (TLE) module to produce the final mask. Experiments demonstrate that our method requires only one shot to achieve comparable performance to state-of-the-art IRSTS methods and significantly outperforms other one-shot segmentation methods. Moreover, ablation studies confirm the robustness of our method in the type of annotations and the selection of reference images.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-15
# EEPPR:3次元相関を用いた周期現象速度のイベントベース推定

EEPPR: Event-based Estimation of Periodic Phenomena Rate using Correlation in 3D ( http://arxiv.org/abs/2408.06899v3 )

ライセンス: Link先を確認
Jakub Kolář, Radim Špetlík, Jiří Matas, (参考訳) イベントカメラによる周期現象(例えば、回転、フリッカ、振動)の速度を、時間分解能の高い独立動作画素での輝度変化を非同期に報告する装置により測定する方法を提案する。 このアプローチは、周期現象に対して、その周期に対応する時間差で、時空間の空間内で非常に類似した事象が生成されると仮定する。 同様の事象の集合は、時空間の時空間の相関によって検出される。 提案手法であるEEPPRは,3.2Hzから2kHz(約192~120000RPM)の範囲で,光と振動の点滅,周期運動などの12種類の周期現象のデータセットを用いて評価した。 EEPPRは、このデータセットで公表されたメソッドを著しく上回り、平均相対誤差が0.1%に達し、新しい最先端設定を実現している。 データセットとコードはGitHubで公開されている。

We present a novel method for measuring the rate of periodic phenomena (e.g., rotation, flicker, and vibration), by an event camera, a device asynchronously reporting brightness changes at independently operating pixels with high temporal resolution. The approach assumes that for a periodic phenomenon, a highly similar set of events is generated within a spatio-temporal window at a time difference corresponding to its period. The sets of similar events are detected by a correlation in the spatio-temporal event stream space. The proposed method, EEPPR, is evaluated on a dataset of 12 sequences of periodic phenomena, i.e. flashing light and vibration, and periodic motion, e.g., rotation, ranging from 3.2 Hz to 2 kHz (equivalent to 192 - 120 000 RPM). EEPPR significantly outperforms published methods on this dataset, achieving a mean relative error of 0.1%, setting new state-of-the-art. The dataset and codes are publicly available on GitHub.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-15
# POD-TANNによる地力学における材料・マクロ要素のマルチスケールモデリング

A POD-TANN approach for the multiscale modeling of materials and macroelement derivation in geomechanics ( http://arxiv.org/abs/2408.07165v2 )

ライセンス: Link先を確認
Giovanni Piunno, Ioannis Stefanou, Cristina Jommi, (参考訳) 本稿では,多角形分解(POD)と熱力学に基づくニューラルネットワーク(TANN)を組み合わせることで,複雑な非弾性系のマクロ的挙動を捉える手法を提案する。 この手法はPODを利用して、微視的状態情報からマクロな内部状態変数(ISV)を抽出し、TANNフレームワーク内のエネルギーポテンシャルネットワークをトレーニングするために使用されるマクロな状態記述を強化する。 TANNによって提供される熱力学的一貫性は、PODの階層的な性質と相まって、複雑で非線形な物質挙動と信頼できるマクロ力学系の応答の正確なモデリングを可能にする。 このアプローチの有効性は、複雑化の応用を通じて検証され、様々な物質的挙動やミクロ構造的トポロジーを扱う能力を示す。 これらの応用には、連続非弾性代表単位細胞(RUC)の均質化や、水平荷重を受ける粘土層にモノパイルを含む地球工学系のマクロ要素の導出が含まれる。 提案手法は, 応力-ひずみ応答の再現において高い精度を達成するだけでなく, 計算コストを大幅に削減し, 複素非弾性系のマルチスケールモデリング, 複雑な地盤力学問題に対するマクロ要素の効率的な導出を行うための実用的なツールであることを示す。

This paper introduces a novel approach that combines Proper Orthogonal Decomposition (POD) with Thermodynamics-based Artificial Neural Networks (TANN) to capture the macroscopic behavior of complex inelastic systems and derive macroelements in geomechanics. The methodology leverages POD to extract macroscopic Internal State Variables (ISVs) from microscopic state information, thereby enriching the macroscopic state description used to train an energy potential network within the TANN framework. The thermodynamic consistency provided by TANN, combined with the hierarchical nature of POD, allows for accurate modeling of complex, non-linear material behavior and reliable macroscopic geomechanical systems responses. The effectiveness of this approach is validated through applications of increasing complexity, demonstrating its capability to handle various material behaviors and microstructural topologies. These applications include the homogenization of continuous inelastic representative unit cells (RUCs) and the derivation of a macroelement for a geotechnical system involving a monopile in a clay layer subjected to horizontal loading. The results indicate that the proposed POD-TANN methodology not only achieves high accuracy in reproducing stress-strain responses, but also significantly reduces computational costs, making it a practical tool for the multiscale modeling of heterogeneous inelastic systems, and the efficient derivation of macroelements for complex geomechanical problems.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-15
# バランス法:LLM設計レスバンドリワードの優先順位付け戦略

Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards ( http://arxiv.org/abs/2408.12112v2 )

ライセンス: Link先を確認
Shresth Verma, Niclas Boehmer, Lingkai Kong, Milind Tambe, (参考訳) LLMは、強化学習(Reinforcement Learning, RL)において、人間の好みに基づいた報酬関数の設計にますます利用されている。 エージェント間で限られたリソースを割り当てるフレームワークであるRestless Multi-Armed BanditsのLLM設計の報酬に焦点をあてる。 公衆衛生などの応用において、このアプローチは、草の根労働者に対して、コミュニティのニーズに対する自動割り当て決定を調整する権限を与える。 複数のエージェントが存在する場合、人間の嗜好に基づく報酬関数の変更はサブポピュレーションに大きく影響し、複雑なトレードオフと多目的資源割り当て問題を引き起こす。 LLMが設計したマルチエージェントプランナーに対する報酬と、特にレスレスバンディットのトレードオフを扱うための、社会選択言語モデル(Social Choice Language Model)と呼ばれる原則を最初に提示する。 我々のモデルでは, ユーザ選択型社会福祉機能を通じて複雑なトレードオフを制御する, LLM の外部にある, 適応子と呼ばれる透明で構成可能な選択成分が新たに導入されている。 本実験は,LLMに基づく手法と比較して,モデルがより効果的で整合性があり,バランスの取れた報酬関数を確実に選択することを示した。

LLMs are increasingly used to design reward functions based on human preferences in Reinforcement Learning (RL). We focus on LLM-designed rewards for Restless Multi-Armed Bandits, a framework for allocating limited resources among agents. In applications such as public health, this approach empowers grassroots health workers to tailor automated allocation decisions to community needs. In the presence of multiple agents, altering the reward function based on human preferences can impact subpopulations very differently, leading to complex tradeoffs and a multi-objective resource allocation problem. We are the first to present a principled method termed Social Choice Language Model for dealing with these tradeoffs for LLM-designed rewards for multiagent planners in general and restless bandits in particular. The novel part of our model is a transparent and configurable selection component, called an adjudicator, external to the LLM that controls complex tradeoffs via a user-selected social welfare function. Our experiments demonstrate that our model reliably selects more effective, aligned, and balanced reward functions compared to purely LLM-based approaches.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# YOLO-Stutter:エンド・ツー・エンド領域-ワイズ音声障害検出

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection ( http://arxiv.org/abs/2408.15297v3 )

ライセンス: Link先を確認
Xuanru Zhou, Anshul Kashyap, Steve Li, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Maria Luisa Gorno Tempini, Jiachen Lian, Gopala Krishna Anumanchipalli, (参考訳) 難解な音声検出は、混乱した音声分析と音声言語学習のボトルネックとなる。 現在の最先端モデルは、効率性と堅牢性に欠け、テンプレート設計に敏感なルールベースのシステムによって管理されている。 本稿では,時間的精度で不規則を検出する最初のエンドツーエンド手法であるYOLO-Stutterを提案する。 YOLO-Stutterは、不完全な音声テキストアライメントを入力とし、次いで空間的特徴集約器と時間的依存抽出器を用いて、領域境界とクラス予測を行う。 また, VCTK-Stutter と VCTK-TTS という2つのディフルエンシコーパスを導入し, 繰り返し, ブロック, 欠落, 置換, 延長などの自然な音声のディフルエンシをシミュレートした。 我々のエンドツーエンドの手法は、シミュレーションデータと実際の失語症音声の両方において、最小限のトレーニング可能なパラメータで最先端の性能を達成する。 コードとデータセットはhttps://github.com/rorizzz/YOLO-Stutterでオープンソース化される

Dysfluent speech detection is the bottleneck for disordered speech analysis and spoken language learning. Current state-of-the-art models are governed by rule-based systems which lack efficiency and robustness, and are sensitive to template design. In this paper, we propose YOLO-Stutter: a first end-to-end method that detects dysfluencies in a time-accurate manner. YOLO-Stutter takes imperfect speech-text alignment as input, followed by a spatial feature aggregator, and a temporal dependency extractor to perform region-wise boundary and class predictions. We also introduce two dysfluency corpus, VCTK-Stutter and VCTK-TTS, that simulate natural spoken dysfluencies including repetition, block, missing, replacement, and prolongation. Our end-to-end method achieves state-of-the-art performance with a minimum number of trainable parameters for on both simulated data and real aphasia speech. Code and datasets are open-sourced at https://github.com/rorizzz/YOLO-Stutter
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# 正確な基底状態を持つ相互作用ボソンのモデル:統一的アプローチ

Models of interacting bosons with exact ground states: a unified approach ( http://arxiv.org/abs/2408.15319v2 )

ライセンス: Link先を確認
Zhaoyu Han, Steven A. Kivelson, (参考訳) 数保存ボソンに対して '`frustration-free'' 相互作用する格子量子ハミルトニアンの無限クラスを定義し、それらの正確な基底状態が対応する古典的格子気体問題のボルツマン重みによって指定された密度分布を持つように構成する。 古典的重みを適切に選択することにより、量子二量体や頂点モデル、トーリックコード、レヴィン=ウェン文字列ネットモデルなど、既知の様々な可解モデルのボソン表現が得られる。 また,「量子スピン液体」,「ボース・アインシュタイン絶縁体」,「ボース・アインシュタイン絶縁体」,「ボース・アインシュタイン凝縮体」など他の興味深い基底状態を持つ可解モデルも体系的に構築する。

We define an infinite class of ``frustration-free'' interacting lattice quantum Hamiltonians for number-conserving bosons, constructed such that their exact ground states have a density distribution specified by the Boltzmann weight of a corresponding classical lattice gas problem. By appropriately choosing the classical weights, we obtain boson representations of various known solvable models, including quantum dimer and vertex models, toric code, and certain Levin-Wen string-net models. We also systematically construct solvable models with other interesting ground states, including ``quantum spin liquids,'' supersolids, ``Bose-Einstein insulators,'' Bose liquids with ``Bose surfaces'', and Bose-Einstein condensates that permit adiabatic evolution from a non-interacting limit to a Gutzwiller-projected limit.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# RoboSense:マルチセンサ低速自動運転のための大規模データセットとベンチマーク

RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving ( http://arxiv.org/abs/2408.15503v2 )

ライセンス: Link先を確認
Haisheng Su, Feixiang Song, Cong Ma, Wei Wu, Junchi Yan, (参考訳) 任意の視界下でのロバスト物体の検出と追跡は、自律走行車技術の発展に不可欠である。 無人機能車両の需要が高まる中、低速自動運転の分野では、近接場理解が重要な研究課題となっている。 運転条件の複雑さやブラインドスポットやハイオクルージョンなどの近接障害物の多様性のため、近接場環境の知覚能力は、その遠方に比べて依然として劣っている。 本稿では,無人車両の知的能力を高めるために,フレキシブルなセンサ構成をサポートする3種類のセンサ(Camera, LiDAR, Fisheye)をベースとしたマルチモーダルデータ収集プラットフォームを構築した。 一方、近場のシーン理解を容易にするために、RoboSenseという大規模なマルチセンサーデータセットが構築されている。 RoboSenseは、1.4Mの3Dバウンディングボックスを持つ133K以上の同期データと、完全な360^{\circ}$ビューに注釈付きIDを含み、7.6Kの時間シーケンスに216Kの軌道を形成する。 KITTIやnuScenesのような以前の単一車種データセットと同様に、5$m$以内のニアフィールド障害のアノテーションが270\times$と18\times$を持っている。 さらに,近距離場における3次元知覚と予測指標のマッチング基準を新たに定義する。 また,RoboSenseをベースとして,関連する研究の今後の発展を促進するために6つの一般的なタスクを定式化し,詳細なデータ分析やベンチマークも提供する。

Robust object detection and tracking under arbitrary sight of view is challenging yet essential for the development of Autonomous Vehicle technology. With the growing demand of unmanned function vehicles, near-field scene understanding becomes an important research topic in the areas of low-speed autonomous driving. Due to the complexity of driving conditions and diversity of near obstacles such as blind spots and high occlusion, the perception capability of near-field environment is still inferior than its farther counterpart. To further enhance the intelligent ability of unmanned vehicles, in this paper, we construct a multimodal data collection platform based on 3 main types of sensors (Camera, LiDAR and Fisheye), which supports flexible sensor configurations to enable dynamic sight of view for ego vehicle, either global view or local view. Meanwhile, a large-scale multi-sensor dataset is built, named RoboSense, to facilitate near-field scene understanding. RoboSense contains more than 133K synchronized data with 1.4M 3D bounding box and IDs annotated in the full $360^{\circ}$ view, forming 216K trajectories across 7.6K temporal sequences. It has $270\times$ and $18\times$ as many annotations of near-field obstacles within 5$m$ as the previous single-vehicle datasets such as KITTI and nuScenes. Moreover, we define a novel matching criterion for near-field 3D perception and prediction metrics. Based on RoboSense, we formulate 6 popular tasks to facilitate the future development of related research, where the detailed data analysis as well as benchmarks are also provided accordingly.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# Mismatched: 画像マッチングアプローチとベンチマークの限界を評価する

Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks ( http://arxiv.org/abs/2408.16445v2 )

ライセンス: Link先を確認
Sierra Bonilla, Chiara Di Vece, Rema Daher, Xinwei Ju, Danail Stoyanov, Francisco Vasconcelos, Sophia Bano, (参考訳) 2次元画像からの3次元再構成は、ナビゲーションや物体追跡からセグメンテーション、三次元モデリングまで、コンピュータビジョンにおける活発な研究分野である。 伝統的にこの作業にはパラメトリック技術が用いられてきた。 しかし、近年の進歩は学習ベースの方法にシフトしている。 研究の迅速化と新しい画像マッチング手法の頻繁な導入を考えると,これらを評価することが不可欠である。 本稿では,移動パイプライン構造を用いた様々な画像マッチング手法の総合評価を行う。 ドメイン内およびドメイン外両方のデータセットにおいて、これらのメソッドの性能を評価し、メソッドとベンチマークの両方において重要な制限を識別する。 また,前処理ステップとしてのエッジ検出の影響についても検討した。 分析の結果,3次元再構成のための画像マッチングは依然としてオープンな課題であり,特定のシナリオに対するモデルの選択とチューニングを慎重に行うとともに,メトリクスがメソッドのパフォーマンスをどのように表現しているかのミスマッチも強調する。

Three-dimensional (3D) reconstruction from two-dimensional images is an active research field in computer vision, with applications ranging from navigation and object tracking to segmentation and three-dimensional modeling. Traditionally, parametric techniques have been employed for this task. However, recent advancements have seen a shift towards learning-based methods. Given the rapid pace of research and the frequent introduction of new image matching methods, it is essential to evaluate them. In this paper, we present a comprehensive evaluation of various image matching methods using a structure-from-motion pipeline. We assess the performance of these methods on both in-domain and out-of-domain datasets, identifying key limitations in both the methods and benchmarks. We also investigate the impact of edge detection as a pre-processing step. Our analysis reveals that image matching for 3D reconstruction remains an open challenge, necessitating careful selection and tuning of models for specific scenarios, while also highlighting mismatches in how metrics currently represent method performance.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# Space3D-Bench: Space 3D Question Answeringベンチマーク

Space3D-Bench: Spatial 3D Question Answering Benchmark ( http://arxiv.org/abs/2408.16662v3 )

ライセンス: Link先を確認
Emilia Szymanska, Mihai Dusmanu, Jan-Willem Buurlage, Mahdi Rad, Marc Pollefeys, (参考訳) 環境の空間的特性に関する疑問への答えは、オブジェクト間の関係の点において、特に3D世界の理解が欠如していることから、既存の言語と視覚基盤モデルに課題をもたらす。 フィールドを前進させるために、複数の3D Q&Aデータセットが提案され、全体として様々な質問を提供するが、彼らは個別に3D推論の特定の側面に焦点を当てるか、データモダリティの点で制限される。 これに対処するため、Space3D-Bench - Replicaデータセットのシーンに関する1000の一般的な空間的質問と回答のコレクションを提示し、ポイントクラウド、ポーズされたRGB-Dイメージ、ナビゲーションメッシュ、および3Dオブジェクト検出など、さまざまなデータモダリティを提供する。 そこで本研究では,地理情報システムにインスパイアされた屋内空間質問分類法を提案し,それを用いてデータセットのバランスをとる。 さらに,テキストと画像の両方を視覚言語モデルで理解し,その応答を地文情報や関連視覚データと比較することにより,事前定義された地文回答に基づいて自然言語応答を評価できるシステムを提案する。 最後に,RAG3D-Chatと呼ばれるベースラインを導入し,基礎モデルの世界的理解をリッチな文脈検索と統合し,提案したデータセットの精度を67%向上させる。

Answering questions about the spatial properties of the environment poses challenges for existing language and vision foundation models due to a lack of understanding of the 3D world notably in terms of relationships between objects. To push the field forward, multiple 3D Q&A datasets were proposed which, overall, provide a variety of questions, but they individually focus on particular aspects of 3D reasoning or are limited in terms of data modalities. To address this, we present Space3D-Bench - a collection of 1000 general spatial questions and answers related to scenes of the Replica dataset which offers a variety of data modalities: point clouds, posed RGB-D images, navigation meshes and 3D object detections. To ensure that the questions cover a wide range of 3D objectives, we propose an indoor spatial questions taxonomy inspired by geographic information systems and use it to balance the dataset accordingly. Moreover, we provide an assessment system that grades natural language responses based on predefined ground-truth answers by leveraging a Vision Language Model's comprehension of both text and images to compare the responses with ground-truth textual information or relevant visual data. Finally, we introduce a baseline called RAG3D-Chat integrating the world understanding of foundation models with rich context retrieval, achieving an accuracy of 67% on the proposed dataset.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-15
# サイバー物理システムに対するサイバーリスクアセスメント : 評価の有効性向上のための方法論と勧告のレビュー

Cyber Risk Assessment for Cyber-Physical Systems: A Review of Methodologies and Recommendations for Improved Assessment Effectiveness ( http://arxiv.org/abs/2408.16841v2 )

ライセンス: Link先を確認
Asila AlHarmali, Saqib Ali, Waqas Aman, Omar Hussain, (参考訳) CPS(Cyber-Physical Systems)は、物理的および組み込みシステムと情報通信技術システムを統合し、人間の介入を最小限に抑えて物理的プロセスを監視し制御する。 情報通信技術への接続は、CPSをサイバーリスクに晒す。 これらのリスクを効果的に管理するためには、これらのリスクを評価することが重要です。 本稿では,CPSのサイバーリスクアセスメントに対する学術的貢献をレビューし,評価アプローチがどのように評価されたかを分析し,有効なリスクアセスメントの要件を満たす程度について検討する。 評価の有効性を制限するギャップを特定し、サイバーセキュリティインシデントからのリアルタイム学習を推奨する。 本稿は、2014年から2023年にかけて発行された28件の論文を3段階の検索に基づいて取り上げる。 以上の結果から,サイバーリスク評価手法の見直しにより,複数の要因による効果の限界が判明した。 これらの発見は、CPSにおけるサイバーリスク評価の品質に影響を与える他の要因を探求し、対処するための、さらなる研究の基盤となる。

Cyber-Physical Systems (CPS) integrate physical and embedded systems with information and communication technology systems, monitoring and controlling physical processes with minimal human intervention. The connection to information and communication technology exposes CPS to cyber risks. It is crucial to assess these risks to manage them effectively. This paper reviews scholarly contributions to cyber risk assessment for CPS, analyzing how the assessment approaches were evaluated and investigating to what extent they meet the requirements of effective risk assessment. We identify gaps limiting the effectiveness of the assessment and recommend real-time learning from cybersecurity incidents. Our review covers twenty-eight papers published between 2014 and 2023, selected based on a three-step search. Our findings show that the reviewed cyber risk assessment methodologies revealed limited effectiveness due to multiple factors. These findings provide a foundation for further research to explore and address other factors impacting the quality of cyber risk assessment in CPS.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-15
# スタイル移行: スティッチからニューラルネットワークへ

Style Transfer: From Stitching to Neural Networks ( http://arxiv.org/abs/2409.00606v2 )

ライセンス: Link先を確認
Xinhe Xu, Zhuoer Wang, Yihan Zhang, Yizhou Liu, Zhaoyue Wang, Zhihao Xu, Muhan Zhao, Huaiying Luo, (参考訳) 本稿では,既存の画像から小さなパッチを縫い合わせることによって新たなイメージを合成する従来の手法と,前景オブジェクトを分離し,背景のみにスタイル転送を適用するセグメンテーションネットワークを用いた最新の機械学習アプローチとを比較した。 従来の手法は芸術的抽象化の創出に長けているが、シームレスさに苦しむことができる一方、機械学習手法は背景を改良しながら前景要素の整合性を保ち、美的品質と計算効率を向上させる。 本研究は,前景要素の詳細な保存が不可欠である実世界の応用において,機械学習に基づく手法がより適していることを示す。

This article compares two style transfer methods in image processing: the traditional method, which synthesizes new images by stitching together small patches from existing images, and a modern machine learning-based approach that uses a segmentation network to isolate foreground objects and apply style transfer solely to the background. The traditional method excels in creating artistic abstractions but can struggle with seamlessness, whereas the machine learning method preserves the integrity of foreground elements while enhancing the background, offering improved aesthetic quality and computational efficiency. Our study indicates that machine learning-based methods are more suited for real-world applications where detail preservation in foreground elements is essential.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-15
# 夢は必要なものすべて

Dreaming is All You Need ( http://arxiv.org/abs/2409.01633v3 )

ライセンス: Link先を確認
Mingze Ni, Wei Liu, (参考訳) 分類タスクでは、探索と精度の調和が最重要となる。 そこで本研究では,このバランスを打つための2つの新しいディープラーニングモデルであるSleepNetとDreamNetを紹介した。 SleepNetは、教師なしの「スリープ」段階と教師なしの「スリープ」段階をシームレスに統合する。SleepNet内の専用ニューロンは、これらの教師なし機能に埋め込まれ、探索学習を容易にする断続的な「スリープ」ブロックを形成する。 SleepNetの基盤として、DreamNetは隠れた状態を再構築するために完全なエンコーダ・デコーダフレームワークを使用している。 この再構築プロセスは、学習した表現のさらなる探索と洗練を可能にする。 さらに、私たちのSleepNetとDreamNetの原則は汎用的で、コンピュータビジョンと自然言語処理の両方の下流タスクに適用できます。 多様な画像およびテキストデータセットに対する広範な実証評価を通じて、SleepNetとDreeanNetは最先端のモデルよりも優れた性能を示し、非教師なし探索の強みと、我々の革新的なアプローチによって得られた教師付き精度を示している。

In classification tasks, achieving a harmonious balance between exploration and precision is of paramount importance. To this end, this research introduces two novel deep learning models, SleepNet and DreamNet, to strike this balance. SleepNet seamlessly integrates supervised learning with unsupervised ``sleep" stages using pre-trained encoder models. Dedicated neurons within SleepNet are embedded in these unsupervised features, forming intermittent ``sleep" blocks that facilitate exploratory learning. Building upon the foundation of SleepNet, DreamNet employs full encoder-decoder frameworks to reconstruct the hidden states, mimicking the human "dreaming" process. This reconstruction process enables further exploration and refinement of the learned representations. Moreover, the principle ideas of our SleepNet and DreamNet are generic and can be applied to both computer vision and natural language processing downstream tasks. Through extensive empirical evaluations on diverse image and text datasets, SleepNet and DreanNet have demonstrated superior performance compared to state-of-the-art models, showcasing the strengths of unsupervised exploration and supervised precision afforded by our innovative approaches.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-15
# LongGenBench:Long Context LLMにおけるロングフォーム生成のベンチマーク

LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs ( http://arxiv.org/abs/2409.02076v4 )

ライセンス: Link先を確認
Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, (参考訳) 大規模言語モデル(LLM)の長期コンテキスト能力を評価する際には、"Needle-in-a-Haystack" (NIAH)、Reducer、Needlebenchなどのベンチマークが一般的に使用される。 これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。 このギャップに対処するため、私たちはLongGenBenchという新しい長文評価ベンチマークを導入しました。 本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。 我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。 これらのモデルはNIAHベンチマークでよく機能するが、LongGenBenchで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。 さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。

In evaluating the long-context capabilities of large language models (LLMs), benchmarks such as "Needle-in-a-Haystack" (NIAH), Ruler, and Needlebench are commonly used. While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, LongGenBench, which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the LongGenBench, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-15
# 非エルミート二層グラフェンの例外トポロジー

Exceptional topology in Non-Hermitian Twisted Bilayer Graphene ( http://arxiv.org/abs/2409.03145v2 )

ライセンス: Link先を確認
Yingyi Huang, (参考訳) ツイストされた二層グラフェンは、マジックアングルで特別な電子特性を持ち、マジックアングルで孤立した平らなバンドを持つ。 しかし、ねじれた二層グラフェンの非エルミート現象は未解明のままである。 本研究では, 他の層に対してグラフェンがねじれた非エルミチアンTBGについて, ゲインとロスを伴って検討した。 ビストリッツァー・マクドナルドモデルの非エルミート的一般化を用いて、非ハーミティティーの存在下で変形したモワール・ブリルアンゾーンのわずかK_M$(K'_M$)角のディラック・コーンが見つかる。 これはゲイン・アンド・ロスを持つ単層グラフェンとは違い、ブリルアンゾーンのK$とK'$の角に例外的な点の環が現れる。 より興味深いことに、モワール・ブリルアンゾーンのトポロジカル電荷は、ニールセン・ニノ宮の定理に制約された2次元システムにはない例外環の膨張と融合の間に保存され、これらの発見は現実的なコールド原子やメタマテリアルシステムで実証され、ツストロン系における非エルミタン現象のさらなる研究が促進される。

Twisted bilayer graphene has extraordinary electronic properties at the magic angle along with an isolated flat band at magic angle. However, the non-Hermitian phenomena in twisted bilayer graphene remain unexplored. In this work, we study a non-Hermitian TBG formed by one-layer graphene twisted relative to another layer with gain and loss. Using a non-Hermitian generalization of Bistritzer-MacDonald model, we find Dirac cones centered at only $K_M$ ($K'_M$) corner of the moir\'e Brillouin zone at $K'$ ($K$) valley deformed in the presence of non-Hermiticity. This is different from single layer graphene with gain and loss, where rings of exceptional points appear in both $K$ and $K'$ corners of the Brillouin zone.The coincident of exceptional rings at $\Gamma_M$ point characterizes an ``exceptional magic angle", at which the system hosts flat bands with zero energy and finite lifetime. More interestingly, we find that the topological charge in the moir\'e Brillouin zone is conserved during the expansion and fusion of the exceptional ring, which is absent in two-dimensional systems constraining by Nielsen-Ninomiya theorem.These findings can be demonstrated in realistic cold atom and metamaterial systems and will stimulate further study on non-Hermitian phenomena in twistronic.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-15
# MpoxMamba:Mpox検出のためのグループ型Mambaベースの軽量ハイブリッドネットワーク

MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection ( http://arxiv.org/abs/2409.04218v2 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Haihuang Liang, Zhenzhang Li, Yufeng Wang, (参考訳) 効果的なmpox検出ツールが欠如しているため、mpoxウイルスは世界中で普及し続けており、世界保健機関(WHO)によって国際的に懸念されている公衆衛生上の緊急事態であると宣言されている。 軽量なディープラーニングモデルに基づく検出システムは、特にリソース限定のシナリオにおいて、広く展開するのに適しているため、mpoxの発生を緩和するために不可欠である。 しかし、その成功の鍵は、モデルが軽量を維持しながら、mpox病変の局所的特徴と長距離依存性を効果的にモデル化できることにある。 長距離依存のモデリングにおけるMambaの成功とその線形複雑性に触発されて,効率の良いmpox検出のためのMpoxMambaと呼ばれる軽量ハイブリッドアーキテクチャを提案した。 MpoxMambaは、深度的に分離可能な畳み込みを利用して、ハンポックス皮膚病変の局所的な特徴表現を抽出し、グループ化されたMambaモジュールによってグローバルな文脈情報をモデル化する能力を大幅に強化する。 特に、MpoxMambaのパラメータサイズとFLOPはそれぞれ0.77Mと0.53Gである。 MpoxMambaは、最先端の軽量モデルと既存のmpox検出方法より優れていることを示す。 重要なことに、我々は無料のmpox検出を提供するWebベースのオンラインアプリケーションを開発した(http://5227i971s5.goho.co:30290)。 MpoxMambaのソースコードはhttps://github.com/YubiaoYue/MpoxMambaで入手できる。

Due to the lack of effective mpox detection tools, the mpox virus continues to spread worldwide and has once again been declared a public health emergency of international concern by the World Health Organization. Lightweight deep learning model-based detection systems are crucial to alleviate mpox outbreaks since they are suitable for widespread deployment, especially in resource-limited scenarios. However, the key to its successful application depends on ensuring that the model can effectively model local features and long-range dependencies in mpox lesions while maintaining lightweight. Inspired by the success of Mamba in modeling long-range dependencies and its linear complexity, we proposed a lightweight hybrid architecture called MpoxMamba for efficient mpox detection. MpoxMamba utilizes depth-wise separable convolutions to extract local feature representations in mpox skin lesions and greatly enhances the model's ability to model the global contextual information by grouped Mamba modules. Notably, MpoxMamba's parameter size and FLOPs are 0.77M and 0.53G, respectively. Experimental results on two widely recognized benchmark datasets demonstrate that MpoxMamba outperforms state-of-the-art lightweight models and existing mpox detection methods. Importantly, we developed a web-based online application to provide free mpox detection (http://5227i971s5.goho.co:30290). The source codes of MpoxMamba are available at https://github.com/YubiaoYue/MpoxMamba.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-15
# 汎用マルコフゲームにおける分散学習

Decentralized Learning in General-sum Markov Games ( http://arxiv.org/abs/2409.04613v2 )

ライセンス: Link先を確認
Chinmay Maheshwari, Manxi Wu, Shankar Sastry, (参考訳) マルコフゲームフレームワークは、動的で不確実で社会的スケールのシステムにおいて、不均一なユーティリティを持つエージェント間の相互作用をモデル化するために広く使用されている。 これらの設定では、エージェントは通常、プライバシとスケーラビリティの懸念のために分散的に動作し、多くの場合、他人の戦略を知らないままである。 合理的な結果に確実に収束する分散学習アルゴリズムを設計することは、特にマルコフゼロサムやポテンシャルゲーム以外には難しい。 本稿では,一般的なマルコフゲームのための分散学習アルゴリズムの設計に焦点をあて,近似的なナッシュ平衡の収束を保証することを目的とする。 我々はMarkov Near-Potential Function (MNPF)を導入し、MNPFがNash平衡に近似したアクター批判に基づく分散学習ダイナミクスの収束解析において中心的な役割を果たすことを示す。 我々の分析では,Q関数更新がポリシー更新よりも高速に行われるアクター批判アルゴリズムの2時間的特性を活用している。 この結果は、ある正則性条件およびナッシュ平衡の集合が有限であるときにさらに強化される。 本研究は,マルチエージェントシステムにおける分散学習の分析に新たな視点を与え,実世界の相互作用の複雑さに対処する。

The Markov game framework is widely used to model interactions among agents with heterogeneous utilities in dynamic, uncertain, societal-scale systems. In these settings, agents typically operate in a decentralized manner due to privacy and scalability concerns, often without knowledge of others' strategies. Designing decentralized learning algorithms that provably converge to rational outcomes remains challenging, especially beyond Markov zero-sum and potential games, which do not fully capture the mixed cooperative-competitive nature of real-world interactions. Our paper focuses on designing decentralized learning algorithms for general-sum Markov games, aiming to provide guarantees of convergence to approximate Nash equilibria. We introduce a Markov Near-Potential Function (MNPF), and show that MNPF plays a central role in the analysis of convergence of an actor-critic-based decentralized learning dynamics to approximate Nash equilibria. Our analysis leverages the two-timescale nature of actor-critic algorithms, where Q-function updates occur faster than policy updates. This result is further strengthened under certain regularity conditions and when the set of Nash equilibria is finite. Our findings provide a new perspective on the analysis of decentralized learning in multi-agent systems, addressing the complexities of real-world interactions.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-15
# ログベース異常検出モデルの拡張のためのイベントの削減に関する実証的研究

Reducing Events to Augment Log-based Anomaly Detection Models: An Empirical Study ( http://arxiv.org/abs/2409.04834v2 )

ライセンス: Link先を確認
Lingzhe Zhang, Tong Jia, Kangjin Wang, Mengxi Jia, Yang Yong, Ying Li, (参考訳) ソフトウェアシステムが複雑化するにつれて、異常の正確な検出は必須かつ困難なものになっている。 現在のログに基づく異常検出法は、ノイズログによる非効率な推論と潜在的な誤報につながる大量のログデータに大きく依存している。 しかし、異常検出の有効性に対するログリダクションの定量的効果は未解明のままである。 そこで、まず3つのデータセットにまたがる6つの異なるモデルについて包括的な研究を行う。 この研究を通じて、ログ量の影響と異常表現の有効性が定式化され、モデルの性能に異なる3つの特徴的なログイベントタイプが明らかになった。 これらの知見から,異常検出の文脈におけるログイベントの自動削減のための効率的な手法であるLogCleanerを提案する。 ソフトウェアシステムとモデルの間のミドルウェアとして機能するLogCleanerは、生ログのアンチイベントと重複イベントを継続的に更新し、フィルタする。 実験結果は、異常検出におけるログイベントの70%以上を削減し、モデルの推論速度を約300%加速し、異常検出のためのモデルの性能を普遍的に改善するLogCleanerの能力を強調している。

As software systems grow increasingly intricate, the precise detection of anomalies have become both essential and challenging. Current log-based anomaly detection methods depend heavily on vast amounts of log data leading to inefficient inference and potential misguidance by noise logs. However, the quantitative effects of log reduction on the effectiveness of anomaly detection remain unexplored. Therefore, we first conduct a comprehensive study on six distinct models spanning three datasets. Through the study, the impact of log quantity and their effectiveness in representing anomalies is qualifies, uncovering three distinctive log event types that differently influence model performance. Drawing from these insights, we propose LogCleaner: an efficient methodology for the automatic reduction of log events in the context of anomaly detection. Serving as middleware between software systems and models, LogCleaner continuously updates and filters anti-events and duplicative-events in the raw generated logs. Experimental outcomes highlight LogCleaner's capability to reduce over 70% of log events in anomaly detection, accelerating the model's inference speed by approximately 300%, and universally improving the performance of models for anomaly detection.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-15
# リコメンダシステムの拡散モデルに関する調査研究

A Survey on Diffusion Models for Recommender Systems ( http://arxiv.org/abs/2409.05033v2 )

ライセンス: Link先を確認
Jianghao Lin, Jiaqi Liu, Jiachen Zhu, Yunjia Xi, Chengkai Liu, Yangtian Zhang, Yong Yu, Weinan Zhang, (参考訳) 従来のレコメンデーション技術はここ数十年で大きな進歩を遂げてきたが、いまだに、不十分な協調信号、弱い潜在表現、ノイズの多いデータなどの要因によって引き起こされる、限定的な一般化性能に悩まされている。 これに対し拡散モデル (DM) は, 強靭な生成能力, 固形理論的基礎, 訓練安定性の向上などにより, 推薦システムに対する有望な解決策として現れてきた。 そこで本論文では,提案する拡散モデルに関する総合的な調査を行い,実世界のレコメンデータシステムにおけるパイプライン全体の観点から鳥の目視図を作成する。 既存の研究成果を,(1)データエンジニアリングとエンコーディングのための拡散,(2)データ拡張と表現強調に焦点を当てた拡散,(2)レコメンダモデルとしての拡散,(2)ユーザの嗜好やランク項目を直接推定するための拡散モデルを用いた拡散,(3)コンテンツ提示のための拡散,(3)ファッションや広告の創造といったパーソナライズされたコンテンツを生成するための拡散モデル,の3つの主要な領域に分類する。 我々の分類学は、複雑なデータ分布を捕捉し、ユーザの好みと密接に一致した高品質で多様なサンプルを生成する上で、拡散モデルのユニークな長所を強調している。 また, 適応拡散モデルの中核的な特徴を要約し, さらに今後の探究の要点を明らかにし, 拡散モデルの革新的応用を通じて, 推奨システムを推し進めようとする研究者や実践者にとってのロードマップの確立に寄与する。 拡散モデルに基づくレコメンデータシステムのリサーチコミュニティをさらに促進するために、この上昇する方向 https://github.com/CHIANGEL/Awesome-Diffusion-for-RecSys で、論文やその他の関連リソースのためのGitHubリポジトリを積極的に維持しています。

While traditional recommendation techniques have made significant strides in the past decades, they still suffer from limited generalization performance caused by factors like inadequate collaborative signals, weak latent representations, and noisy data. In response, diffusion models (DMs) have emerged as promising solutions for recommender systems due to their robust generative capabilities, solid theoretical foundations, and improved training stability. To this end, in this paper, we present the first comprehensive survey on diffusion models for recommendation, and draw a bird's-eye view from the perspective of the whole pipeline in real-world recommender systems. We systematically categorize existing research works into three primary domains: (1) diffusion for data engineering & encoding, focusing on data augmentation and representation enhancement; (2) diffusion as recommender models, employing diffusion models to directly estimate user preferences and rank items; and (3) diffusion for content presentation, utilizing diffusion models to generate personalized content such as fashion and advertisement creatives. Our taxonomy highlights the unique strengths of diffusion models in capturing complex data distributions and generating high-quality, diverse samples that closely align with user preferences. We also summarize the core characteristics of the adapting diffusion models for recommendation, and further identify key areas for future exploration, which helps establish a roadmap for researchers and practitioners seeking to advance recommender systems through the innovative application of diffusion models. To further facilitate the research community of recommender systems based on diffusion models, we actively maintain a GitHub repository for papers and other related resources in this rising direction https://github.com/CHIANGEL/Awesome-Diffusion-for-RecSys.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-15
# PMT:半監督医用画像セグメンテーションのための時間整合性を探るプログレッシブ平均教師

PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2409.05122v2 )

ライセンス: Link先を確認
Ning Gao, Sanping Zhou, Le Wang, Nanning Zheng, (参考訳) 半教師付き学習は、医用画像セグメンテーションの分野で広く採用されている技術である。 既存の研究は、一貫性の制約の構築や、高品質な監視信号を提供するための擬似ラベルの生成に重点を置いている。 本稿では,医用画像のセグメンテーションのために,PMT(Progressive Mean Teachers)と呼ばれるシンプルな半教師付き学習フレームワークを提案する。 具体的には,PMTは標準的な平均教師を用いて現状の整合性を解析し,協調学習に2組のMTアーキテクチャを用いる。 MTアーキテクチャの2つのセットは、イテレーションの違いによって生成されたパフォーマンスギャップによって確立された安定したモデルの多様性を維持するために、長期にわたって個別に更新される。 さらに、差分駆動アライメント正規化器を用いて、遅延モデルのアライメントと先行モデルの表現能力を高速化する。 さらに、モデルの性能評価や、モデルが協調訓練のために高性能に動作しているときに出力される高忠実度擬似ラベルの選択に、単純で効果的な擬似ラベルフィルタリングアルゴリズムを用いる。 CTとMRIの2つの異なるモードのデータセットに対する実験結果から,本手法は様々な次元にわたる最先端の医用画像セグメンテーション手法よりも優れていることが示された。 コードはhttps://github.com/Axi404/PMT.comで入手できる。

Semi-supervised learning has emerged as a widely adopted technique in the field of medical image segmentation. The existing works either focuses on the construction of consistency constraints or the generation of pseudo labels to provide high-quality supervisory signals, whose main challenge mainly comes from how to keep the continuous improvement of model capabilities. In this paper, we propose a simple yet effective semi-supervised learning framework, termed Progressive Mean Teachers (PMT), for medical image segmentation, whose goal is to generate high-fidelity pseudo labels by learning robust and diverse features in the training process. Specifically, our PMT employs a standard mean teacher to penalize the consistency of the current state and utilizes two sets of MT architectures for co-training. The two sets of MT architectures are individually updated for prolonged periods to maintain stable model diversity established through performance gaps generated by iteration differences. Additionally, a difference-driven alignment regularizer is employed to expedite the alignment of lagging models with the representation capabilities of leading models. Furthermore, a simple yet effective pseudo-label filtering algorithm is employed for facile evaluation of models and selection of high-fidelity pseudo-labels outputted when models are operating at high performance for co-training purposes. Experimental results on two datasets with different modalities, i.e., CT and MRI, demonstrate that our method outperforms the state-of-the-art medical image segmentation approaches across various dimensions. The code is available at https://github.com/Axi404/PMT.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-15
# HMAFlow:階層運動場アライメントによるより正確な光学流れの学習

HMAFlow: Learning More Accurate Optical Flow via Hierarchical Motion Field Alignment ( http://arxiv.org/abs/2409.05531v2 )

ライセンス: Link先を確認
Dianbo Ma, Kousuke Imamura, Ziyan Gao, Xiangjie Wang, Satoshi Yamane, (参考訳) 光フロー推定は、基本的で長期にわたる視覚的タスクである。 本研究では,難易度の高いシーン,特に小物体を含むシーンにおいて,光学的フロー推定を改善するため,HMAFlowと呼ばれる新しい手法を提案する。 提案モデルは主に,階層型運動場アライメント(HMA)モジュールと相関自己認識(CSA)モジュールの2つのコアコンポーネントから構成される。 さらに,Multi-Scale correlation Search (MCS) レイヤを用いて4次元コストボリュームを再構築し,共通コストボリュームにおける平均プールを複数の検索範囲を利用した検索戦略に置き換える。 実験により,本モデルが他の最先端手法と比較して最高の一般化性能を達成できることが実証された。 具体的には、RAFTと比較して、Sintelオンラインベンチマークのクリーンパスとファイナルパスにおいて、相対誤差の14.2%と3.4%の削減を実現している。 KITTIテストベンチマークでは、HMAFlowがRAFTとGMAをそれぞれ6.8%と7.7%で上回っている。 将来の調査を容易にするため、私たちのコードはhttps://github.com/BooTurbo/HMAFlow.comで公開されます。

Optical flow estimation is a fundamental and long-standing visual task. In this work, we present a novel method, dubbed HMAFlow, to improve optical flow estimation in challenging scenes, particularly those involving small objects. The proposed model mainly consists of two core components: a Hierarchical Motion Field Alignment (HMA) module and a Correlation Self-Attention (CSA) module. In addition, we rebuild 4D cost volumes by employing a Multi-Scale Correlation Search (MCS) layer and replacing average pooling in common cost volumes with a search strategy utilizing multiple search ranges. Experimental results demonstrate that our model achieves the best generalization performance compared to other state-of-the-art methods. Specifically, compared with RAFT, our method achieves relative error reductions of 14.2% and 3.4% on the clean pass and final pass of the Sintel online benchmark, respectively. On the KITTI test benchmark, HMAFlow surpasses RAFT and GMA in the Fl-all metric by relative margins of 6.8% and 7.7%, respectively. To facilitate future research, our code will be made available at https://github.com/BooTurbo/HMAFlow.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-15
# MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct ( http://arxiv.org/abs/2409.05840v2 )

ライセンス: Link先を確認
Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li, (参考訳) MLLM(Multimodal Large Language Models)の開発は、様々な分野(例えば、マルチモーダルエージェント、インボディードインテリジェンス)の需要の増加とともに、大きな進歩を遂げている。 モデル駆動アプローチは多様なアーキテクチャを通じてMLLMの能力を向上しようとするが、その利益はますます限界に達している。 逆に、画像テキストの命令データをスケールアップするデータ駆動手法は、より効果的であるが、データ多様性と複雑さの制限に直面している。 高品質なデータがないことは、MLLMにとって重要な開発障壁となっている。 データ品質のボトルネックに対処するため,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 このフレームワークは、微粒な知覚、認知的推論、相互作用の進化を巧みに組み合わせることで、データ品質を反復的に改善し、より複雑で多様な画像テキスト命令データセットを生成し、機能強化によるMLLMの強化を可能にします。 初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、認知的推論能力を向上させるために視覚的推論手順を拡張し、画像内のきめ細かい情報を徹底的に探索し、視覚的理解と堅牢性を高める。 提案手法の有効性を総合的に評価するため,13の視覚言語タスクに対して,広範囲な質的分析と定量的実験を行った。 初期シードデータを用いたベースラインモデルと比較して,本手法は平均精度を3.1ポイント向上することを示した。 さらに,本手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, the gains have become increasingly marginal. Conversely, data-driven methods, which scale up image-text instruction data, are more effective but face limited data diversity and complexity challenges. The absence of high-quality data constitutes a significant development barrier for MLLMs. To address the data quality bottleneck, we propose MMEvol, a novel multimodal instruction data evolution framework. This framework iteratively improve data quality through a refined combination of fine-grained perception, cognitive reasoning, and interaction evolution, generating a more complex and diverse image-text instruction dataset that empowers MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broaden the diversity of instruction types, extend visual reasoning steps to improve cognitive reasoning abilities, and thoroughly explore fine-grained information within images to enhance visual understanding and robustness. To comprehensively evaluate the effectiveness of our approach, we conduct extensive qualitative analysis and quantitative experiments across 13 vision-language tasks. Compared to baseline models trained with the initial seed data, the results demonstrate that our method achieves an average accuracy improvement of 3.1 percentage points. Furthermore, our approach reaches state-of-the-art (SOTA) performance in nine tasks using significantly less data compared to state-of-the-art models.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-15
# Astrometric Binary Classification Via Artificial Neural Networks (特集:人工知能)

Astrometric Binary Classification Via Artificial Neural Networks ( http://arxiv.org/abs/2409.09563v1 )

ライセンス: Link先を確認
Joe Smith, (参考訳) 約20億個の恒星が観測され、その対応する天文学的パラメータが最近のガイアのミッションで評価され、天文学的二乗候補の数は大幅に増加した。 アストロメトリデータの余剰のため、これらのアトロメトリ二乗候補を検査する現在の計算手法はどちらも計算コストが高く、合理的な時間枠では実行できない。 これを踏まえて、ANN(Artificial Neural Network)を介して、星の集合が天文的二元対に属するかどうかを自動的に分類する機械学習(ML)技術が提案されている。 Gaia DR3のデータを用いて、ANNは150万個の高い確率の真と視覚のバイナリをトレーニング、テストし、適切な動き、視差、角と物理的分離を特徴として考慮した。 ANNは、99.3%の精度、0.988の精度、0.991のリコール率、0.999のAUCを高い分類スコアで達成し、この利用したML技術は、天文学的なバイナリを分類するための非常に効果的な方法であることを示す。 したがって、ANNは、既存の天文学的バイナリの分類法に代わる有望な代替手段である。

With nearly two billion stars observed and their corresponding astrometric parameters evaluated in the recent Gaia mission, the number of astrometric binary candidates have risen significantly. Due to the surplus of astrometric data, the current computational methods employed to inspect these astrometric binary candidates are both computationally expensive and cannot be executed in a reasonable time frame. In light of this, a machine learning (ML) technique to automatically classify whether a set of stars belong to an astrometric binary pair via an artificial neural network (ANN) is proposed. Using data from Gaia DR3, the ANN was trained and tested on 1.5 million highly probable true and visual binaries, considering the proper motions, parallaxes, and angular and physical separations as features. The ANN achieves high classification scores, with an accuracy of 99.3%, a precision rate of 0.988, a recall rate of 0.991, and an AUC of 0.999, indicating that the utilized ML technique is a highly effective method for classifying astrometric binaries. Thus, the proposed ANN is a promising alternative to the existing methods for the classification of astrometric binaries.
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# TG-LLaVA:学習可能な潜伏埋め込みによるテキストガイドLLaVA

TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings ( http://arxiv.org/abs/2409.09564v1 )

ライセンス: Link先を確認
Dawei Yan, Pengcheng Li, Yang Li, Hao Chen, Qingguo Chen, Weihua Luo, Wei Dong, Qingsen Yan, Haokui Zhang, Chunhua Shen, (参考訳) 現在、視覚言語モデル(VLM)の成功に触発されて、多くの研究者がVLMの改善に注力し、有望な成果を上げている。 しかし、既存のほとんどのメソッドはコネクタの最適化と言語モデルコンポーネントの強化に集中しており、ビジョンエンコーダ自体の改善は無視している。 対照的に、本論文では、視覚エンコーダをテキストで導くことでVLMを最適化し、新しい直交最適化方向を提供するテキストガイド付きLLaVA(TG-LLaVA)を提案する。 具体的には、人間の行動に固有の目的駆動論理にインスパイアされ、学習可能な潜伏埋め込みをブリッジとして使用し、テキストの指示を分析し、分析結果を視覚エンコーダにガイダンスとして付加し、それを精製する。 その後、別の潜伏埋め込みセットは、高解像度ローカルパッチから追加の詳細なテキスト誘導情報を補助情報として抽出する。 最後に、テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。 その結果、より良い回答が得られます。 提案手法の有効性を検証した各種データセットの実験を行った。 注目すべきは、追加のトレーニングデータを必要とせずに、提案手法は、他の並行メソッドと比較して、ベースライン(LLaVA-1.5)により多くの利益をもたらすことができることだ。 さらに,提案手法は異なる設定で常に改善をもたらす。

Currently, inspired by the success of vision-language models (VLMs), an increasing number of researchers are focusing on improving VLMs and have achieved promising results. However, most existing methods concentrate on optimizing the connector and enhancing the language model component, while neglecting improvements to the vision encoder itself. In contrast, we propose Text Guided LLaVA (TG-LLaVA) in this paper, which optimizes VLMs by guiding the vision encoder with text, offering a new and orthogonal optimization direction. Specifically, inspired by the purpose-driven logic inherent in human behavior, we use learnable latent embeddings as a bridge to analyze textual instruction and add the analysis results to the vision encoder as guidance, refining it. Subsequently, another set of latent embeddings extracts additional detailed text-guided information from high-resolution local patches as auxiliary information. Finally, with the guidance of text, the vision encoder can extract text-related features, similar to how humans focus on the most relevant parts of an image when considering a question. This results in generating better answers. Experiments on various datasets validate the effectiveness of the proposed method. Remarkably, without the need for additional training data, our propsoed method can bring more benefits to the baseline (LLaVA-1.5) compared with other concurrent methods. Furthermore, the proposed method consistently brings improvement in different settings.
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# 暗黙的ニューラル表現のための伝達可能な特徴の学習

Learning Transferable Features for Implicit Neural Representations ( http://arxiv.org/abs/2409.09566v1 )

ライセンス: Link先を確認
Kushal Vyas, Ahmed Imtiaz Humayun, Aniket Dashpute, Richard G. Baraniuk, Ashok Veeraraghavan, Guha Balakrishnan, (参考訳) Inlicit Neural representations (INR) は、逆問題やニューラルレンダリングなど、様々な応用で成功している。 通常、INRは1つのシグナルを捕捉するように訓練され、その結果、その信号に高度に調整された学習された神経特徴をもたらす。 より一般化しにくいと仮定して、同様の信号に適合するために、これらの学習されたニューラル特徴の伝達可能性の側面について検討する。 InRトレーニングフレームワークであるSTRAINERを導入し、INRを所定の分布から新しい信号に適合させるためのトランスファー可能な特徴を学習し、より高速で、再現性も向上する。 INRにおけるシーケンシャル層ワイドアフィン演算により、複数のINRにまたがる初期エンコーダ層を独立デコーダ層と共有することで、転送可能な表現を学習することを提案する。 テスト時に、学習したエンコーダ表現は、非ランダムに初期化されたINRの初期化として転送される。 STRAINERは、同じ領域から画像を取り付けるために非常に強力な初期化を行い、トレーニングされていないINR自体と比較して、信号品質が早期に$\approx +10dB$上昇することを可能にする。 STRAINERはまた、INRでデータ駆動の事前をエンコードする簡単な方法を提供する。 我々は,複数の領域内および領域外信号適合タスクと逆問題に対するSTRAINERの評価を行い,STRAINERの特徴の伝達可能性に関する詳細な解析と考察を行った。 私たちのデモはhttps://colab.research.google.com/drive/1fBZAwqE8C_lrRPAe-hQZJTWrMJuAKtG2? usp=共有。

Implicit neural representations (INRs) have demonstrated success in a variety of applications, including inverse problems and neural rendering. An INR is typically trained to capture one signal of interest, resulting in learned neural features that are highly attuned to that signal. Assumed to be less generalizable, we explore the aspect of transferability of such learned neural features for fitting similar signals. We introduce a new INR training framework, STRAINER that learns transferrable features for fitting INRs to new signals from a given distribution, faster and with better reconstruction quality. Owing to the sequential layer-wise affine operations in an INR, we propose to learn transferable representations by sharing initial encoder layers across multiple INRs with independent decoder layers. At test time, the learned encoder representations are transferred as initialization for an otherwise randomly initialized INR. We find STRAINER to yield extremely powerful initialization for fitting images from the same domain and allow for $\approx +10dB$ gain in signal quality early on compared to an untrained INR itself. STRAINER also provides a simple way to encode data-driven priors in INRs. We evaluate STRAINER on multiple in-domain and out-of-domain signal fitting tasks and inverse problems and further provide detailed analysis and discussion on the transferability of STRAINER's features. Our demo can be accessed at https://colab.research.google.com/drive/1fBZAwqE8C_lrRPAe-hQZJTWrMJuAKtG2?usp=sharing .
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# 論文提案:テキストの多様性を自然言語処理に失うか?

Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing? ( http://arxiv.org/abs/2409.09568v1 )

ライセンス: Link先を確認
Josef Jon, (参考訳) この論文は、現在広く使われている自然言語処理アルゴリズムは、それらが処理し、生成するテキストの性質に関する様々な制限があると主張している。 これらのツールが急速に普及していく中で、これらの制限が何であるか、そしてそのようなツールを私たちの日常生活に深く組み込むことがどのような意味を持つのかを問う必要がある。 テストベッドとして、ニューラルネットワーク翻訳(NMT)のタスクを選択しました。 それにもかかわらず、我々は現在のLarge Language Models (LLMs)にも適用可能な、一般的な洞察と成果を目指しています。 NMTで使用されるアルゴリズムは、ほとんどの入力に対して有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。 この仮説を探索するために、複数の尺度(文、談話、言語)で、単語レベルの仮定の均一性やリズム性など、その統計的性質に基づいて、テキストの多様性を定量化する一連の尺度を定義した。 そこで我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調査するために,一連の実験を行い,人間の翻訳者と比較して,これらのシステムによって生成された言語の豊かさを減少させる可能性がある。 学習目的と復号アルゴリズムに根ざしたこれらの制限の潜在的な原因を探索する。 我々の最終的な目標は、出力の統計特性の分布に一様性を持たず、翻訳タスクの本質的なあいまいさを考慮して、翻訳のグローバルな計画を改善する手段を開発することである。

This thesis argues that the currently widely used Natural Language Processing algorithms possibly have various limitations related to the properties of the texts they handle and produce. With the wide adoption of these tools in rapid progress, we must ask what these limitations are and what are the possible implications of integrating such tools even more deeply into our daily lives. As a testbed, we have chosen the task of Neural Machine Translation (NMT). Nevertheless, we aim for general insights and outcomes, applicable even to current Large Language Models (LLMs). We ask whether the algorithms used in NMT have inherent inductive biases that are beneficial for most types of inputs but might harm the processing of untypical texts. To explore this hypothesis, we define a set of measures to quantify text diversity based on its statistical properties, like uniformity or rhythmicity of word-level surprisal, on multiple scales (sentence, discourse, language). We then conduct a series of experiments to investigate whether NMT systems struggle with maintaining the diversity of such texts, potentially reducing the richness of the language generated by these systems, compared to human translators. We search for potential causes of these limitations rooted in training objectives and decoding algorithms. Our ultimate goal is to develop alternatives that do not enforce uniformity in the distribution of statistical properties in the output and that allow for better global planning of the translation, taking into account the intrinsic ambiguity of the translation task.
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# Bias Begets Bias: バイアス注入が拡散モデルに及ぼす影響

Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models ( http://arxiv.org/abs/2409.09569v1 )

ライセンス: Link先を確認
Sahil Kuchlous, Marvin Li, Jeffrey G. Wang, (参考訳) テキスト・ツー・イメージ(TTI)システムの普及に伴い、これらのモデルの社会的偏見はより精査されている。 ここでは、拡散モデルに対するそのようなバイアスの源である埋め込み空間について体系的な研究を行う。 まず,従来の分類器に基づくフェアネス定義は生成モデルに存在しない真のラベルを必要とするため,モデルの内部表現に基づく統計的グループフェアネス基準を提案する。 これらの定義を用いて、入力プロンプトに対する非バイアステキスト埋め込み空間が表現的バランスの取れた拡散モデルに必要な条件であること、つまり、生成された画像の分布が保護属性に関する多様性要件を満たすことを理論的かつ実証的に証明する。 次に、拡散モデルの評価に一般的に用いられるプロセスである、生成画像とプロンプトのアライメント評価におけるバイアス埋め込みの影響について検討する。 CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルのアライメントスコアが低くなり、不公平な振る舞いを報いる。 最後に,アライメント評価におけるバイアスを研究可能な理論的枠組みを開発し,バイアス軽減手法を提案する。 埋め込み空間の観点を具体的に適応させることにより,拡散モデルの開発と評価のための新しい公正条件を確立する。

With the growing adoption of Text-to-Image (TTI) systems, the social biases of these models have come under increased scrutiny. Herein we conduct a systematic investigation of one such source of bias for diffusion models: embedding spaces. First, because traditional classifier-based fairness definitions require true labels not present in generative modeling, we propose statistical group fairness criteria based on a model's internal representation of the world. Using these definitions, we demonstrate theoretically and empirically that an unbiased text embedding space for input prompts is a necessary condition for representationally balanced diffusion models, meaning the distribution of generated images satisfy diversity requirements with respect to protected attributes. Next, we investigate the impact of biased embeddings on evaluating the alignment between generated images and prompts, a process which is commonly used to assess diffusion models. We find that biased multimodal embeddings like CLIP can result in lower alignment scores for representationally balanced TTI models, thus rewarding unfair behavior. Finally, we develop a theoretical framework through which biases in alignment evaluation can be studied and propose bias mitigation methods. By specifically adapting the perspective of embedding spaces, we establish new fairness conditions for diffusion model development and evaluation.
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# MindScape Study:パーソナライズされたAI駆動ジャーナリング体験のためのLCMと行動センシングの統合

MindScape Study: Integrating LLM and Behavioral Sensing for Personalized AI-Driven Journaling Experiences ( http://arxiv.org/abs/2409.09570v1 )

ライセンス: Link先を確認
Subigya Nepal, Arvind Pillai, William Campbell, Talie Massachi, Michael V. Heinz, Ashmita Kunwar, Eunsol Soul Choi, Orson Xu, Joanna Kuc, Jeremy Huckins, Jason Holden, Sarah M. Preum, Colin Depp, Nicholas Jacobson, Mary Czerwinski, Eric Granholm, Andrew T. Campbell, (参考訳) 大学生のメンタルヘルスに対する懸念は、自己認識と全体的幸福を促進する効果的な介入の必要性を浮き彫りにしている。 MindScapeは、会話のエンゲージメント、睡眠、位置といった受動的に収集された行動パターンをLarge Language Models (LLM)と統合することで、AIによるジャーナリングに新たなアプローチを開拓した。 この統合は、高度にパーソナライズされたコンテキスト対応のジャーナリングエクスペリエンスを生成し、行動知性をAIに組み込むことによって、自己認識と幸福を高める。 20名の大学生を対象に8週間の探索的研究を行い、マインドスケープアプリの有効性を実証し、負の感情(7%)、負の感情(11%)、孤独(6%)、不安と抑うつを減らし、週毎のPHQ-4スコア(-0.25係数)を減少させ、マインドフルネス(7%)、自己反射(6%)を改善させた。 この研究は、AIジャーナリングの利点を強調しており、参加者は特にMindScapeアプリが提供する、カスタマイズされたプロンプトと洞察を理解している。 私たちの分析には、AI駆動型コンテキストとジェネリックプロンプトに対する反応の比較、参加者からのフィードバックの洞察、コンテキストAIジャーナリングを活用して大学のキャンパスでの幸福感を改善するための提案された戦略も含まれている。 文脈AIジャーナリングがメンタルヘルスをサポートする可能性を示すことによって、文脈AIジャーナリングがメンタルヘルスと幸福に与える影響についてさらなる調査を行う基盤を提供する。

Mental health concerns are prevalent among college students, highlighting the need for effective interventions that promote self-awareness and holistic well-being. MindScape pioneers a novel approach to AI-powered journaling by integrating passively collected behavioral patterns such as conversational engagement, sleep, and location with Large Language Models (LLMs). This integration creates a highly personalized and context-aware journaling experience, enhancing self-awareness and well-being by embedding behavioral intelligence into AI. We present an 8-week exploratory study with 20 college students, demonstrating the MindScape app's efficacy in enhancing positive affect (7%), reducing negative affect (11%), loneliness (6%), and anxiety and depression, with a significant week-over-week decrease in PHQ-4 scores (-0.25 coefficient), alongside improvements in mindfulness (7%) and self-reflection (6%). The study highlights the advantages of contextual AI journaling, with participants particularly appreciating the tailored prompts and insights provided by the MindScape app. Our analysis also includes a comparison of responses to AI-driven contextual versus generic prompts, participant feedback insights, and proposed strategies for leveraging contextual AI journaling to improve well-being on college campuses. By showcasing the potential of contextual AI journaling to support mental health, we provide a foundation for further investigation into the effects of contextual AI journaling on mental health and well-being.
翻訳日:2024-09-17 20:17:37 公開日:2024-09-15
# NEVLP:高能率ビジョンランゲージ事前学習のためのノイズロバストフレームワーク

NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training ( http://arxiv.org/abs/2409.09582v1 )

ライセンス: Link先を確認
Yiyi Tao, Zhuoyue Wang, Hang Zhang, Lun Wang, (参考訳) 様々な視覚言語タスクにおけるビジョン言語モデル(VLM)の成功は、大規模なWebcrawledデータセットによる事前トレーニングに大きく依存している。 しかし、Webデータのノイズと不完全な性質は、データセットのスケールをパフォーマンスに欠かせないものにし、エンドツーエンドのトレーニングはますます禁じられている。 本稿では,より少ない事前学習データを必要とする視覚言語事前学習のためのノイズロバストフレームワークであるNEVLPを提案する。 具体的には、凍結画像エンコーダと大きな言語モデルとのモダリティギャップをトランスフォーマーで埋め、ノイズ適応学習と概念強化学習という2つの革新的な学習戦略を導入し、ノイズの影響を軽減する。 雑音適応学習では、変換器の記憶効果に基づいて各画像テキスト対の雑音確率を推定し、条件交叉アライメントに対する画像テキストのコントラスト学習に雑音適応正規化を用いる。 概念強化学習では、画像テキストマッチングや画像接地テキスト生成のための既存のオブジェクトに関する事前情報を提供するために、視覚的概念(画像内のオブジェクト)を取り入れ、不完全なテキストを豊かにすることにより、テキストの非補完を緩和する。 本フレームワークは,画像テキスト検索,画像キャプション,視覚的質問応答など,多種多様な視覚言語タスクにおいて,ノイズの多いWebデータを効果的に活用し,事前学習の少ない最先端のパフォーマンスを実現する。

The success of Vision Language Models (VLMs) on various vision-language tasks heavily relies on pre-training with large scale web-crawled datasets. However, the noisy and incomplete nature of web data makes dataset scale crucial for performance, rendering end-to-end training increasingly prohibitive. In this paper, we propose NEVLP, a noise-robust framework for efficient vision-language pre-training that requires less pre-training data. Specifically, we bridge the modality gap between a frozen image encoder and a large language model with a transformer and introduce two innovative learning strategies: noise-adaptive learning and concept-enhanced learning to mitigate the impact of noise. In noise-adaptive learning, we estimate the noise probability of each image-text pair based on the transformer's memorization effect and employ noise-adaptive regularization on image-text contrastive learning to condition cross-modal alignment. In concept-enhanced learning, we enrich incomplete text by incorporating visual concepts (objects in the image) to provide prior information about existing objects for image-text matching and image-grounded text generation, thereby mitigating text incompletion. Our framework effectively utilizes noisy web data and achieves state-of-the-art performance with less pre-training data across a wide range of vision-language tasks, including image-text retrieval, image captioning, and visual question answering.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# 陽極材料用金属二元合金の機械学習によるスクリーニング

Machine learning assisted screening of metal binary alloys for anode materials ( http://arxiv.org/abs/2409.09583v1 )

ライセンス: Link先を確認
Xingyue Shi, Linming Zhou, Yuhui Huang, Yongjun Wu, Zijian Hong, (参考訳) 動的で急速に進行するバッテリフィールドでは, 合金陽極材料は電気化学的特性が優れており, 焦点となる。 従来のスクリーニング手法は非効率で時間を要する。 本研究は,これらの素材の発見と最適化を迅速化するための機械学習支援戦略を提案する。 我々はMPとAFLOWデータベースから膨大なデータセットをコンパイルし、何万もの合金組成と特性を包含した。 CGCNNを用いて, 合金陽極の電位および比容量を精度良く予測し, 実験データと比較した。 このアプローチによりLi, Na, K, Zn, Mg, Ca, Al系を含む各種電池システムに適した120個の低電位および高比容量合金陽極が同定された。 本手法は, 電池陽極材料のスクリーニングを効率化するだけでなく, 電池材料研究の進展とエネルギー貯蔵技術の革新も促進する。

In the dynamic and rapidly advancing battery field, alloy anode materials are a focal point due to their superior electrochemical performance. Traditional screening methods are inefficient and time-consuming. Our research introduces a machine learning-assisted strategy to expedite the discovery and optimization of these materials. We compiled a vast dataset from the MP and AFLOW databases, encompassing tens of thousands of alloy compositions and properties. Utilizing a CGCNN, we accurately predicted the potential and specific capacity of alloy anodes, validated against experimental data. This approach identified approximately 120 low potential and high specific capacity alloy anodes suitable for various battery systems including Li, Na, K, Zn, Mg, Ca, and Al-based. Our method not only streamlines the screening of battery anode materials but also propels the advancement of battery material research and innovation in energy storage technology.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# RethinkMCTS: コード生成のためのモンテカルロ木探索における誤った考えの修正

RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation ( http://arxiv.org/abs/2409.09584v1 )

ライセンス: Link先を確認
Qingyao Li, Wei Xia, Kounianhua Du, Xinyi Dai, Ruiming Tang, Yasheng Wang, Yong Yu, Weinan Zhang, (参考訳) 木探索アルゴリズムによって強化されたLLMエージェントは、コード生成において顕著な性能を得た。 しかし、この領域の現在の検索アルゴリズムは、いくつかの理由により、検索品質の低さに悩まされている。 1)コード生成タスクの高レベル要求に対する検索空間の非効率設計 2)コードフィードバックの検索アルゴリズムとの不十分な統合 3) 探索中の負のフィードバックの少ない処理により, 探索効率と品質が低下した。 これらの課題に対処するために,コードの推論過程を探索し,コード実行の詳細なフィードバックを用いて,検索中の誤った思考を洗練することを提案する。 本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行い,より広い範囲の戦略を探索するRethinkMCTSを紹介する。 さらに,詳細なコード実行フィードバックから言葉によるフィードバックを構築し,検索中に誤った考えを洗練させる。 これにより、正しい推論経路に沿って探索が進行することを保証し、実行フィードバックを活用することにより、ツリー全体の検索品質を改善することができる。 大規模な実験を通じて、RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインより優れていることを示す。 HumanEvalデータセットでは、GPT-3.5-turboのpass@1を70.12から89.02に、GPT-4o-miniを87.20から94.51に改善している。 思考レベルの探索を通じてより徹底的な探索を効果的に行い、再考操作を取り入れて全体の探索品質を高める。

LLM agents enhanced by tree search algorithms have yielded notable performances in code generation. However, current search algorithms in this domain suffer from low search quality due to several reasons: 1) Ineffective design of the search space for the high-reasoning demands of code generation tasks, 2) Inadequate integration of code feedback with the search algorithm, and 3) Poor handling of negative feedback during the search, leading to reduced search efficiency and quality. To address these challenges, we propose to search for the reasoning process of the code and use the detailed feedback of code execution to refine erroneous thoughts during the search. In this paper, we introduce RethinkMCTS, which employs the Monte Carlo Tree Search (MCTS) algorithm to conduct thought-level searches before generating code, thereby exploring a wider range of strategies. More importantly, we construct verbal feedback from fine-grained code execution feedback to refine erroneous thoughts during the search. This ensures that the search progresses along the correct reasoning paths, thus improving the overall search quality of the tree by leveraging execution feedback. Through extensive experiments, we demonstrate that RethinkMCTS outperforms previous search-based and feedback-based code generation baselines. On the HumanEval dataset, it improves the pass@1 of GPT-3.5-turbo from 70.12 to 89.02 and GPT-4o-mini from 87.20 to 94.51. It effectively conducts more thorough exploration through thought-level searches and enhances the search quality of the entire tree by incorporating rethink operation.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# ValueCompass: ヒューマンAIアライメントのための基本的な価値のフレームワーク

ValueCompass: A Framework of Fundamental Values for Human-AI Alignment ( http://arxiv.org/abs/2409.09586v1 )

ライセンス: Link先を確認
Hua Shen, Tiffany Knearem, Reshmi Ghosh, Yu-Ju Yang, Tanushree Mitra, Yun Huang, (参考訳) AIシステムがより高度化するにつれて、さまざまな個人や社会的価値との整合性を確保することがますます重要になる。 しかし、基本的な人間の価値をキャプチャして、AIシステムがそれらと整合する程度を評価するにはどうすればよいのか? 本稿では,人間のAIアライメントを識別・評価するために,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるValueCompassを紹介する。 本研究では,人間と言語モデル(LM)の価値アライメントを,共同執筆,教育,公共部門,医療の4つの現実のヴィグネットで測定するために,ValueCompassを適用した。 以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。 また、Vignetteによって異なる値も観察し、コンテキスト対応のAIアライメント戦略の必要性を強調します。 この研究は、人間のAIアライメントのデザイン空間に関する洞察を提供し、社会的価値と倫理を責任を持って反映するAI開発の基礎を提供する。

As AI systems become more advanced, ensuring their alignment with a diverse range of individuals and societal values becomes increasingly critical. But how can we capture fundamental human values and assess the degree to which AI systems align with them? We introduce ValueCompass, a framework of fundamental values, grounded in psychological theory and a systematic review, to identify and evaluate human-AI alignment. We apply ValueCompass to measure the value alignment of humans and language models (LMs) across four real-world vignettes: collaborative writing, education, public sectors, and healthcare. Our findings uncover risky misalignment between humans and LMs, such as LMs agreeing with values like "Choose Own Goals", which are largely disagreed by humans. We also observe values vary across vignettes, underscoring the necessity for context-aware AI alignment strategies. This work provides insights into the design space of human-AI alignment, offering foundations for developing AI that responsibly reflects societal values and ethics.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# GLCONet:カモフラージュ物体検出のためのマルチソース知覚表現学習

GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection ( http://arxiv.org/abs/2409.09588v1 )

ライセンス: Link先を確認
Yanguang Sun, Hanyu Xuan, Jian Yang, Lei Luo, (参考訳) 近年,生物認識はCOD(camouflaged object detection)タスクを扱うための強力なツールとなっている。 しかし、既存の手法の多くは、畳み込み操作から初期特徴を最適化するための様々なスケールの局所的な空間情報に大きく依存している。 これらの手法で一般的に無視される点は、モデルがオブジェクトのグローバルな構造を構築するのに役立つような、異なるスケール空間からの特徴画素間の長距離依存であり、より正確な画像表現を引き起こすことである。 本稿では,Global-Local Collaborative Optimization Network(GLCONet)を提案する。 技術的には,まずマルチソース知覚の観点から協調最適化戦略を設計し,局所的詳細と大域的長距離関係を同時にモデル化する。 さらに,多層アグリゲーションと逆最適化を含む隣接する逆デコーダを導入し,高品質な表現を生成するために,異なるレベルからの相補的情報を統合する。 広汎な実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化し、3つの公的なCODデータセット上で20の最先端の手法より優れていることが示された。 ソースコードは: \https://github.com/CSYSI/GLCONet.comで入手できる。

Recently, biological perception has been a powerful tool for handling the camouflaged object detection (COD) task. However, most existing methods are heavily dependent on the local spatial information of diverse scales from convolutional operations to optimize initial features. A commonly neglected point in these methods is the long-range dependencies between feature pixels from different scale spaces that can help the model build a global structure of the object, inducing a more precise image representation. In this paper, we propose a novel Global-Local Collaborative Optimization Network, called GLCONet. Technically, we first design a collaborative optimization strategy from the perspective of multi-source perception to simultaneously model the local details and global long-range relationships, which can provide features with abundant discriminative information to boost the accuracy in detecting camouflaged objects. Furthermore, we introduce an adjacent reverse decoder that contains cross-layer aggregation and reverse optimization to integrate complementary information from different levels for generating high-quality representations. Extensive experiments demonstrate that the proposed GLCONet method with different backbones can effectively activate potentially significant pixels in an image, outperforming twenty state-of-the-art methods on three public COD datasets. The source code is available at: \https://github.com/CSYSI/GLCONet.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# オープンワールドテストタイムトレーニング:コントラスト学習による自己学習

Open-World Test-Time Training: Self-Training with Contrast Learning ( http://arxiv.org/abs/2409.09591v1 )

ライセンス: Link先を確認
Houcheng Su, Mengzhu Wang, Jiao Li, Bingli Wang, Daixian Liu, Zeheng Wang, (参考訳) 従来のテストタイムトレーニング(TTT)メソッドは、ドメインシフトに対処しながら、一貫したクラスセットを仮定し、無限の多様性によって特徴づけられる現実のシナリオで適用性を制限する。 Open-World Test-Time Training (OWTTT)は、特に強力なout-of-Distribution(OOD)データが存在する場合、ディープラーニングモデルを未知のドメイン分布に一般化するという課題に対処する。 既存のTTメソッドは、強いOODデータに直面すると、パフォーマンスを維持するのに苦労することが多い。 OWTTTでは、主に、全体的な強いOODデータと弱いOODデータの区別に焦点が当てられている。 しかし, TTTの初期段階では, 強いOODの干渉や腐敗によって特徴抽出が妨げられ, コントラストが低下し, 特定のクラスが強いOODとして早期に分類される。 これに対処するために, コントラスト学習を利用して正のサンプルペアを増やす革新的な手法である Open World Dynamic Contrastive Learning (OWDCL) を導入する。 この戦略は初期のコントラストを補強するだけでなく、その後の段階でモデルの堅牢性を著しく向上させる。 比較データセットでは,OWDCLモデルが最も高度な性能を実現している。

Traditional test-time training (TTT) methods, while addressing domain shifts, often assume a consistent class set, limiting their applicability in real-world scenarios characterized by infinite variety. Open-World Test-Time Training (OWTTT) addresses the challenge of generalizing deep learning models to unknown target domain distributions, especially in the presence of strong Out-of-Distribution (OOD) data. Existing TTT methods often struggle to maintain performance when confronted with strong OOD data. In OWTTT, the focus has predominantly been on distinguishing between overall strong and weak OOD data. However, during the early stages of TTT, initial feature extraction is hampered by interference from strong OOD and corruptions, resulting in diminished contrast and premature classification of certain classes as strong OOD. To address this, we introduce Open World Dynamic Contrastive Learning (OWDCL), an innovative approach that utilizes contrastive learning to augment positive sample pairs. This strategy not only bolsters contrast in the early stages but also significantly enhances model robustness in subsequent stages. In comparison datasets, our OWDCL model has produced the most advanced performance.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# 野生における多目的人物画像合成のためのワンショット学習

One-Shot Learning for Pose-Guided Person Image Synthesis in the Wild ( http://arxiv.org/abs/2409.09593v1 )

ライセンス: Link先を確認
Dongqi Fan, Tao Chen, Mingjie Wang, Rui Ma, Qiang Tang, Zili Yi, Qian Wang, Liang Chang, (参考訳) 現在のPGPIS(Pose-Guided Person Image Synthesis)法は、大量のラベル付き三重項データに大きく依存し、ジェネレータを教師付きで訓練する。 しかし、トレーニングデータセットと実世界のテストサンプルの分散ギャップが主な原因で、Wildのサンプルに適用された場合、しばしばフェールする。 一部の研究者は、高度なトレーニング手順や高度なアーキテクチャ、より多様なデータセットを作成することによって、モデルの一般化性を高めることを目的としているが、テストタイムの微調整パラダイムを採用して、事前訓練されたText2Image(T2I)モデルをカスタマイズする。 しかし, テストタイムチューニングを経時的に適用すると, 顔の同一性や外観特性の矛盾が生じる。 これを解決するために、顔、テキスト、画像埋め込みを組み合わせた外観整合性を高めるVisual Consistency Module (VCM)を導入する。 OnePoseTransという名前の我々のアプローチでは、高品質なポーズ転送結果を生成するために、単一のソースイメージしか必要とせず、最先端のデータ駆動方式よりも安定性が高い。 テストケース毎に、OnePoseTransはNVIDIA V100 GPUで約48秒でモデルをカスタマイズする。

Current Pose-Guided Person Image Synthesis (PGPIS) methods depend heavily on large amounts of labeled triplet data to train the generator in a supervised manner. However, they often falter when applied to in-the-wild samples, primarily due to the distribution gap between the training datasets and real-world test samples. While some researchers aim to enhance model generalizability through sophisticated training procedures, advanced architectures, or by creating more diverse datasets, we adopt the test-time fine-tuning paradigm to customize a pre-trained Text2Image (T2I) model. However, naively applying test-time tuning results in inconsistencies in facial identities and appearance attributes. To address this, we introduce a Visual Consistency Module (VCM), which enhances appearance consistency by combining the face, text, and image embedding. Our approach, named OnePoseTrans, requires only a single source image to generate high-quality pose transfer results, offering greater stability than state-of-the-art data-driven methods. For each test case, OnePoseTrans customizes a model in around 48 seconds with an NVIDIA V100 GPU.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# ソフトペアワイズ精度による自動計量の人的評価における統計的意義の改善

Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy ( http://arxiv.org/abs/2409.09598v1 )

ライセンス: Link先を確認
Brian Thompson, Nitika Mathur, Daniel Deutsch, Huda Khayrallah, (参考訳) 人間の判断を最もよくエミュレートする自動計量を選択することは、しばしば「ベストエミュレート」という明確な定義がないため、自明ではない。 メタメトリックは、人間の判断と自動メートル法判断を比較するために必要であり、メートル法ランキングはメタメトリックの選択に依存する。 我々は,Pairwise Accuracy(PA)に基づく新しいメタメトリックであるSoft Pairwise Accuracy(SPA)を提案する。 SPAは、単純なバイナリの勝敗よりも、システム間のよりきめ細かい比較を可能にし、PAとの多くの欠点に対処する: 評価に使用されるシステムとセグメントの数に関してより安定であり、量子化による計量関係の問題を軽減する。 SPAは2024年のWMTメートル法共有タスクの公式なシステムレベルメトリックとして選ばれた。

Selecting an automatic metric that best emulates human judgments is often non-trivial, because there is no clear definition of "best emulates." A meta-metric is required to compare the human judgments to the automatic metric judgments, and metric rankings depend on the choice of meta-metric. We propose Soft Pairwise Accuracy (SPA), a new meta-metric that builds on Pairwise Accuracy (PA) but incorporates the statistical significance of both the human judgments and the metric judgments. SPA allows for more fine-grained comparisons between systems than a simplistic binary win/loss, and addresses a number of shortcomings with PA: it is more stable with respect to both the number of systems and segments used for evaluation, it mitigates the issue of metric ties due to quantization, and it produces more statistically significant results. SPA was selected as the official system-level metric for the 2024 WMT metric shared task.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# 音楽理解のための基礎モデルの検討

A Survey of Foundation Models for Music Understanding ( http://arxiv.org/abs/2409.09601v1 )

ライセンス: Link先を確認
Wenjun Li, Ying Cai, Ziyang Wu, Wenyi Zhang, Yifan Chen, Rundong Qi, Mengqi Dong, Peigen Chen, Xiao Dong, Fenghao Shi, Lei Guo, Junwei Han, Bao Ge, Tianming Liu, Lin Gan, Tuo Zhang, (参考訳) 音楽は日常生活において不可欠であり、感情とエンターテイメントのニーズを満たし、私たちを個人的に、社会的、文化的に結びつける。 音楽の理解を深めることで、私たちの感情、認知能力、文化的なつながりを高めることができます。 人工知能(AI)の急速な進歩は、音楽の人間の理解を再現し、関連するサービスを提供することを目的として、音楽を分析する新しい方法を導入した。 従来のモデルは音声の特徴や単純なタスクに重点を置いていたが、近年の大規模言語モデル(LLM)や基礎モデル(FM)は、意味情報を統合し、強力な推論能力を示すことによって様々な分野に優れており、複雑な音楽の特徴やパターンを捉え、言語と音楽を統合し、豊かな音楽的、感情的、心理的知識を取り入れている。 そのため、意味的な観点から複雑な音楽理解タスクを処理し、人間の知覚に近いアウトプットを生み出す可能性がある。 この研究は、私たちの知る限り、AI技術と音楽理解の交差に関する初期のレビューの1つです。 音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。 また,これらの限界についても議論し,今後の方向性を示唆し,この分野の研究者に洞察を提供した。

Music is essential in daily life, fulfilling emotional and entertainment needs, and connecting us personally, socially, and culturally. A better understanding of music can enhance our emotions, cognitive skills, and cultural connections. The rapid advancement of artificial intelligence (AI) has introduced new ways to analyze music, aiming to replicate human understanding of music and provide related services. While the traditional models focused on audio features and simple tasks, the recent development of large language models (LLMs) and foundation models (FMs), which excel in various fields by integrating semantic information and demonstrating strong reasoning abilities, could capture complex musical features and patterns, integrate music with language and incorporate rich musical, emotional and psychological knowledge. Therefore, they have the potential in handling complex music understanding tasks from a semantic perspective, producing outputs closer to human perception. This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding. We investigated, analyzed, and tested recent large-scale music foundation models in respect of their music comprehension abilities. We also discussed their limitations and proposed possible future directions, offering insights for researchers in this field.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# スーパーコンピューティングインフラに対する攻撃の回避のためのセキュリティテストベッド

Security Testbed for Preempting Attacks against Supercomputing Infrastructure ( http://arxiv.org/abs/2409.09602v1 )

ライセンス: Link先を確認
Phuong Cao, Zbigniew Kalbarczyk, Ravishankar Iyer, (参考訳) 被害を受ける前にスーパーコンピュータシステムをターゲットにした攻撃をプリエンプティブにすることは、セキュリティ上の最優先事項である。 主な課題は、ノイズの多い攻撃の試みと信頼性の低い警告が、しばしば実際の攻撃を隠蔽し、システムの完全性違反やデータ漏洩のような恒久的な損傷を引き起こすことである。 本稿では,NCSA(National Center for Supercomputing Applications)におけるスーパーコンピュータのライブトラフィックに埋め込まれたセキュリティテストベッドについて述べる。 目的は、ペタスケールのスーパーコンピュータで攻撃プリエンプション、すなわちシステムの妥協とデータ漏洩を実証することである。 1) NCSAで過去20年間にキュレーションされた200以上のセキュリティインシデントの実際のセキュリティログにあるユニークな攻撃パターンを特徴付けることによる洞察。 2)HPC環境における実際の攻撃を特定することの課題と、対話型攻撃解析におけるセキュリティ運用者を支援するための攻撃可視化ツールの展開。 3) 実世界のランサムウェアファミリーをプリエンプトするためにファクタグラフベースモデルのような新しいモデルを実行することによって,テストベッドの実用性を実証する。

Preempting attacks targeting supercomputing systems before damage remains the top security priority. The main challenge is that noisy attack attempts and unreliable alerts often mask real attacks, causing permanent damages such as system integrity violations and data breaches. This paper describes a security testbed embedded in live traffic of a supercomputer at the National Center for Supercomputing Applications (NCSA). The objective is to demonstrate attack preemption, i.e., stopping system compromise and data breaches at petascale supercomputers. Deployment of our testbed at NCSA enables the following key contributions: 1) Insights from characterizing unique attack patterns found in real security logs of over 200 security incidents curated in the past two decades at NCSA. 2) Deployment of an attack visualization tool to illustrate the challenges of identifying real attacks in HPC environments and to support security operators in interactive attack analyses. 3) Demonstrate the testbed's utility by running novel models, such as Factor Graph-Based models, to preempt a real-world ransomware family.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# データ中心RLHFに向けて: 参照データセット比較のための単純なメトリクス

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison ( http://arxiv.org/abs/2409.09603v1 )

ライセンス: Link先を確認
Judy Hanwen Shen, Archit Sharma, Jun Qin, (参考訳) 言語モデルを人間の好みに合わせるという目標は、これらの好みを明らかにするデータを必要とする。 理想的には、時間とお金は、各下流アプリケーションに対して、好ましくない好みデータを収集し、調整するのに注意深く費やされる。 しかし、実際には、人間からのフィードバック(RLHF)からの強化学習のための報酬モデルをトレーニングするために、いくつかのパブリックな嗜好データセットがしばしば使用される。 新しい嗜好データセットは頻度の増大とともに導入されているが、これらのデータセットを測定、比較するための取り組みは、現在存在しない。 本稿では,スケール,ラベルノイズ,情報内容の3つの視点から選好データセットを体系的に研究する。 それぞれの視点で特定の指標を提案し、選好データセットをよりよく理解するために比較の異なる軸を明らかにする。 我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。

The goal of aligning language models to human preferences requires data that reveal these preferences. Ideally, time and money can be spent carefully collecting and tailoring bespoke preference data to each downstream application. However, in practice, a select few publicly available preference datasets are often used to train reward models for reinforcement learning from human feedback (RLHF). While new preference datasets are being introduced with increasing frequency, there are currently no existing efforts to measure and compare these datasets. In this paper, we systematically study preference datasets through three perspectives: scale, label noise, and information content. We propose specific metrics for each of these perspectives and uncover different axes of comparison for a better understanding of preference datasets. Our work is a first step towards a data-centric approach to alignment by providing perspectives that aid in training efficiency and iterative data collection for RLHF.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# DreamMover: 大きな動きを持つ画像補間のための拡散モデルの事前活用

DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion ( http://arxiv.org/abs/2409.09605v1 )

ライセンス: Link先を確認
Liao Shen, Tianqi Liu, Huiqiang Sun, Xinyi Ye, Baopu Li, Jianming Zhang, Zhiguo Cao, (参考訳) 意味的一貫性を維持しつつ大きな動きを持つ画像対から中間画像を生成する問題について検討する。 大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。 既存の手法は小さな動きに制限されるか、トポロジカルに類似した物体に焦点を合わせるかのいずれかであり、人工物や補間結果の不整合につながる。 この課題を克服するために、意味認識と表現能力に関する事前学習された画像拡散モデルを探索し、中間的意味表現の不備を入力と整合的に表現する。 この目的のために,3つの主要コンポーネントを持つ新しい画像補間フレームワークであるDreamMoverを提案する。 1)2つの画像間の意味的対応を暗黙的に推論できる拡散モデルに基づく自然流推定器。 2) 核融合時に詳細な情報が失われることを避けるため, 高次空間と低次空間の2つの部分で情報を融合することが重要視される。 3) 生成した画像と入力の整合性を高めるために, 自己注意結合と置換アプローチを提案する。 最後に、生成された結果のセマンティック一貫性を評価するために、ベンチマークデータセットInterpBenchを提案する。 大規模な実験により,本手法の有効性が示された。 私たちのプロジェクトはhttps://dreamm0ver.github.ioで公開されています。

We study the problem of generating intermediate images from image pairs with large motion while maintaining semantic consistency. Due to the large motion, the intermediate semantic information may be absent in input images. Existing methods either limit to small motion or focus on topologically similar objects, leading to artifacts and inconsistency in the interpolation results. To overcome this challenge, we delve into pre-trained image diffusion models for their capabilities in semantic cognition and representations, ensuring consistent expression of the absent intermediate semantic representations with the input. To this end, we propose DreamMover, a novel image interpolation framework with three main components: 1) A natural flow estimator based on the diffusion model that can implicitly reason about the semantic correspondence between two images. 2) To avoid the loss of detailed information during fusion, our key insight is to fuse information in two parts, high-level space and low-level space. 3) To enhance the consistency between the generated images and input, we propose the self-attention concatenation and replacement approach. Lastly, we present a challenging benchmark dataset InterpBench to evaluate the semantic consistency of generated results. Extensive experiments demonstrate the effectiveness of our method. Our project is available at https://dreamm0ver.github.io .
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# テクスチャ拡散:様々なテクスチャ転送のためのアンタングル編集用ターゲットプロンプト

TextureDiffusion: Target Prompt Disentangled Editing for Various Texture Transfer ( http://arxiv.org/abs/2409.09610v1 )

ライセンス: Link先を確認
Zihan Su, Junhao Zhuang, Chun Yuan, (参考訳) 近年,テキスト誘導画像編集は大きな成功を収めている。 しかし、既存の手法では、物体のテクスチャを変える際には、木や金のような単純なテクスチャしか適用できない。 雲や火のような複雑なテクスチャが課題となる。 この制限は、ターゲットプロンプトが入力された画像内容と<texture>の両方を含む必要があり、テクスチャ表現が制限されることに由来する。 本稿では,様々なテクスチャ転送に適用可能なチューニング不要な画像編集手法であるTextureDiffusionを提案する。 当初、ターゲットプロンプトは「<texture>」に直接設定され、入力された画像内容からテクスチャが切り離されてテクスチャ表現が強化される。 その後、自己アテンションにおけるクエリ特徴と残留ブロックにおける特徴を利用して、入力画像の構造を保存する。 最後に、その背景を維持するために、自己注意結果と中間潜伏者をブレンドする編集ローカライズ手法を導入する。 総合的な実験により、テクスチャ拡散は様々なテクスチャを、優れた構造と背景保存で調和的に伝達できることが示されている。

Recently, text-guided image editing has achieved significant success. However, existing methods can only apply simple textures like wood or gold when changing the texture of an object. Complex textures such as cloud or fire pose a challenge. This limitation stems from that the target prompt needs to contain both the input image content and <texture>, restricting the texture representation. In this paper, we propose TextureDiffusion, a tuning-free image editing method applied to various texture transfer. Initially, the target prompt is directly set to "<texture>", making the texture disentangled from the input image content to enhance texture representation. Subsequently, query features in self-attention and features in residual blocks are utilized to preserve the structure of the input image. Finally, to maintain the background, we introduce an edit localization technique which blends the self-attention results and the intermediate latents. Comprehensive experiments demonstrate that TextureDiffusion can harmoniously transfer various textures with excellent structure and background preservation.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# マルチモーダルファーストパーソン行動認識における音声ナレーションの統合によるドメイン一般化の強化

Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition ( http://arxiv.org/abs/2409.09611v1 )

ライセンス: Link先を確認
Cagri Gungor, Adriana Kovashka, (参考訳) ウェアラブルカメラの普及により、ファーストパーソンのアクティビティ認識は急速に成長しているが、さまざまなオブジェクトや背景シーンなど、さまざまな環境におけるドメインシフトによる課題に直面している。 本稿では,動作,音声,外観機能を統合することで,ドメインの一般化を改善するマルチモーダルフレームワークを提案する。 主なコントリビューションには、ドメインシフトに対するオーディオおよびモーション機能のレジリエンスの分析、オーディオナレーションを使用してオーディオテキストアライメントを強化すること、トレーニング中の音声認識におけるオーディオの影響を最適化するためにオーディオとビジュアルナレーションの整合性評価を適用することなどがある。 提案手法はARGO1Mデータセット上での最先端のパフォーマンスを実現し,目に見えないシナリオや場所を効果的に一般化する。

First-person activity recognition is rapidly growing due to the widespread use of wearable cameras but faces challenges from domain shifts across different environments, such as varying objects or background scenes. We propose a multimodal framework that improves domain generalization by integrating motion, audio, and appearance features. Key contributions include analyzing the resilience of audio and motion features to domain shifts, using audio narrations for enhanced audio-text alignment, and applying consistency ratings between audio and visual narrations to optimize the impact of audio in recognition during training. Our approach achieves state-of-the-art performance on the ARGO1M dataset, effectively generalizing across unseen scenarios and locations.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# KenLMを再考する: 大きなWebコーパスにおける効率的なテキスト品質フィルタリングのための良いモデルと悪いモデルアンサンブル

Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora ( http://arxiv.org/abs/2409.09613v1 )

ライセンス: Link先を確認
Yungi Kim, Hyunsoo Ha, Sukyung Lee, Jihoo Kim, Seonghoon Yang, Chanjun Park, (参考訳) 大規模言語モデル(LLM)を訓練するための大量の高品質なデータに対する需要が高まっているため、大規模なWebコーパスを効率的にフィルタリングすることが重要な課題となっている。 この目的のために、CPU上で動作する軽量n-gramベースの言語モデルであるKenLMが広く使われている。 しかし、従来のKenLMの訓練方法は高品質のデータのみを利用しており、その結果、低品質データの言語パターンを明示的に学ばない。 この問題に対処するために、2つの対照的なKenLMを利用するアンサンブルアプローチを提案する。 一 良質なデータで訓練された善良なKenLM (II)Bad KenLM、低品質データのトレーニング。 実験の結果,従来のKenLM学習法と比較して,高品質なコンテンツを保存する一方で,ノイズの低減が図られた。 このことから,本手法は資源制約環境における計算オーバーヘッドを最小限に抑えた実用的な手法である可能性が示唆された。

With the increasing demand for substantial amounts of high-quality data to train large language models (LLMs), efficiently filtering large web corpora has become a critical challenge. For this purpose, KenLM, a lightweight n-gram-based language model that operates on CPUs, is widely used. However, the traditional method of training KenLM utilizes only high-quality data and, consequently, does not explicitly learn the linguistic patterns of low-quality data. To address this issue, we propose an ensemble approach that leverages two contrasting KenLMs: (i) Good KenLM, trained on high-quality data; and (ii) Bad KenLM, trained on low-quality data. Experimental results demonstrate that our approach significantly reduces noisy content while preserving high-quality content compared to the traditional KenLM training method. This indicates that our method can be a practical solution with minimal computational overhead for resource-constrained environments.
翻訳日:2024-09-17 20:07:53 公開日:2024-09-15
# HJ-サンプラー:ハミルトン・ヤコビPDEとスコアベース生成モデルを利用した確率過程の逆問題に対するベイズサンプル

HJ-sampler: A Bayesian sampler for inverse problems of a stochastic process by leveraging Hamilton-Jacobi PDEs and score-based generative models ( http://arxiv.org/abs/2409.09614v1 )

ライセンス: Link先を確認
Tingwei Meng, Zongren Zou, Jérôme Darbon, George Em Karniadakis, (参考訳) 確率過程と最適制御の相互作用は、文献で広く研究されている。 近年の拡散モデルの使用の増加に伴い、確率過程はサンプル生成にますます適用されるようになった。 本稿では、ブラウン運動文脈におけるコールホップ変換(Cole-Hopf transform)と呼ばれるログ変換に基づいており、線形作用素を含むより抽象的なフレームワークで拡張する。 この枠組みの中で、コールホップ変換と最適輸送の間のよく知られた関係は、線形作用素が確率過程の無限小生成として作用する特別な例であることが判明した。 また、線形作用素が生成子の随伴であり、特定の初期および終端条件下でのベイズ推論にリンクする新しいシナリオを導入する。 この理論の基礎を生かして、与えられた終端観測を伴う確率微分方程式の逆問題に対するベイズ推定のためのHJ-サンプラーと呼ばれる新しいアルゴリズムを開発した。 HJ-サンプラーは、(1)粘性ハミルトン-ヤコビ偏微分方程式の解法と(2)関連する確率的最適制御問題からのサンプリングの2段階を含む。 提案アルゴリズムは, 粘性HJ PDEの数値解法を選択する際の柔軟性を自然に実現している。 本稿では,Ricati法に基づくRicati-HJ-samplerと拡散モデルを用いたSGM-HJ-samplerの2種類を紹介する。 提案手法の有効性と柔軟性を,様々な確率過程と先行分布を含むベイズ逆問題の解法に適用し,モデルの誤特定に対処し,モデルの不確かさを定量化するアプリケーションを含む,提案手法の有効性と柔軟性を実証する。

The interplay between stochastic processes and optimal control has been extensively explored in the literature. With the recent surge in the use of diffusion models, stochastic processes have increasingly been applied to sample generation. This paper builds on the log transform, known as the Cole-Hopf transform in Brownian motion contexts, and extends it within a more abstract framework that includes a linear operator. Within this framework, we found that the well-known relationship between the Cole-Hopf transform and optimal transport is a particular instance where the linear operator acts as the infinitesimal generator of a stochastic process. We also introduce a novel scenario where the linear operator is the adjoint of the generator, linking to Bayesian inference under specific initial and terminal conditions. Leveraging this theoretical foundation, we develop a new algorithm, named the HJ-sampler, for Bayesian inference for the inverse problem of a stochastic differential equation with given terminal observations. The HJ-sampler involves two stages: (1) solving the viscous Hamilton-Jacobi partial differential equations, and (2) sampling from the associated stochastic optimal control problem. Our proposed algorithm naturally allows for flexibility in selecting the numerical solver for viscous HJ PDEs. We introduce two variants of the solver: the Riccati-HJ-sampler, based on the Riccati method, and the SGM-HJ-sampler, which utilizes diffusion models. We demonstrate the effectiveness and flexibility of the proposed methods by applying them to solve Bayesian inverse problems involving various stochastic processes and prior distributions, including applications that address model misspecifications and quantifying model uncertainty.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# Rationale-Driven Collaborative Few-Shot Prompting によるテキストアノテーションの強化

Enhancing Text Annotation through Rationale-Driven Collaborative Few-Shot Prompting ( http://arxiv.org/abs/2409.09615v1 )

ライセンス: Link先を確認
Jianfei Wu, Xubin Wang, Weijia Jia, (参考訳) 従来のデータアノテーションプロセスは、しばしば労働集約的で、時間がかかり、より複雑なデータセットの管理を複雑にする人間のバイアスに影響を受けやすい。 本研究では,自動データアノテータとしての大規模言語モデル(LLM)の可能性を探り,アノテーションタスクの効率性と一貫性を向上する。 合理化による複数ショットプロンプト技術を用いて,テキストアノテーションにおけるLLMの性能向上を目指す。 我々は4つのベンチマークデータセットに対して6つのLSMの厳密な評価を行い、7つの異なる手法を比較した。 この結果から,特に複雑なアノテーションタスクにおいて,協調手法が従来手法やベースライン手法より一貫して優れていたことが示唆された。 我々の研究は、挑戦的なテキストアノテーションタスクに取り組むために協調学習手法を活用するための貴重な洞察と堅牢なフレームワークを提供する。

The traditional data annotation process is often labor-intensive, time-consuming, and susceptible to human bias, which complicates the management of increasingly complex datasets. This study explores the potential of large language models (LLMs) as automated data annotators to improve efficiency and consistency in annotation tasks. By employing rationale-driven collaborative few-shot prompting techniques, we aim to improve the performance of LLMs in text annotation. We conduct a rigorous evaluation of six LLMs across four benchmark datasets, comparing seven distinct methodologies. Our results demonstrate that collaborative methods consistently outperform traditional few-shot techniques and other baseline approaches, particularly in complex annotation tasks. Our work provides valuable insights and a robust framework for leveraging collaborative learning methods to tackle challenging text annotation tasks.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# ゆるやかな物体検出を静的画像上で(ハローシネートされた)動きにより促進する

Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion ( http://arxiv.org/abs/2409.09616v1 )

ライセンス: Link先を確認
Cagri Gungor, Adriana Kovashka, (参考訳) 動作は様々なタスクにおいて注目されているが、静止画像における弱教師付き物体検出(WSOD)のモダリティとしての可能性は未解明のままである。 本研究は,動作情報の統合によるWSOD手法の強化手法を提案する。 本手法は、静止画像からの幻覚的動きを利用して画像データセットのWSODを改善すること、動きによる表現学習の強化、動きの正規化によるカメラモーションの対応、物体の動きに基づく画像の選択的トレーニングを行うためのシームズネットワークを利用する。 COCOとYouTube-BBデータセットに対する実験的検証は、最先端の手法よりも改善されていることを示している。

While motion has garnered attention in various tasks, its potential as a modality for weakly-supervised object detection (WSOD) in static images remains unexplored. Our study introduces an approach to enhance WSOD methods by integrating motion information. This method involves leveraging hallucinated motion from static images to improve WSOD on image datasets, utilizing a Siamese network for enhanced representation learning with motion, addressing camera motion through motion normalization, and selectively training images based on object motion. Experimental validation on the COCO and YouTube-BB datasets demonstrates improvements over a state-of-the-art method.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# ソフトウェアエンジニアリングプロジェクトにおけるコストと期間予測のための大規模言語モデルの活用

Leveraging Large Language Models for Predicting Cost and Duration in Software Engineering Projects ( http://arxiv.org/abs/2409.09617v1 )

ライセンス: Link先を確認
Justin Carpenter, Chia-Ying Wu, Nasir U. Eisty, (参考訳) プロジェクトコストと期間の正確な見積もりは、ソフトウェアエンジニアリングにおいて重要な課題であり、予算やリソース管理に直接影響を与えます。 従来の見積技術は広く利用されているが、その複雑さとソフトウェア開発プロジェクトの動的な性質のために、しばしば不足している。 本研究では,プロジェクトコスト予測の精度とユーザビリティを高めるために,LLM(Large Language Models)を用いた革新的な手法を提案する。 従来の手法や現代の機械学習技術に対するLLMの有効性について検討し,評価プロセスの簡素化と精度の向上に焦点をあてる。 我々の研究は、LLMが既存のモデルより優れているかどうか、現在のプラクティスへの統合の容易さ、従来の見積もりよりも優れているか、そしてなぜ従来の手法が業界でまだ普及しているのか、といった重要な問いに基づいて構成されている。 本研究は,LLMを実世界のさまざまなデータセットに適用し,その性能を最先端および従来手法と比較することにより,LCMがより正確な推定値を得るだけでなく,複雑な予測モデルに代わるユーザフレンドリな代替手段を提供し,ソフトウェア産業におけるプロジェクト管理戦略を変革する可能性を実証することを目的とする。

Accurate estimation of project costs and durations remains a pivotal challenge in software engineering, directly impacting budgeting and resource management. Traditional estimation techniques, although widely utilized, often fall short due to their complexity and the dynamic nature of software development projects. This study introduces an innovative approach using Large Language Models (LLMs) to enhance the accuracy and usability of project cost predictions. We explore the efficacy of LLMs against traditional methods and contemporary machine learning techniques, focusing on their potential to simplify the estimation process and provide higher accuracy. Our research is structured around critical inquiries into whether LLMs can outperform existing models, the ease of their integration into current practices, outperform traditional estimation, and why traditional methods still prevail in industry settings. By applying LLMs to a range of real-world datasets and comparing their performance to both state-of-the-art and conventional methods, this study aims to demonstrate that LLMs not only yield more accurate estimates but also offer a user-friendly alternative to complex predictive models, potentially transforming project management strategies within the software industry.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# Stutter-Solver: エンドツーエンド多言語障害検出

Stutter-Solver: End-to-end Multi-lingual Dysfluency Detection ( http://arxiv.org/abs/2409.09621v1 )

ライセンス: Link先を確認
Xuanru Zhou, Cheol Jun Cho, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Boon Lead Tee, Maria Luisa Gorno Tempini, Jiachen Lian, Gopala Anumanchipalli, (参考訳) 現在のデファクト・ディフルエンシ・モデリング手法は、言語全体にわたるドメイン外の実世界のディフルエンシに一般化できないテンプレートマッチングアルゴリズムを使用し、トレーニングデータの増加とともにスケーラビリティが低下している。 これらの問題に対処するために, YOLOオブジェクト検出アルゴリズムにインスパイアされた, 正確な型と時刻の書き起こしによる逆流を検出するエンドツーエンドフレームワークであるStutter-Solverを提案する。 Stutter-Solverは共分散を処理でき、自然界の多言語ディフルエンシ検出器である。 また,VCTK-Pro,VCTK-Art,AISHELL3-Proの3つの新しいディフルエンシコーパスを導入する。 提案手法は, 利用可能なすべてのディフルエンシコーパスに対して, 最先端の性能を実現する。 コードとデータセットはhttps://github.com/eureka235/Stutter-Solverでオープンソース化される

Current de-facto dysfluency modeling methods utilize template matching algorithms which are not generalizable to out-of-domain real-world dysfluencies across languages, and are not scalable with increasing amounts of training data. To handle these problems, we propose Stutter-Solver: an end-to-end framework that detects dysfluency with accurate type and time transcription, inspired by the YOLO object detection algorithm. Stutter-Solver can handle co-dysfluencies and is a natural multi-lingual dysfluency detector. To leverage scalability and boost performance, we also introduce three novel dysfluency corpora: VCTK-Pro, VCTK-Art, and AISHELL3-Pro, simulating natural spoken dysfluencies including repetition, block, missing, replacement, and prolongation through articulatory-encodec and TTS-based methods. Our approach achieves state-of-the-art performance on all available dysfluency corpora. Code and datasets are open-sourced at https://github.com/eureka235/Stutter-Solver
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 学習ダイナミクスによる構成的マッピングへのシンプルさバイアスの理解

Understanding Simplicity Bias towards Compositional Mappings via Learning Dynamics ( http://arxiv.org/abs/2409.09626v1 )

ライセンス: Link先を確認
Yi Ren, Danica J. Sutherland, (参考訳) 構成写像の取得は、モデルをよく構成的に一般化する上で重要である。 モデルがそのようなマッピングをいつ、どのように学習するかをよりよく理解するために、異なる視点でそれらのユニークさを研究します。 具体的には、合成写像が符号化長のレンズ(すなわち、コルモゴロフ複雑性の上界)を通して最も単純な単射であることを示す。 この性質は、そのような写像を持つモデルがうまく一般化できる理由を説明する。 さらに、単純性バイアスは通常、勾配降下によるニューラルネットワークトレーニングの本質的な特性であることを示す。 これは、あるモデルが適切に訓練されたときに自然に一般化する理由を部分的に説明している。

Obtaining compositional mappings is important for the model to generalize well compositionally. To better understand when and how to encourage the model to learn such mappings, we study their uniqueness through different perspectives. Specifically, we first show that the compositional mappings are the simplest bijections through the lens of coding length (i.e., an upper bound of their Kolmogorov complexity). This property explains why models having such mappings can generalize well. We further show that the simplicity bias is usually an intrinsic property of neural network training via gradient descent. That partially explains why some models spontaneously generalize well when they are trained appropriately.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 大規模言語モデルではイベント信号のグラフ化は可能か? 純粋なゼロショットイベントベース認識の探索

Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition ( http://arxiv.org/abs/2409.09628v1 )

ライセンス: Link先を確認
Zongyou Yu, Qiang Qu, Xiaoming Chen, Chen Wang, (参考訳) イベントベースゼロショット物体認識の最近の進歩は有望な結果を示している。 しかし、これらの手法は広範囲な訓練に大きく依存しており、CLIPの特徴によって本質的に制約されている。 我々の知る限り、この研究は、イベントベースの視覚コンテンツのための大規模言語モデル(LLM)の理解能力を研究する最初の研究である。 LLMは、CLIPと組み合わせて、追加のトレーニングや微調整をすることなく、イベントベースのオブジェクト認識を実現できることを実証し、純粋なゼロショットイベントベースの認識を効果的に実現する。 特に,GPT-4o/4turbo と他の2つのオープンソース LLM がイベントベースの視覚コンテンツを直接認識する能力を評価する。 これらのモデルの認識精度を体系的に評価し,3つのベンチマークデータセットに対して大規模な実験を行う。 その結果,特にプロンプトがよく設計された場合のLLMは,イベントベースゼロショット認識性能を著しく向上することがわかった。 特に、GPT-4oは比較モデルより優れ、N-ImageNet上の最先端のイベントベースゼロショット法の認識精度を5桁上回る。 本論文の実装は \url{https://github.com/ChrisYu-Zz/Pure-event-based-recognition-based-LLM} で見ることができる。

Recent advancements in event-based zero-shot object recognition have demonstrated promising results. However, these methods heavily depend on extensive training and are inherently constrained by the characteristics of CLIP. To the best of our knowledge, this research is the first study to explore the understanding capabilities of large language models (LLMs) for event-based visual content. We demonstrate that LLMs can achieve event-based object recognition without additional training or fine-tuning in conjunction with CLIP, effectively enabling pure zero-shot event-based recognition. Particularly, we evaluate the ability of GPT-4o / 4turbo and two other open-source LLMs to directly recognize event-based visual content. Extensive experiments are conducted across three benchmark datasets, systematically assessing the recognition accuracy of these models. The results show that LLMs, especially when enhanced with well-designed prompts, significantly improve event-based zero-shot recognition performance. Notably, GPT-4o outperforms the compared models and exceeds the recognition accuracy of state-of-the-art event-based zero-shot methods on N-ImageNet by five orders of magnitude. The implementation of this paper is available at \url{https://github.com/ChrisYu-Zz/Pure-event-based-recognition-based-LLM}.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# LLMに基づく対話状態追跡の信頼度推定

Confidence Estimation for LLM-Based Dialogue State Tracking ( http://arxiv.org/abs/2409.09629v1 )

ライセンス: Link先を確認
Yi-Jyun Sun, Suvodip Dey, Dilek Hakkani-Tur, Gokhan Tur, (参考訳) 大規模言語モデル(LLM)に基づく会話型AIシステムでは,特に幻覚の低減と過度信頼の防止のために,モデルのアウトプットに対する信頼度の推定が重要である。 本研究では,オープンおよびクローズドウェイト LLM に提案する手法を包括的に探索し,モデル不確実性を定量化し,LLM 生成応答の信頼性を向上させることを目的として,特にタスク指向対話システム(TODS)における対話状態追跡(DST)に焦点を当てた。 モデルの種類にかかわらず、不確実性に対処するためには、よく校正された信頼スコアが不可欠であり、モデル性能が向上する。 そこで我々は,ソフトマックス,生トークンスコア,言語的信頼度に基づいて信頼度を推定する4つの手法と,これらの手法を組み合わせて,曲線(AUC)測定値に基づくキャリブレーションの評価を行い,より高い校正率を示す。 また、閉モデルに対して提案する自己探索機構によりこれを拡張する。 さらに,これらの手法をDSTタスク用に微調整したオープンウェイトモデルを用いて評価し,より優れた関節ゴール精度(JGA)を実現する。 また, 微調整式オープンウェイトLLMではAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。

Estimation of a model's confidence on its outputs is critical for Conversational AI systems based on large language models (LLMs), especially for reducing hallucination and preventing over-reliance. In this work, we provide an exhaustive exploration of methods, including approaches proposed for open- and closed-weight LLMs, aimed at quantifying and leveraging model uncertainty to improve the reliability of LLM-generated responses, specifically focusing on dialogue state tracking (DST) in task-oriented dialogue systems (TODS). Regardless of the model type, well-calibrated confidence scores are essential to handle uncertainties, thereby improving model performance. We evaluate four methods for estimating confidence scores based on softmax, raw token scores, verbalized confidences, and a combination of these methods, using the area under the curve (AUC) metric to assess calibration, with higher AUC indicating better calibration. We also enhance these with a self-probing mechanism, proposed for closed models. Furthermore, we assess these methods using an open-weight model fine-tuned for the task of DST, achieving superior joint goal accuracy (JGA). Our findings also suggest that fine-tuning open-weight LLMs can result in enhanced AUC performance, indicating better confidence score calibration.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 複雑な背景を持つ自然シーン画像からのテキスト検出のための新しいフレームワーク

A Novel Framework For Text Detection From Natural Scene Images With Complex Background ( http://arxiv.org/abs/2409.09635v1 )

ライセンス: Link先を確認
Basavaraj Kaladagi, Jagadeesh Pujari, (参考訳) カメラ画像からテキストを認識することは、様々な複雑な背景からテキストを検出するのが困難であることから、既知の難しい問題である。 本稿では,ウェーブレット変換を用いた複雑な背景を持つ画像からテキスト領域を検出する手法を提案する。 このフレームワークは、元の画像をグレースケールでウェーブレット変換し、次にサブバンドフィルタリングする。 次に、各領域のセントロイドを用いて領域クラスタリング手法を適用し、さらに各領域にバウンディングボックスを取り付け、テキスト領域を識別する。 この方法は、テキストの特定のフォントサイズに固執しないため、従来の方法よりもはるかに高度で効率的であり、一般化されている。 実験目的で使用されるサンプルセットは、異なる背景を持つ50の画像で構成されている。 エッジプロミネンスを持つ画像について検討する。 さらに,異なるスコープのアプリケーションに対して,この手法を簡単にカスタマイズできる。

Recognizing texts from camera images is a known hard problem because of the difficulties in text detection from the varied and complicated background. In this paper we propose a novel and efficient method to detect text region from images with complex background using Wavelet Transforms. The framework uses Wavelet Transformation of the original image in its grayscale form followed by Sub-band filtering. Then Region clustering technique is applied using centroids of the regions, further Bounding box is fitted to each region thus identifying the text regions. This method is much sophisticated and efficient than the previous methods as it doesn't stick to a particular font size of the text thus, making it generalized. The sample set used for experimental purpose consists of 50 images with varying backgrounds. Images with edge prominence are considered. Furthermore, our method can be easily customized for applications with different scopes.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 言語モデルシリーズによる科学の進化の理解に向けて

Towards understanding evolution of science through language model series ( http://arxiv.org/abs/2409.09636v1 )

ライセンス: Link先を確認
Junjie Dong, Zhuoqi Lyu, Qing Ke, (参考訳) 本稿では,科学的テキストの時間的進化を捉えるための言語モデルであるAnunalBERTを紹介する。 サブワードのトークン化や「全てを支配するための一つのモデル」という一般的なパラダイムから逸脱したYearnerBERTは、全単語をトークンとして採用し、2008年まで発行された170万のarXiv論文の全文をスクラッチから事前訓練したRoBERTaモデルと、年次ベースでのarXiv論文の漸進的に訓練されたモデルのコレクションで構成されている。 本研究では、標準タスクに匹敵する性能を持つだけでなく、ドメイン固有のNLPタスクにおける最先端のパフォーマンスと、arXiv引用ネットワークにおけるリンク予測タスクを達成できることを示すことで、YearnerBERTモデルの有効性を実証する。 次に、探索タスクを利用してモデルの振る舞いを表現学習の観点で定量化し、時間が進むにつれて忘れる。 我々のアプローチは,事前学習したモデルが科学的テキスト処理タスクの性能を向上させるだけでなく,時間とともに科学的談話の発達に関する洞察を与えることを可能にする。 一連のモデルはhttps://huggingface.co/jd445/AnnualBERTsで入手できる。

We introduce AnnualBERT, a series of language models designed specifically to capture the temporal evolution of scientific text. Deviating from the prevailing paradigms of subword tokenizations and "one model to rule them all", AnnualBERT adopts whole words as tokens and is composed of a base RoBERTa model pretrained from scratch on the full-text of 1.7 million arXiv papers published until 2008 and a collection of progressively trained models on arXiv papers at an annual basis. We demonstrate the effectiveness of AnnualBERT models by showing that they not only have comparable performances in standard tasks but also achieve state-of-the-art performances on domain-specific NLP tasks as well as link prediction tasks in the arXiv citation network. We then utilize probing tasks to quantify the models' behavior in terms of representation learning and forgetting as time progresses. Our approach enables the pretrained models to not only improve performances on scientific text processing tasks but also to provide insights into the development of scientific discourse over time. The series of the models is available at https://huggingface.co/jd445/AnnualBERTs.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# AACessTalk: 文脈指導とカード勧告による最小言語自閉症児と親とのコミュニケーションの育成

AACessTalk: Fostering Communication between Minimally Verbal Autistic Children and Parents with Contextual Guidance and Card Recommendation ( http://arxiv.org/abs/2409.09641v1 )

ライセンス: Link先を確認
Dasom Choi, SoHyun Park, Kyungah Lee, Hwajung Hong, Young-Ho Kim, (参考訳) MVA(Minimumly verbal autistic)の子供たちは、言葉や非言語で親とコミュニケーションをとるため、親はしばしば子供たちに微妙な感情やニーズを表現させ、そのニュアンスなシグナルをつかむように促すことに苦労する。 AACessTalkはタブレットベースのAIによるコミュニケーションシステムで、MVAの子供と親との有意義な交流を促進する。 AACessTalkは、親が会話で子供と会話するためのリアルタイムガイドを提供し、その結果、子供に文脈的な語彙カードを推奨する。 11のMVA子育てダイドを用いた2週間の展開調査を通じて,AACessTalkが日常会話の実践と相互関与をいかに促進するかを検討した。 以上の結果から,すべてのダイアドから高いエンゲージメントが得られ,会話やターンテイクの頻度が増大した。 AACessTalkはまた、両親に自身の相互作用戦略を探求するよう促し、子供たちにコミュニケーションにより多くのエージェンシーを持つことを奨励した。 親-MVA子間相互作用におけるバランスの取れたコミュニケーションダイナミクスのための設計技術の重要性について論じる。

As minimally verbal autistic (MVA) children communicate with parents through few words and nonverbal cues, parents often struggle to encourage their children to express subtle emotions and needs and to grasp their nuanced signals. We present AACessTalk, a tablet-based, AI-mediated communication system that facilitates meaningful exchanges between an MVA child and a parent. AACessTalk provides real-time guides to the parent to engage the child in conversation and, in turn, recommends contextual vocabulary cards to the child. Through a two-week deployment study with 11 MVA child-parent dyads, we examine how AACessTalk fosters everyday conversation practice and mutual engagement. Our findings show high engagement from all dyads, leading to increased frequency of conversation and turn-taking. AACessTalk also encouraged parents to explore their own interaction strategies and empowered the children to have more agency in communication. We discuss the implications of designing technologies for balanced communication dynamics in parent-MVA child interaction.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 抽出と拡散: 拡散に基づく音声改善と音声強調のための潜時統合

Extract and Diffuse: Latent Integration for Improved Diffusion-based Speech and Vocal Enhancement ( http://arxiv.org/abs/2409.09642v1 )

ライセンス: Link先を確認
Yudong Yang, Zhan Liu, Wenyi Yu, Guangzhi Sun, Qiuqiang Kong, Chao Zhang, (参考訳) 拡散に基づく生成モデルは最近、複雑な音声データ分布をモデル化する能力により、音声と声の強調において顕著な成果を上げている。 これらのモデルは、目に見えない音響環境によく一般化するが、特定の音響条件を改善するために特別に訓練された識別モデルと同等の忠実度を達成できない可能性がある。 本稿では,識別モデルが生み出す潜在表現を統合した新しいスコアベース拡散モデルであるEx-Diffを提案する。 MUSDBデータセットを用いた実験結果から,SI-SDRが3.7%,SI-SIRが10.0%向上した。 さらに、ケーススタディは、この文脈における生成的および識別的モデルの相補的な性質を更に説明し、分析するために提供される。

Diffusion-based generative models have recently achieved remarkable results in speech and vocal enhancement due to their ability to model complex speech data distributions. While these models generalize well to unseen acoustic environments, they may not achieve the same level of fidelity as the discriminative models specifically trained to enhance particular acoustic conditions. In this paper, we propose Ex-Diff, a novel score-based diffusion model that integrates the latent representations produced by a discriminative model to improve speech and vocal enhancement, which combines the strengths of both generative and discriminative models. Experimental results on the widely used MUSDB dataset show relative improvements of 3.7% in SI-SDR and 10.0% in SI-SIR compared to the baseline diffusion model for speech and vocal enhancement tasks, respectively. Additionally, case studies are provided to further illustrate and analyze the complementary nature of generative and discriminative models in this context.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# COSCO: 多変量時系列分類のためのシャープネス対応学習フレームワーク

COSCO: A Sharpness-Aware Training Framework for Few-shot Multivariate Time Series Classification ( http://arxiv.org/abs/2409.09645v1 )

ライセンス: Link先を確認
Jesus Barreda, Ashley Gomez, Ruben Puga, Kaixiong Zhou, Li Zhang, (参考訳) 多変量時系列分類は、広範囲にわたるアプリケーション領域において重要な課題である。 近年,ディープニューラルネットワーク (DNN) は時系列分類において最先端の性能を実現している。 しかし、実際には実現不可能な、大規模なエキスパートラベル付きトレーニングデータセットを必要とする場合が多い。 数ショット設定、すなわち、トレーニングデータではクラス毎のサンプル数が限られているため、DNNはテスト精度と一般化能力の低下を顕著に示している。 本稿では,これらの問題に最適化と損失関数の観点から対処することを提案する。 具体的には,多変量時系列分類問題に対する多変量時系列分類問題の一般化能力を向上させるために,シャープネス認識最小化(SAM)最適化とプロトタイプ損失関数からなるCOSCOという新しい学習フレームワークを提案する。 本研究では,提案手法が既存のベースライン法より優れていることを示す。 ソースコードは、https://github.com/JRB9/COSCO.comで公開されています。

Multivariate time series classification is an important task with widespread domains of applications. Recently, deep neural networks (DNN) have achieved state-of-the-art performance in time series classification. However, they often require large expert-labeled training datasets which can be infeasible in practice. In few-shot settings, i.e. only a limited number of samples per class are available in training data, DNNs show a significant drop in testing accuracy and poor generalization ability. In this paper, we propose to address these problems from an optimization and a loss function perspective. Specifically, we propose a new learning framework named COSCO consisting of a sharpness-aware minimization (SAM) optimization and a Prototypical loss function to improve the generalization ability of DNN for multivariate time series classification problems under few-shot setting. Our experiments demonstrate our proposed method outperforms the existing baseline methods. Our source code is available at: https://github.com/JRB9/COSCO.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 音声セグメンテーションのための自己教師付き表現付き簡易HMM

A Simple HMM with Self-Supervised Representations for Phone Segmentation ( http://arxiv.org/abs/2409.09646v1 )

ライセンス: Link先を確認
Gene-Ping Yang, Hao Tang, (参考訳) 近年の自己教師型表現の進歩にもかかわらず、教師なし音声のセグメンテーションは依然として困難である。 殆どのアプローチは、自己教師付き学習による音声表現の改善に重点を置いており、改善が音節分割に移行できることを期待している。 本稿では,近年のアプローチとは対照的に,メルスペクトルのピーク検出は,多くの自己監督的手法よりも強いベースラインであることを示す。 そこで本研究では,携帯電話のセグメンテーションのための境界における自己教師付き表現と特徴を用いた隠れマルコフモデルを提案する。 提案手法は, 従来手法よりも一貫した改良を図り, 汎用設計への適応を可能にする一般化された定式化を行った。

Despite the recent advance in self-supervised representations, unsupervised phonetic segmentation remains challenging. Most approaches focus on improving phonetic representations with self-supervised learning, with the hope that the improvement can transfer to phonetic segmentation. In this paper, contrary to recent approaches, we show that peak detection on Mel spectrograms is a strong baseline, better than many self-supervised approaches. Based on this finding, we propose a simple hidden Markov model that uses self-supervised representations and features at the boundaries for phone segmentation. Our results demonstrate consistent improvements over previous approaches, with a generalized formulation allowing versatile design adaptations.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# 音響ファウショット分類のための自己教師型学習

Self-supervised Learning for Acoustic Few-Shot Classification ( http://arxiv.org/abs/2409.09647v1 )

ライセンス: Link先を確認
Jingyong Liang, Bernd Meyer, Issac Ning Lee, Thanh-Toan Do, (参考訳) ラベル付きデータは制限され、自己教師付き学習はラベリング要求を減らすための最も重要なアプローチの1つである。 画像領域で広く研究されているが、これまで音響領域ではあまり注目されていない。 しかし、多くの音響応用においてラベリングの低減が重要な要件である。 特にバイオ音響学では、完全に教師付き学習ができる十分なラベルはめったにない。 これにより、非関連データに基づいてバイオアコースティックなタスクを事前訓練した音響認識器が広く使われるようになった。 実際のタスクデータに基づくトレーニングと,自己指導型事前学習と数発の分類を組み合わせることは,ラベルが数個しか存在しない場合でも高い精度を達成できる優れたアプローチであると仮定する。 そこで我々は,CNNに基づく事前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入,評価する。 この組み合わせの動機は、CNNベースのネットワークだけで時間的情報を効果的に捉えるのに苦労しているという事実にある。 一方、SSM、特にS4とMambaは、シーケンスデータの長距離依存関係をキャプチャする優れた能力を持っていることが示されている。 実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。 提案アーキテクチャの性能を,標準ベンチマークと実世界のデータに基づいて,$n$-shot,$n$-class)分類で評価した。 本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。

Labelled data are limited and self-supervised learning is one of the most important approaches for reducing labelling requirements. While it has been extensively explored in the image domain, it has so far not received the same amount of attention in the acoustic domain. Yet, reducing labelling is a key requirement for many acoustic applications. Specifically in bioacoustic, there are rarely sufficient labels for fully supervised learning available. This has led to the widespread use of acoustic recognisers that have been pre-trained on unrelated data for bioacoustic tasks. We posit that training on the actual task data and combining self-supervised pre-training with few-shot classification is a superior approach that has the ability to deliver high accuracy even when only a few labels are available. To this end, we introduce and evaluate a new architecture that combines CNN-based preprocessing with feature extraction based on state space models (SSMs). This combination is motivated by the fact that CNN-based networks alone struggle to capture temporal information effectively, which is crucial for classifying acoustic signals. SSMs, specifically S4 and Mamba, on the other hand, have been shown to have an excellent ability to capture long-range dependencies in sequence data. We pre-train this architecture using contrastive learning on the actual task data and subsequent fine-tuning with an extremely small amount of labelled data. We evaluate the performance of this proposed architecture for ($n$-shot, $n$-class) classification on standard benchmarks as well as real-world data. Our evaluation shows that it outperforms state-of-the-art architectures on the few-shot classification problem.
翻訳日:2024-09-17 19:58:08 公開日:2024-09-15
# SparX:階層型視覚マンバとトランスフォーマーネットワークのためのスパースクロスレイア接続機構

SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks ( http://arxiv.org/abs/2409.09649v1 )

ライセンス: Link先を確認
Meng Lou, Yunxiang Fu, Yizhou Yu, (参考訳) 動的状態空間モデル(SSM)が線形に近い計算複雑性で長距離依存関係をキャプチャする能力のため、MambaはNLPタスクにおいて顕著な性能を示した。 これは、マンバをベースとした視覚モデルが急速に発展し、視覚認識タスクに有望な結果をもたらした。 しかし、このようなモデルでは、特徴集約、相互作用、選択を通じて層間の特徴を蒸留することはできない。 さらに,CNN や ViT 向けに設計された既存のクロス層機能集約手法は,計算コストが高いため,マンバベースモデルでは実用的ではない。 そこで本研究では,マンバをベースとしたビジョンバックボーンネットワークにおいて,効率的なクロスレイヤ機能集約機構を導入することを目的とする。 ヒト視覚系における網膜ガングリオン細胞(RGC)にインスパイアされ、SparXと呼ばれる新しい疎層接続機構を提案し、層間機能相互作用と再利用を効果的に改善する。 具体的には、ガングリオン層と通常の層という、2つの異なるタイプのネットワーク層を構築します。 前者は接続性と複雑さが高く、入力依存の方法で多層機能アグリゲーションと相互作用を可能にする。 対照的に、後者は接続性や複雑さが低い。 これら2種類の層をインターリーブすることにより、モデルサイズ、計算コスト、メモリコスト、精度に優れたトレードオフを達成できる、疎結合層を有する新しいビジョンバックボーンネットワークを設計する。 例えば、パラメータが少ない場合、SparX-Mamba-TはVMamba-Tのトップ1の精度を82.5%から83.5%に改善し、SparX-Swin-TはSwin-Tと比較してトップ1の精度を1.3%向上させる。 我々の新しい接続機構は、様々な視覚タスクにおいて優れた性能と一般化能力を持つことを示した。

Due to the capability of dynamic state space models (SSMs) in capturing long-range dependencies with near-linear computational complexity, Mamba has shown notable performance in NLP tasks. This has inspired the rapid development of Mamba-based vision models, resulting in promising results in visual recognition tasks. However, such models are not capable of distilling features across layers through feature aggregation, interaction, and selection. Moreover, existing cross-layer feature aggregation methods designed for CNNs or ViTs are not practical in Mamba-based models due to high computational costs. Therefore, this paper aims to introduce an efficient cross-layer feature aggregation mechanism for Mamba-based vision backbone networks. Inspired by the Retinal Ganglion Cells (RGCs) in the human visual system, we propose a new sparse cross-layer connection mechanism termed SparX to effectively improve cross-layer feature interaction and reuse. Specifically, we build two different types of network layers: ganglion layers and normal layers. The former has higher connectivity and complexity, enabling multi-layer feature aggregation and interaction in an input-dependent manner. In contrast, the latter has lower connectivity and complexity. By interleaving these two types of layers, we design a new vision backbone network with sparsely cross-connected layers, achieving an excellent trade-off among model size, computational cost, memory cost, and accuracy in comparison to its counterparts. For instance, with fewer parameters, SparX-Mamba-T improves the top-1 accuracy of VMamba-T from 82.5% to 83.5%, while SparX-Swin-T achieves a 1.3% increase in top-1 accuracy compared to Swin-T. Extensive experimental results demonstrate that our new connection mechanism possesses both superior performance and generalization capabilities on various vision tasks.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 生成拡散モデルにおける条件付きサンプリング

Conditional sampling within generative diffusion models ( http://arxiv.org/abs/2409.09650v1 )

ライセンス: Link先を確認
Zheng Zhao, Ziwei Luo, Jens Sjölund, Thomas B. Schön, (参考訳) 生成拡散は、マルコフ過程を利用して、画像処理や言語モデルに見られるような複雑な高次元分布を近似するモンテカルロサンプリングの強力なクラスである。 これらの領域での成功にもかかわらず、重要なオープンな課題は、例えばベイズ逆問題において要求される条件分布からこれらのテクニックをサンプルに拡張することである。 本稿では,生成拡散モデルにおける条件付きサンプリングに対する既存の計算手法について概説する。 具体的には,共同分布を利用するか,あるいは条件付き生成標本を作成するために,明示的な可能性を持った(事前学習された)境界分布に依存する重要な手法を強調した。

Generative diffusions are a powerful class of Monte Carlo samplers that leverage bridging Markov processes to approximate complex, high-dimensional distributions, such as those found in image processing and language models. Despite their success in these domains, an important open challenge remains: extending these techniques to sample from conditional distributions, as required in, for example, Bayesian inverse problems. In this paper, we present a comprehensive review of existing computational approaches to conditional sampling within generative diffusion models. Specifically, we highlight key methodologies that either utilise the joint distribution, or rely on (pre-trained) marginal distributions with explicit likelihoods, to construct conditional generative samplers.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 大規模言語モデルにおけるジェンダーバイアスの解消--高等教育における教師の評価を例として

Unveiling Gender Bias in Large Language Models: Using Teacher's Evaluation in Higher Education As an Example ( http://arxiv.org/abs/2409.09652v1 )

ライセンス: Link先を確認
Yuanning Huang, (参考訳) 本稿では,大規模言語モデル(LLM)による高等教育環境における教師評価におけるジェンダーバイアスについて検討し,GPT-4による6学年における評価に着目した。 Odds Ratio (OR) 分析, Word Embedding Association Test (WEAT) , 感情分析, 文脈分析を含む包括的分析フレームワークを適用することにより, 社会的ステレオタイプを反映するジェンダー関連言語のパターンを明らかにした。 特に、女性インストラクターには親しみやすさや支援に関する言葉が頻繁に用いられ、男性インストラクターにはエンターテイメントに関する言葉が主に用いられ、共同行動やエージェント行動の概念と一致していた。 また、この研究は男性の有能な形容詞と男性の名前の間に中程度から強い関連性があることも見出したが、キャリアと家族の言葉は明らかに性別の偏見を捉えていない。 これらの知見は、社会規範やステレオタイプに関する先行研究と一致し、LLM生成したテキストが既存のバイアスを反映するという考えを強めた。

This paper investigates gender bias in Large Language Model (LLM)-generated teacher evaluations in higher education setting, focusing on evaluations produced by GPT-4 across six academic subjects. By applying a comprehensive analytical framework that includes Odds Ratio (OR) analysis, Word Embedding Association Test (WEAT), sentiment analysis, and contextual analysis, this paper identified patterns of gender-associated language reflecting societal stereotypes. Specifically, words related to approachability and support were used more frequently for female instructors, while words related to entertainment were predominantly used for male instructors, aligning with the concepts of communal and agentic behaviors. The study also found moderate to strong associations between male salient adjectives and male names, though career and family words did not distinctly capture gender biases. These findings align with prior research on societal norms and stereotypes, reinforcing the notion that LLM-generated text reflects existing biases.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# オフライン強化学習のためのKA v. S. MLP

KAN v.s. MLP for Offline Reinforcement Learning ( http://arxiv.org/abs/2409.09653v1 )

ライセンス: Link先を確認
Haihong Guo, Fengxin Li, Jiao Li, Hongyan Liu, (参考訳) Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。 KanがMLP(Multi-Layer Perceptions)の有望な代替品になるかどうか、研究コミュニティに大きな関心を寄せている。 様々な分野の実験により、KANSAベースの機械学習は、MLPベースの手法よりも優れた性能を達成できるが、パラメータのスケールがはるかに小さく、より説明しやすいことを実証した。 本稿では,オフライン強化学習(RL)のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。 オフラインRLのための古典的D4RLベンチマークを用いて,様々なkanおよびMLPに基づく保守的Q-ラーニング(CQL)の性能,パラメータスケール,トレーニング効率を評価した。 本研究により,KAN はパラメータが大幅に少ない MLP に近い性能が得られることを示す。 これにより、オフラインのRLタスクの要求に応じてベースネットワークを選択するオプションが提供されます。

Kolmogorov-Arnold Networks (KAN) is an emerging neural network architecture in machine learning. It has greatly interested the research community about whether KAN can be a promising alternative of the commonly used Multi-Layer Perceptions (MLP). Experiments in various fields demonstrated that KAN-based machine learning can achieve comparable if not better performance than MLP-based methods, but with much smaller parameter scales and are more explainable. In this paper, we explore the incorporation of KAN into the actor and critic networks for offline reinforcement learning (RL). We evaluated the performance, parameter scales, and training efficiency of various KAN and MLP based conservative Q-learning (CQL) on the the classical D4RL benchmark for offline RL. Our study demonstrates that KAN can achieve performance close to the commonly used MLP with significantly fewer parameters. This provides us an option to choose the base networks according to the requirements of the offline RL tasks.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 運動の量子論による波動関数の重力還元

Gravitational reduction of the wave function through the quantum theory of motion ( http://arxiv.org/abs/2409.09655v1 )

ライセンス: Link先を確認
Faramarz Rahmani, (参考訳) 波動関数の重力低減のためのボヘミア軌道に基づく新しい視点を提供する。 点粒子と物体の両方の量子運動は、その構成空間における系の確率分布に関連する量子力と重力力の存在下で研究される。 この文脈で様々な動きについて論じる。 粒子や物体の力学を研究することにより、量子世界から古典世界への遷移の臨界量を特定する。 さらに、波動関数の還元時間は、粒子や物体の動力学を用いて定義される。 本手法は, 直感的かつ簡単な方法で, 関連概念を表現することを目的としている。

A new perspective based on Bohmian trajectories is provided for the gravitational reduction of the wave function. The quantum motion of both a point particle and an object is investigated in the presence of quantum and gravitational forces, which are related to the probability distribution of the system in its configuration space. We discuss different regimes of motion in this context. By studying the dynamics of a particle or an object, we identify the critical quantities for the transition from the quantum world to the classical world. Furthermore, the reduction time of the wave function is defined using the dynamics of the particle or object. In this method, we aim to express related concepts in an intuitive and simple way.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# ネイティブ言語識別のためのオープンソースの大規模言語モデルの活用

Leveraging Open-Source Large Language Models for Native Language Identification ( http://arxiv.org/abs/2409.09659v1 )

ライセンス: Link先を確認
Yee Man Ng, Ilia Markov, (参考訳) ネイティブ言語識別(NLI) - 第二言語(L2)で記述した人物のネイティブ言語(L1)を識別するタスク。 歴史的に、機能工学に大きく依存する従来の機械学習アプローチは、このタスクにおいてトランスフォーマーベースの言語モデルよりも優れています。 近年,オープンソース生成型大規模言語モデル(LLMs, GPT-4)は,オープンセット分類における有望な結果を含むゼロショット設定において,NLIに対して顕著な性能を示した。 しかし、クローズドソース LLM には、高コストや訓練データの非開示性など、多くの欠点がある。 本研究では,NLI にオープンソース LLM を適用する可能性について検討する。 この結果から,オープンソース LLM は,アウト・オブ・ザ・ボックスで使用する場合,クローズドソース LLM の精度レベルに達しないことが示唆された。 しかし、ラベル付きトレーニングデータに微調整を施すと、オープンソースのLLMは商用のLLMに匹敵する性能を達成できる。

Native Language Identification (NLI) - the task of identifying the native language (L1) of a person based on their writing in the second language (L2) - has applications in forensics, marketing, and second language acquisition. Historically, conventional machine learning approaches that heavily rely on extensive feature engineering have outperformed transformer-based language models on this task. Recently, closed-source generative large language models (LLMs), e.g., GPT-4, have demonstrated remarkable performance on NLI in a zero-shot setting, including promising results in open-set classification. However, closed-source LLMs have many disadvantages, such as high costs and undisclosed nature of training data. This study explores the potential of using open-source LLMs for NLI. Our results indicate that open-source LLMs do not reach the accuracy levels of closed-source LLMs when used out-of-the-box. However, when fine-tuned on labeled training data, open-source LLMs can achieve performance comparable to that of commercial LLMs.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# ContractTinker: LLMを利用した実世界のスマートコントラクトの脆弱性修復

ContractTinker: LLM-Empowered Vulnerability Repair for Real-World Smart Contracts ( http://arxiv.org/abs/2409.09661v1 )

ライセンス: Link先を確認
Che Wang, Jiashuo Zhang, Jianbo Gao, Libin Xia, Zhi Guan, Zhong Chen, (参考訳) スマートコントラクトは、特に現実世界の脆弱性に直面している場合、攻撃者によって悪用される可能性がある。 このリスクを軽減するため、開発者はプロジェクトのデプロイ前に潜在的な脆弱性を特定するために、サードパーティの監査サービスに依存することが多い。 それでも、特定された脆弱性の修復はまだ複雑で、特にセキュリティの専門性に欠ける開発者にとっては、労働集約的だ。 さらに、既存のパターンベースの修復ツールは、高レベルのセマンティック理解が欠如しているために、現実世界の脆弱性に対処できないことが多い。 このギャップを埋めるために,我々は,LLM(Large Language Models)を組み込んだ実世界の脆弱性修復ツールであるContractTinkerを提案する。 重要な洞察は、生成タスク全体をサブタスクに分割するChain-of-Thoughtアプローチの採用です。 さらに,幻覚を減らすため,プログラム静的解析を統合してLCMを誘導する。 リスクの高い脆弱性48件について,ContractTinkerを評価した。 実験の結果、ContractTinkerが生成したパッチのうち、23(48%)が脆弱性を修正する有効なパッチであり、10(21%)は小さな修正のみを必要とすることがわかった。 ContractTinkerのビデオはhttps://youtu.be/HWFVi-YHcPEで公開されている。

Smart contracts are susceptible to being exploited by attackers, especially when facing real-world vulnerabilities. To mitigate this risk, developers often rely on third-party audit services to identify potential vulnerabilities before project deployment. Nevertheless, repairing the identified vulnerabilities is still complex and labor-intensive, particularly for developers lacking security expertise. Moreover, existing pattern-based repair tools mostly fail to address real-world vulnerabilities due to their lack of high-level semantic understanding. To fill this gap, we propose ContractTinker, a Large Language Models (LLMs)-empowered tool for real-world vulnerability repair. The key insight is our adoption of the Chain-of-Thought approach to break down the entire generation task into sub-tasks. Additionally, to reduce hallucination, we integrate program static analysis to guide the LLM. We evaluate ContractTinker on 48 high-risk vulnerabilities. The experimental results show that among the patches generated by ContractTinker, 23 (48%) are valid patches that fix the vulnerabilities, while 10 (21%) require only minor modifications. A video of ContractTinker is available at https://youtu.be/HWFVi-YHcPE.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# ExploreSelf: 大規模言語モデルによる適応的ガイダンスによる個人的課題に対するユーザ主導の探索と考察

ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language Models ( http://arxiv.org/abs/2409.09662v1 )

ライセンス: Link先を確認
Inhwa Song, SoHyun Park, Sachin R. Pendse, Jessica Lee Schleider, Munmun De Choudhury, Young-Ho Kim, (参考訳) 言葉でストレスに満ちた経験を表現することは精神的および身体的健康を改善することが証明されているが、個人は思考や感情を組織化するのに苦慮しているため、しばしば文章の介入に悩まされる。 リフレクティブプロンプトは方向を提供するために使われており、大きな言語モデル(LLM)は、調整されたガイダンスを提供する可能性を実証している。 現在のシステムでは、リフレクションを指示する柔軟性を制限していることが多い。 そこで我々は,LLM駆動型アプリケーションであるExploreSelfを紹介した。 ExploreSelfを使えば、動的に生成された質問を通じて適応的なサポートを受けられる。 参加者19名を対象にした探索的研究を通じて,探索セフを用いた個人的課題の探索と考察について検討した。 以上の結果から,参加者は指導的支援と行動の自由のバランスを重んじ,より深いエンゲージメントと洞察に繋がったことが示唆された。 本研究は, ユーザエンパワーメントを効果的に促進するLCM駆動型ツールの設計の意義を考察する。

Expressing stressful experiences in words is proven to improve mental and physical health, but individuals often disengage with writing interventions as they struggle to organize their thoughts and emotions. Reflective prompts have been used to provide direction, and large language models (LLMs) have demonstrated the potential to provide tailored guidance. Current systems often limit users' flexibility to direct their reflections. We thus present ExploreSelf, an LLM-driven application designed to empower users to control their reflective journey. ExploreSelf allows users to receive adaptive support through dynamically generated questions. Through an exploratory study with 19 participants, we examine how participants explore and reflect on personal challenges using ExploreSelf. Our findings demonstrate that participants valued the balance between guided support and freedom to control their reflective journey, leading to deeper engagement and insight. Building on our findings, we discuss implications for designing LLM-driven tools that promote user empowerment through effective reflective practices.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# EditBoard:テキストベースのビデオ編集モデルの総合的評価ベンチマークを目指して

EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models ( http://arxiv.org/abs/2409.09668v1 )

ライセンス: Link先を確認
Yupeng Chen, Penglin Chen, Xiaoyu Zhang, Yixian Huang, Qian Xie, (参考訳) 拡散モデルの急速な開発は、特にテキスト・トゥ・イメージ(T2I)とテキスト・トゥ・ビデオ(T2V)生成において、AIGC(AIGC)が著しく進歩している。 これらの生成機能を活用するテキストベースのビデオ編集は、テキストプロンプトに基づくビデオの正確な修正を可能にする、有望な分野として登場した。 革新的なビデオ編集モデルの普及にもかかわらず、これらのモデルの性能を様々な次元にわたって総合的に評価する総合的な評価ベンチマークの欠如が顕著である。 既存の評価は限定的で一貫性がなく、通常、全体のパフォーマンスを単一のスコアで要約する。 このギャップに対処するため,テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。 EditBoardには、4つのディメンションにまたがる9つの自動メトリクスが含まれ、4つのタスクカテゴリのモデルを評価し、3つの新しいメトリクスを導入して忠実さを評価する。 このタスク指向ベンチマークは、モデルパフォーマンスを詳述し、各モデルの強みと弱みに関する洞察を提供することにより、客観的評価を促進する。 EditBoardをオープンソース化することで、評価を標準化し、ロバストなビデオ編集モデルの開発を進めることを目指している。

The rapid development of diffusion models has significantly advanced AI-generated content (AIGC), particularly in Text-to-Image (T2I) and Text-to-Video (T2V) generation. Text-based video editing, leveraging these generative capabilities, has emerged as a promising field, enabling precise modifications to videos based on text prompts. Despite the proliferation of innovative video editing models, there is a conspicuous lack of comprehensive evaluation benchmarks that holistically assess these models' performance across various dimensions. Existing evaluations are limited and inconsistent, typically summarizing overall performance with a single score, which obscures models' effectiveness on individual editing tasks. To address this gap, we propose EditBoard, the first comprehensive evaluation benchmark for text-based video editing models. EditBoard encompasses nine automatic metrics across four dimensions, evaluating models on four task categories and introducing three new metrics to assess fidelity. This task-oriented benchmark facilitates objective evaluation by detailing model performance and providing insights into each model's strengths and weaknesses. By open-sourcing EditBoard, we aim to standardize evaluation and advance the development of robust video editing models.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 空間スペクトルマニフォールド学習を用いた深部タッカー分解ネットワークに基づく教師なしハイパースペクトル・マルチスペクトル画像ブラインド融合

Unsupervised Hyperspectral and Multispectral Image Blind Fusion Based on Deep Tucker Decomposition Network with Spatial-Spectral Manifold Learning ( http://arxiv.org/abs/2409.09670v1 )

ライセンス: Link先を確認
He Wang, Yang Xu, Zebin Wu, Zhihui Wei, (参考訳) 高分解能マルチスペクトル画像(HR-MSI)と低分解能ハイパースペクトル画像(LR-HSI)を融合させて高スペクトル・空間分解能ハイパースペクトル画像(HR-HSI)を生成することを目的としている。 しかし、既存の融合法では、未知の劣化パラメータ、高次元構造と深部画像の特徴との相関の不完全な利用といった課題に直面している。 本稿では,タッカー分解と空間スペクトル多様体学習(DTDNML)に基づくハイパースペクトル・マルチスペクトル画像の教師なしブラインド融合法を提案する。 我々は、LR-HSIとHR-MSIを一貫した特徴空間にマッピングし、共有パラメータを持つデコーダによる再構成を実現する、新しいディープタッカー分解ネットワークを設計する。 データ中の空間スペクトルの特徴をよりうまく活用し、融合するために、異なるスケールで特徴を整列・融合するための空間スペクトル注意機構を組み込んだコアテンソル融合ネットワークを設計する。 さらに,グローバルな情報の取得能力を高めるために,共有デコーダにラプラシアン系空間スペクトル多様体制約を導入する。 この手法がリモートセンシングデータセットにおけるハイパースペクトルとマルチスペクトル融合の精度と効率を向上させることが、十分な実験によって検証されている。 ソースコードはhttps://github.com/Shawn-H-Wang/DTDNMLで入手できる。

Hyperspectral and multispectral image fusion aims to generate high spectral and spatial resolution hyperspectral images (HR-HSI) by fusing high-resolution multispectral images (HR-MSI) and low-resolution hyperspectral images (LR-HSI). However, existing fusion methods encounter challenges such as unknown degradation parameters, incomplete exploitation of the correlation between high-dimensional structures and deep image features. To overcome these issues, in this article, an unsupervised blind fusion method for hyperspectral and multispectral images based on Tucker decomposition and spatial spectral manifold learning (DTDNML) is proposed. We design a novel deep Tucker decomposition network that maps LR-HSI and HR-MSI into a consistent feature space, achieving reconstruction through decoders with shared parameter. To better exploit and fuse spatial-spectral features in the data, we design a core tensor fusion network that incorporates a spatial spectral attention mechanism for aligning and fusing features at different scales. Furthermore, to enhance the capacity in capturing global information, a Laplacian-based spatial-spectral manifold constraints is introduced in shared-decoders. Sufficient experiments have validated that this method enhances the accuracy and efficiency of hyperspectral and multispectral fusion on different remote sensing datasets. The source code is available at https://github.com/Shawn-H-Wang/DTDNML.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 衛星画像時系列に基づく作物分類用SITSMamba

SITSMamba for Crop Classification based on Satellite Image Time Series ( http://arxiv.org/abs/2409.09673v1 )

ライセンス: Link先を確認
Xiaolei Qin, Xin Su, Liangpei Zhang, (参考訳) 衛星画像時系列データ(SITS)は、季節や年を通して植生の変化や成長パターンを追跡することができる。 SITSを作物分類に用いた多くのディープラーニング(DL)アプローチが最近出現し、最新のアプローチではSITS分類にTransformerを採用している。 しかし、Transformerにおける自己注意の二次的な複雑さは、時系列の分類に挑戦する。 最先端のMambaアーキテクチャは、リモートセンシング画像解釈など様々な領域で強みを示してきたが、SITSデータの時間的表現を学習する能力は未解明のままである。 さらに、既存のSITS分類法は、時間情報の完全活用に失敗する監視信号として、作物ラベルにのみ依存することが多い。 本稿では,リモートセンシング時系列データに基づく作物分類のための衛星画像時系列マンバ(SITSMamba)手法を提案する。 提案したSITSMambaは、畳み込みニューラルネットワーク(CNN)に基づく空間エンコーダと、マンバに基づく時間エンコーダを含む。 SITSからのより豊かな時間情報を活用するために、異なるタスクに使用するデコーダの2つのブランチを設計する。 最初のブランチは、作物分類ブランチ(CBranch)で、作物マップに機能をデコードするConvBlockを含んでいる。 第2のブランチはSITSレコンストラクションブランチで、線形層を使用してエンコードされた特徴を変換し、元の入力値を予測する。 さらに、RBranchに適用された位置重み(PW)を設計し、SITSからリッチ潜在知識の学習を支援する。 また、トレーニング中に2つの枝のバランスを制御するために2つの重み付け因子を設計する。 SITSMambaのコードは、https://github.com/XiaoleiQinn/SITSMambaで公開されている。

Satellite image time series (SITS) data provides continuous observations over time, allowing for the tracking of vegetation changes and growth patterns throughout the seasons and years. Numerous deep learning (DL) approaches using SITS for crop classification have emerged recently, with the latest approaches adopting Transformer for SITS classification. However, the quadratic complexity of self-attention in Transformer poses challenges for classifying long time series. While the cutting-edge Mamba architecture has demonstrated strength in various domains, including remote sensing image interpretation, its capacity to learn temporal representations in SITS data remains unexplored. Moreover, the existing SITS classification methods often depend solely on crop labels as supervision signals, which fails to fully exploit the temporal information. In this paper, we proposed a Satellite Image Time Series Mamba (SITSMamba) method for crop classification based on remote sensing time series data. The proposed SITSMamba contains a spatial encoder based on Convolutional Neural Networks (CNN) and a Mamba-based temporal encoder. To exploit richer temporal information from SITS, we design two branches of decoder used for different tasks. The first branch is a crop Classification Branch (CBranch), which includes a ConvBlock to decode the feature to a crop map. The second branch is a SITS Reconstruction Branch that uses a Linear layer to transform the encoded feature to predict the original input values. Furthermore, we design a Positional Weight (PW) applied to the RBranch to help the model learn rich latent knowledge from SITS. We also design two weighting factors to control the balance of the two branches during training. The code of SITSMamba is available at: https://github.com/XiaoleiQinn/SITSMamba.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# モデルソーティングによるモデル選択

Model Selection Through Model Sorting ( http://arxiv.org/abs/2409.09674v1 )

ライセンス: Link先を確認
Mohammad Ali Hajiani, Babak Seyfe, (参考訳) 本稿では,データの最良のモデルを選択するための新しい手法を提案する。 ネストされたモデルの排他的特性に基づいて、リスク最小化予測器を含む最も類似したモデルを求める。 本研究では, 連続的経験的過剰リスク (SEER) と呼ばれる2つの連続ネストモデルにおける最小経験的リスクの差に基づいて, 確率的近似的(PAC)境界の存在を証明した。 そこで本研究では,ネストした経験的リスク (NER) と呼ばれるモデル順序選択手法を提案する。 モデルをインテリジェントにソートするソートされたNER(S-NER)法により、最小リスクは減少する。 モデルの拡張が最小リスクを減少させるかどうかを予測するテストを構築した。 高い確率で、NERとS-NERは、それぞれリスク最小化予測器を含む真のモデル順序と最も類似したモデルを選択する。 線形回帰において,S-NERモデル選択を用いて,事前情報を持たないS-NER法は,真のモデル順序の事前知識を補助する直交マッチング追従(OMP)のような特徴ソートアルゴリズムの精度より優れていることを示す。 また、UCRデータセットでは、NER法はUCRデータセットの分類の複雑さを劇的に減らし、精度の低下を無視できる。

We propose a novel approach to select the best model of the data. Based on the exclusive properties of the nested models, we find the most parsimonious model containing the risk minimizer predictor. We prove the existence of probable approximately correct (PAC) bounds on the difference of the minimum empirical risk of two successive nested models, called successive empirical excess risk (SEER). Based on these bounds, we propose a model order selection method called nested empirical risk (NER). By the sorted NER (S-NER) method to sort the models intelligently, the minimum risk decreases. We construct a test that predicts whether expanding the model decreases the minimum risk or not. With a high probability, the NER and S-NER choose the true model order and the most parsimonious model containing the risk minimizer predictor, respectively. We use S-NER model selection in the linear regression and show that, the S-NER method without any prior information can outperform the accuracy of feature sorting algorithms like orthogonal matching pursuit (OMP) that aided with prior knowledge of the true model order. Also, in the UCR data set, the NER method reduces the complexity of the classification of UCR datasets dramatically, with a negligible loss of accuracy.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 量子コヒーレンスを用いたガウスチャネルのパラメータ推定の改善

Improving parameters estimation in Gaussian channels using quantum coherence ( http://arxiv.org/abs/2409.09675v1 )

ライセンス: Link先を確認
Jonas F. G. Santos, Carlos H. S. Vieira, Wilder R. Cardoso, (参考訳) ガウス量子チャネルは連続変数系の関連する演算である。 一般に、任意の状態が与えられた場合、量子チャネルが完全に特徴づけられるので、それに対する作用はよく知られている。 本研究では、逆問題、すなわち、量子コヒーレンスを資源とするプローブを用いたチャネルパラメータの推定について考察する。 熱減衰器と熱増幅器の2つのパラダイムボソニックガウスチャネルを処理した。 また,マルコフ浴によるコヒーレンス低下も検討した。 関連するパラメータごとの量子フィッシャー情報を計算し、コヒーレンス量ではなくチャネルパラメータに関するコヒーレンスの変化率によってパラメータ推定ゲインが生成されることを観察した。 最後に、量子フィッシャー情報と相対エントロピーあるいはコヒーレンスとの直接的な関係を求め、原理的にはプローブ系の共分散行列の測定に基づく実験的な実装を可能にする。

Gaussian quantum channels are relevant operations in continuous variable systems. In general, given an arbitrary state, the action on it is well-known provided that the quantum channels are completely characterized. In this work, we consider the inverse problem, i.e., the estimation of channel parameters employing probes in which quantum coherence is used as a resource. Two paradigmatic bosonic Gaussian channels are treated, the thermal attenuator and the thermal amplifier. We also consider the degradation of the coherence due to a Markovian bath. The quantum Fisher information for each relevant parameter is computed and we observed that the rate of change of coherence concerning the channel parameter, rather than the amount of coherence, can produce a parameter estimation gain. Finally, we obtain a direct relation between the quantum Fisher information and the relative entropy or coherence, allowing in principle an experimental implementation based on the measurement of the covariance matrix of the probe system.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 強化学習方式における2次元矩形充填問題における寸法の緩和

Mitigating Dimensionality in 2D Rectangle Packing Problem under Reinforcement Learning Schema ( http://arxiv.org/abs/2409.09677v1 )

ライセンス: Link先を確認
Waldemar Kołodziejczyk, Mariusz Kaleta, (参考訳) 本稿では,2次元矩形パッキング問題に対する強化学習(RL)の適用について検討する。 本研究では,高粒度化を実現する状態空間と行動空間の縮小表現を提案する。 UNetアーキテクチャとPPOを活用することで、MaxRectヒューリスティックに匹敵するモデルを実現しました。 しかし,本手法は非矩形包装問題や複雑な制約に一般化される可能性が大きい。

This paper explores the application of Reinforcement Learning (RL) to the two-dimensional rectangular packing problem. We propose a reduced representation of the state and action spaces that allow us for high granularity. Leveraging UNet architecture and Proximal Policy Optimization (PPO), we achieved a model that is comparable to the MaxRect heuristic. However, our approach has great potential to be generalized to nonrectangular packing problems and complex constraints.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# ダイバーデータモダリティ間の人間活動認識に関する包括的方法論調査

A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities ( http://arxiv.org/abs/2409.09678v1 )

ライセンス: Link先を確認
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1, Satoshi Nishimura, (参考訳) 人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としており、幅広い応用のためにコンピュータビジョンに大きな注目を集めている。 HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。 それぞれのモダリティは、異なるアプリケーションシナリオに適したユニークで補完的な情報を提供します。 その結果、HARに対する様々なアプローチをこれらのモダリティを用いて研究してきた。 本稿では,2014年から2024年にかけてのHARの最新の進歩について,入力データモダリティによって分類された機械学習(ML)とディープラーニング(DL)アプローチに着目した包括的調査を行う。 我々は、単一のモダリティとマルチモダリティの両方のテクニックをレビューし、融合ベースのフレームワークとコラーニングフレームワークを強調した。 さらに,手作りの動作特徴の進歩,人間と物体の相互作用を認識する方法,行動検出について述べる。 我々の調査には、各モードに関する詳細なデータセット記述と、最新のHARシステムの概要が含まれており、ベンチマークデータセットの比較結果を提供している。 最後に、洞察に富んだ観察結果を提供し、HARにおける効果的な今後の研究方向を提案する。

Human Activity Recognition (HAR) systems aim to understand human behaviour and assign a label to each action, attracting significant attention in computer vision due to their wide range of applications. HAR can leverage various data modalities, such as RGB images and video, skeleton, depth, infrared, point cloud, event stream, audio, acceleration, and radar signals. Each modality provides unique and complementary information suited to different application scenarios. Consequently, numerous studies have investigated diverse approaches for HAR using these modalities. This paper presents a comprehensive survey of the latest advancements in HAR from 2014 to 2024, focusing on machine learning (ML) and deep learning (DL) approaches categorized by input data modalities. We review both single-modality and multi-modality techniques, highlighting fusion-based and co-learning frameworks. Additionally, we cover advancements in hand-crafted action features, methods for recognizing human-object interactions, and activity detection. Our survey includes a detailed dataset description for each modality and a summary of the latest HAR systems, offering comparative results on benchmark datasets. Finally, we provide insightful observations and propose effective future research directions in HAR.
翻訳日:2024-09-17 19:48:24 公開日:2024-09-15
# 心エコー図における大動脈狭窄分類のためのコンフォーマル予測を用いた信頼性多視点学習

Reliable Multi-View Learning with Conformal Prediction for Aortic Stenosis Classification in Echocardiography ( http://arxiv.org/abs/2409.09680v1 )

ライセンス: Link先を確認
Ang Nan Gu, Michael Tsang, Hooman Vaseli, Teresa Tsang, Purang Abolmaesumi, (参考訳) 超音波ガイド下診断の根本的な問題は、取得した画像がしばしば3次元解剖学の2次元断面であり、重要な解剖学的詳細を欠いていることである。 この制限は、心臓弁の視認性の低下や心室の予知など、超音波心エコー検査の課題に繋がる。 臨床医は、これらのイメージを固有の不確実性、すなわち機械学習の1ホットラベルに欠落したニュアンスで解釈しなければならない。 トレーニングセット内の弱い情報入力に不確実性を導入するデータ中心の手法であるRe-Training for Uncertainty (RT4U)を提案する。 この単純なアプローチは、既存の最先端の大動脈狭窄分類法に組み込むことで、その精度をさらに向上することができる。 共形予測技術と組み合わせると、RT4Uは、基底真理クラスを含むことが保証される適応的な大きさの予測セットを高精度に得ることができる。 CIFAR-10由来の玩具データセットとともに,公開データセット(TMED-2)とプライベートASデータセットの3つの多様なデータセットに対するRT4Uの有効性を検証した。 結果は、すべてのデータセットの改善を示す。

The fundamental problem with ultrasound-guided diagnosis is that the acquired images are often 2-D cross-sections of a 3-D anatomy, potentially missing important anatomical details. This limitation leads to challenges in ultrasound echocardiography, such as poor visualization of heart valves or foreshortening of ventricles. Clinicians must interpret these images with inherent uncertainty, a nuance absent in machine learning's one-hot labels. We propose Re-Training for Uncertainty (RT4U), a data-centric method to introduce uncertainty to weakly informative inputs in the training set. This simple approach can be incorporated to existing state-of-the-art aortic stenosis classification methods to further improve their accuracy. When combined with conformal prediction techniques, RT4U can yield adaptively sized prediction sets which are guaranteed to contain the ground truth class to a high accuracy. We validate the effectiveness of RT4U on three diverse datasets: a public (TMED-2) and a private AS dataset, along with a CIFAR-10-derived toy dataset. Results show improvement on all the datasets.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# マスク誘導による電子商取引によるオーバーコンプリート低減

E-Commerce Inpainting with Mask Guidance in Controlnet for Reducing Overcompletion ( http://arxiv.org/abs/2409.09681v1 )

ライセンス: Link先を確認
Guandong Li, (参考訳) 電子商取引のイメージ生成は、常にeコマース分野における中核的な需要の1つだ。 目標は、提供されたメインプロダクトにマッチする不足したバックグラウンドを復元することだ。 AIGC時代以降、拡散モデルは主に製品画像の生成に使われ、印象的な結果が得られている。 本稿では,拡散モデル生成における中心的痛点であるオーバーコンプリートを系統的に解析し,対処する。 我々は2つの解決策を提案する。 1. この現象を緩和するために、インスタンスマスクの微調整塗装モデルを使用すること。 2. 改良された製品マスクをメイン製品を生成するためにコントロールネットとUNetを組み合わせる際の制約として組み込んだ無列車マスク誘導アプローチを採用することにより、製品の過度な補完を回避する。 本手法は実用化において有望な成果を上げており,本分野でのインスピレーションとなる技術レポートとして機能することを願っている。

E-commerce image generation has always been one of the core demands in the e-commerce field. The goal is to restore the missing background that matches the main product given. In the post-AIGC era, diffusion models are primarily used to generate product images, achieving impressive results. This paper systematically analyzes and addresses a core pain point in diffusion model generation: overcompletion, which refers to the difficulty in maintaining product features. We propose two solutions: 1. Using an instance mask fine-tuned inpainting model to mitigate this phenomenon; 2. Adopting a train-free mask guidance approach, which incorporates refined product masks as constraints when combining ControlNet and UNet to generate the main product, thereby avoiding overcompletion of the product. Our method has achieved promising results in practical applications and we hope it can serve as an inspiring technical report in this field.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# Markowitz の機械解剖:平均変動ポートフォリオ最適化のための意思決定型学習

Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization ( http://arxiv.org/abs/2409.09684v1 )

ライセンス: Link先を確認
Junhyeong Lee, Inwoo Tae, Yongjae Lee, (参考訳) マークウィッツは平均分散最適化(MVO)フレームワークを通じてポートフォリオ理論の基礎を築いた。 しかし、MVOの有効性は、期待されるリターン、分散、および通常不確実なアセットリターンの共分散の正確な推定に一致している。 機械学習モデルは、不確実なパラメータを推定するのに有用であり、そのようなモデルは、平均二乗誤差(MSE)のような、資産全体にわたって予測エラーを均一に扱う予測誤差を最小限に抑えるために訓練されている。 近年の研究では、このアプローチが最適下決定につながることが指摘されており、意思決定結果を改善するための予測と最適化を統合したDFL(Decision-Focused Learning)がソリューションとして提案されている。 ポートフォリオ性能を向上させるDFLの可能性は研究されているが、DFLがMVOの予測モデルをどう修正するかの詳細なメカニズムは未解明のままである。 本研究は、DFLがMVOの意思決定を最適化するためにストックリターン予測モデルをどのように調整するかを検討することを目的としており、「MSEは全ての資産のエラーを等しく扱うが、DFLは異なる資産のエラーを異なる方法で減らすのか?」という疑問に対処している。 これに対する回答は、効率的なポートフォリオを構築するための最適な株価リターン予測に関する重要な洞察を提供するだろう。

Markowitz laid the foundation of portfolio theory through the mean-variance optimization (MVO) framework. However, the effectiveness of MVO is contingent on the precise estimation of expected returns, variances, and covariances of asset returns, which are typically uncertain. Machine learning models are becoming useful in estimating uncertain parameters, and such models are trained to minimize prediction errors, such as mean squared errors (MSE), which treat prediction errors uniformly across assets. Recent studies have pointed out that this approach would lead to suboptimal decisions and proposed Decision-Focused Learning (DFL) as a solution, integrating prediction and optimization to improve decision-making outcomes. While studies have shown DFL's potential to enhance portfolio performance, the detailed mechanisms of how DFL modifies prediction models for MVO remain unexplored. This study aims to investigate how DFL adjusts stock return prediction models to optimize decisions in MVO, addressing the question: "MSE treats the errors of all assets equally, but how does DFL reduce errors of different assets differently?" Answering this will provide crucial insights into optimal stock return prediction for constructing efficient portfolios.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# フラストレーションフリーハミルトニアンに対する臨界有限サイズギャップスケーリングについて

On the critical finite-size gap scaling for frustration-free Hamiltonians ( http://arxiv.org/abs/2409.09685v1 )

ライセンス: Link先を確認
Marius Lemm, Angelo Lucia, (参考訳) フラストレーションフリーハミルトニアンに対する臨界有限サイズギャップスケーリングが逆二乗型であることを証明する。 この注意の新規性は、結果は一般グラフと一般有限範囲相互作用に対して証明されることである。 したがって、逆二乗臨界ギャップスケーリングは有限範囲フラストレーションフリーハミルトニアンの頑健で普遍的な性質である。 このことは、連続体極限において共形場理論を生成する能力にさらなる制限を与える。 我々の証明は,ゴセット・フアンの洗練された検出可能性補題を通じて,カトラーノと第2の著者の配当戦略を洗練する。

We prove that the critical finite-size gap scaling for frustration-free Hamiltonians is of inverse-square type. The novelty of this note is that the result is proved on general graphs and for general finite-range interactions. Therefore, the inverse-square critical gap scaling is a robust, universal property of finite-range frustration-free Hamiltonians. This places further limits on their ability to produce conformal field theories in the continuum limit. Our proof refines the divide-and-conquer strategy of Kastoryano and the second author through the refined Detectability Lemma of Gosset--Huang.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# グローバルSDP境界を用いた安全なニューラルネットワークの訓練

Training Safe Neural Networks with Global SDP Bounds ( http://arxiv.org/abs/2409.09687v1 )

ライセンス: Link先を確認
Roman Soletskyi, David "davidad" Dalrymple, (参考訳) 本稿では、半定値プログラミング(SDP)を用いて、形式的安全性を保証するニューラルネットワークのトレーニング手法を提案する。 本手法は,大規模高次元入力領域における安全性の検証に焦点をあて,対向ロバスト性境界に着目した既存手法の限界に対処する。 本稿では,Adversarial Spheresデータセット上の精度の高いニューラルネットワーク分類器のためのADMMに基づくトレーニング手法を提案する。 この研究は、安全なRLポリシーに適用可能な高次元システムのための信頼性ニューラルネットワーク検証手法の開発を前進させる。

This paper presents a novel approach to training neural networks with formal safety guarantees using semidefinite programming (SDP) for verification. Our method focuses on verifying safety over large, high-dimensional input regions, addressing limitations of existing techniques that focus on adversarial robustness bounds. We introduce an ADMM-based training scheme for an accurate neural network classifier on the Adversarial Spheres dataset, achieving provably perfect recall with input dimensions up to $d=40$. This work advances the development of reliable neural network verification methods for high-dimensional systems, with potential applications in safe RL policies.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# コポリマーの補間MLモデル

Extrapolative ML Models for Copolymers ( http://arxiv.org/abs/2409.09691v1 )

ライセンス: Link先を確認
Israrul H. Hashmi, Himanshu, Rahul Karmakar, Tarak K Patra, (参考訳) 機械学習モデルは、材料特性の予測に徐々に使われてきた。 これらのモデルは、既存のデータを用いて構築することができ、天文学的に大きい物質の物理化学的空間を迅速にスクリーニングするのに有用である。 しかし、MLモデルは本質的に補間的であり、材料の既知の特性範囲外の候補を探索するための有効性は未解決である。 さらに,機械学習モデルの性能は,学習戦略やトレーニングデータの量と密接に関連している。 本稿では,MLモデルの外挿能力,トレーニングデータセットのサイズと範囲,学習アプローチとの関係について検討する。 本研究では,コポリマーの性質をモノマーの配列の関数として予測する標準的な問題に着目する。 高分子構造間の類似性を学習する木探索アルゴリズムは外挿に非効率であることがわかった。 逆に、高分子の構造と性質の間の機能的相関を学習しようとするニューラルネットワークとXGBoostモデルの補間能力は、トレーニングデータの量と範囲と強い相関関係を示す。 これらの知見はMLベースの新しい材料開発に重要な意味を持つ。

Machine learning models have been progressively used for predicting materials properties. These models can be built using pre-existing data and are useful for rapidly screening the physicochemical space of a material, which is astronomically large. However, ML models are inherently interpolative, and their efficacy for searching candidates outside a material's known range of property is unresolved. Moreover, the performance of an ML model is intricately connected to its learning strategy and the volume of training data. Here, we determine the relationship between the extrapolation ability of an ML model, the size and range of its training dataset, and its learning approach. We focus on a canonical problem of predicting the properties of a copolymer as a function of the sequence of its monomers. Tree search algorithms, which learn the similarity between polymer structures, are found to be inefficient for extrapolation. Conversely, the extrapolation capability of neural networks and XGBoost models, which attempt to learn the underlying functional correlation between the structure and property of polymers, show strong correlations with the volume and range of training data. These findings have important implications on ML-based new material development.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# 超国家規模における建築のタイプと機能予測

Predicting building types and functions at transnational scale ( http://arxiv.org/abs/2409.09692v1 )

ライセンス: Link先を確認
Jonas Fill, Michael Eichelbeck, Michael Ebner, (参考訳) 建築タイプや機能情報などの建築固有の知識は、多くのエネルギー応用にとって重要である。 しかし、この情報を含む包括的なデータセットはヨーロッパの多くの地域で欠落している。 各国で利用可能なオープンGISデータセットのみに基づいて,ヨーロッパ規模で構築タイプや機能クラスを予測できるかどうかを初めて検討した。 我々は、EU、ノルウェー、スイス、イギリスにまたがるOpenStreetMap(OSM)ビルディングからなる大規模グラフデータセットに基づいて、グラフニューラルネットワーク(GNN)分類器をトレーニングする。 大規模グラフを用いた学習を効率的に行うために,我々は局所化サブグラフを利用する。 グラフトランスフォーマーモデルは、建物を9つのクラスに分類するときにコーエンのカッパ係数 0.754、住宅と非住宅のクラスに分類するときにコーエンのカッパ係数 0.844 を達成する。 実験の結果は、文学への3つの新しい貢献を示唆している。 まず,2次元建築形態,土地利用,都市化の度合い,入力としてOSMタグ,地平としてのOSMタグなどの情報からなるマルチソースデータセットを用いて,複数の国にまたがる分類が可能であることを示す。 第2に,建築地区に関する文脈情報を考慮したGNNモデルは,個々の建物のみを考慮し,地区を無視するモデルに比べて,予測性能が向上することを示す。 第3に,標準GNNの代わりに局所化サブグラフ上でのGNNによるトレーニングにより,分類作業の性能が向上することを示す。

Building-specific knowledge such as building type and function information is important for numerous energy applications. However, comprehensive datasets containing this information for individual households are missing in many regions of Europe. For the first time, we investigate whether it is feasible to predict building types and functional classes at a European scale based on only open GIS datasets available across countries. We train a graph neural network (GNN) classifier on a large-scale graph dataset consisting of OpenStreetMap (OSM) buildings across the EU, Norway, Switzerland, and the UK. To efficiently perform training using the large-scale graph, we utilize localized subgraphs. A graph transformer model achieves a high Cohen's kappa coefficient of 0.754 when classifying buildings into 9 classes, and a very high Cohen's kappa coefficient of 0.844 when classifying buildings into the residential and non-residential classes. The experimental results imply three core novel contributions to literature. Firstly, we show that building classification across multiple countries is possible using a multi-source dataset consisting of information about 2D building shape, land use, degree of urbanization, and countries as input, and OSM tags as ground truth. Secondly, our results indicate that GNN models that consider contextual information about building neighborhoods improve predictive performance compared to models that only consider individual buildings and ignore the neighborhood. Thirdly, we show that training with GNNs on localized subgraphs instead of standard GNNs improves performance for the task of building classification.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# 強迫的逆流によるGFlowNet事前学習

GFlowNet Pretraining with Inexpensive Rewards ( http://arxiv.org/abs/2409.09702v1 )

ライセンス: Link先を確認
Mohit Pandey, Gopeshh Subbaraj, Emmanuel Bengio, (参考訳) 生成フローネットワーク(GFlowNets, Generative Flow Networks, GFlowNets)は、最近、非正規化報酬分布から学習することで、多種多様な高品質な分子構造を生成するのに適したフレームワークとして登場した。 この方向の以前の研究は、事前に定義された分子断片を建築ブロックとして使用することで探索を制限し、アクセス可能な化学空間を制限することが多かった。 本研究では、個々の原子をビルディングブロックとして活用し、薬物のような化学空間をより包括的に探索する基盤生成モデルであるAtomic GFlowNets(A-GFNs)を紹介する。 そこで本研究では, 薬物類似性, トポロジカル極面面積, 合成アクセシビリティスコアなど, 安価で情報性の高い分子ディスクリプタ上で, A-GFNを条件付けるオフライン薬物様分子データセットを用いた教師なし事前学習手法を提案する。 これらの性質は、A-GFNを好ましい薬理学的性質を示す化学空間の領域へと誘導するプロキシ報酬として機能する。 我々は、目標条件付き微調整プロセスを実装し、A-GFNを適応させて特定の目標特性に最適化する手法をさらに強化する。 本研究は、ZINC15オフラインデータセット上でA-GFNを事前訓練し、薬物設計における他の関連するベースライン手法と比較して、我々のアプローチの有効性を示す頑健な評価指標を用いた。

Generative Flow Networks (GFlowNets), a class of generative models have recently emerged as a suitable framework for generating diverse and high-quality molecular structures by learning from unnormalized reward distributions. Previous works in this direction often restrict exploration by using predefined molecular fragments as building blocks, limiting the chemical space that can be accessed. In this work, we introduce Atomic GFlowNets (A-GFNs), a foundational generative model leveraging individual atoms as building blocks to explore drug-like chemical space more comprehensively. We propose an unsupervised pre-training approach using offline drug-like molecule datasets, which conditions A-GFNs on inexpensive yet informative molecular descriptors such as drug-likeliness, topological polar surface area, and synthetic accessibility scores. These properties serve as proxy rewards, guiding A-GFNs towards regions of chemical space that exhibit desirable pharmacological properties. We further our method by implementing a goal-conditioned fine-tuning process, which adapts A-GFNs to optimize for specific target properties. In this work, we pretrain A-GFN on the ZINC15 offline dataset and employ robust evaluation metrics to show the effectiveness of our approach when compared to other relevant baseline methods in drug design.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# AlpaPICO: LLMを用いた臨床試験文書からのPICOフレームの抽出

AlpaPICO: Extraction of PICO Frames from Clinical Trial Documents Using LLMs ( http://arxiv.org/abs/2409.09704v1 )

ライセンス: Link先を確認
Madhusudan Ghosh, Shrimon Mukherjee, Asmit Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar, Debasis Ganguly, (参考訳) 近年,臨床治験報告の発行が急増しており,体系的レビューの実施が困難になっている。 臨床試験から人口、介入、比較、アウトカム(PICO)を自動的に抽出することは、体系的レビューを手作業で精査する伝統的な時間的プロセスを軽減することができる。 PICOフレーム抽出の既存のアプローチは、BIOラベルタグ付けの形で手動で注釈付きデータポイントの存在に依存する教師ありアプローチである。 In-Context Learning (ICL)のような近年のアプローチは、多くの下流のNLPタスクに有効であることが示されているが、ラベル付き例を使用する必要がある。 本研究では,LLMの事前学習期間中に収集されたLarge Language Models (LLMs) の事前学習知識を活用してICL戦略を採用し,多数の注釈付きデータインスタンスの入手を回避すべく,無監督で設定された臨床試験文書からPICO関連用語を自動的に抽出する。 さらに,多数のアノテートサンプルが利用可能であるオラクルシナリオにおけるLLMの有効性を示すため,PICOフレーム抽出タスクにおいて,低リソース環境における巨大モデルのトレーニングを行うために,LORA(Low Rank Adaptation)を用いて命令チューニング戦略を採用する。 実験の結果,提案するICLベースのフレームワークは,ESM-NLPデータセットのすべてのバージョンで同等の結果が得られ,本フレームワークの命令チューニングバージョンでは,すべてのESM-NLPデータセットに対して最先端の結果が得られた。 私たちのプロジェクトは \url{https://github.com/shrimonmuke0202/AlpaPICO.git} で利用可能です。

In recent years, there has been a surge in the publication of clinical trial reports, making it challenging to conduct systematic reviews. Automatically extracting Population, Intervention, Comparator, and Outcome (PICO) from clinical trial studies can alleviate the traditionally time-consuming process of manually scrutinizing systematic reviews. Existing approaches of PICO frame extraction involves supervised approach that relies on the existence of manually annotated data points in the form of BIO label tagging. Recent approaches, such as In-Context Learning (ICL), which has been shown to be effective for a number of downstream NLP tasks, require the use of labeled examples. In this work, we adopt ICL strategy by employing the pretrained knowledge of Large Language Models (LLMs), gathered during the pretraining phase of an LLM, to automatically extract the PICO-related terminologies from clinical trial documents in unsupervised set up to bypass the availability of large number of annotated data instances. Additionally, to showcase the highest effectiveness of LLM in oracle scenario where large number of annotated samples are available, we adopt the instruction tuning strategy by employing Low Rank Adaptation (LORA) to conduct the training of gigantic model in low resource environment for the PICO frame extraction task. Our empirical results show that our proposed ICL-based framework produces comparable results on all the version of EBM-NLP datasets and the proposed instruction tuned version of our framework produces state-of-the-art results on all the different EBM-NLP datasets. Our project is available at \url{https://github.com/shrimonmuke0202/AlpaPICO.git}.
翻訳日:2024-09-17 19:38:21 公開日:2024-09-15
# リアルワールドウェアハウス最適化問題における実用性を探る:量子アニーラーに基づく定式化と予備結果

Exploring Utility in a Real-World Warehouse Optimization Problem: Formulation Based on Quantun Annealers and Preliminary Results ( http://arxiv.org/abs/2409.09706v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Antón Asla, (参考訳) 現在のNISQ時代において、研究者や実践者が直面している大きな課題の1つは、量子コンピューティングと古典コンピューティングを最も効率的かつ革新的な方法で組み合わせる方法を見つけることである。 本稿では,D-WaveのQuantum Annealerを利用した倉庫最適化問題の量子初期化機構を提案する。 このモジュールは、現実世界の産業問題の最適化に特化した既存の古典的ソフトウェアに組み込むように設計されている。 本研究では,従来のソフトウェアに対して2段階の実験を行い,実装機構の予備実験を行った。

In the current NISQ-era, one of the major challenges faced by researchers and practitioners lies in figuring out how to combine quantum and classical computing in the most efficient and innovative way. In this paper, we present a mechanism coined as Quantum Initialization for Warehouse Optimization Problem that resorts to D-Wave's Quantum Annealer. The module has been specifically designed to be embedded into already existing classical software dedicated to the optimization of a real-world industrial problem. We preliminary tested the implemented mechanism through a two-phase experiment against the classical version of the software.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# 時間遷移による微小表現の相乗的スポッティングと認識

Synergistic Spotting and Recognition of Micro-Expression via Temporal State Transition ( http://arxiv.org/abs/2409.09707v1 )

ライセンス: Link先を確認
Bochao Zou, Zizheng Guo, Wenfeng Qin, Xin Li, Kangsheng Wang, Huimin Ma, (参考訳) マイクロ表現は意識的に制御できない不随意の顔の動きであり、現実の応用と微妙な手がかりを伝達する。 マイクロ表現の分析には、一般的に2つの主要なタスクがある: 長いビデオでマイクロ表現間隔を見つけることと、これらの間隔に関連する感情を認識することである。 従来のディープラーニング手法は主にスライディングウインドウを用いた分類ネットワークに依存していた。 しかし、固定ウィンドウサイズとウィンドウレベルのハードな分類には多くの制約が伴う。 さらに、これらの手法はスポッティングや認識のための補完経路の可能性を十分に活用していない。 本稿では、従来のウィンドウレベルの分類をビデオレベルの回帰に置き換えた、状態空間モデルに基づく新しい時間状態遷移アーキテクチャを提案する。 さらに,スポッティングと認識タスクの関連性を生かして,総合解析性能を高めるための相乗的戦略を提案する。 大規模な実験により,本手法が最先端の性能を達成できることが実証された。 コードと事前訓練されたモデルはhttps://github.com/zizheng-guo/ME-TSTで公開されている。

Micro-expressions are involuntary facial movements that cannot be consciously controlled, conveying subtle cues with substantial real-world applications. The analysis of micro-expressions generally involves two main tasks: spotting micro-expression intervals in long videos and recognizing the emotions associated with these intervals. Previous deep learning methods have primarily relied on classification networks utilizing sliding windows. However, fixed window sizes and window-level hard classification introduce numerous constraints. Additionally, these methods have not fully exploited the potential of complementary pathways for spotting and recognition. In this paper, we present a novel temporal state transition architecture grounded in the state space model, which replaces conventional window-level classification with video-level regression. Furthermore, by leveraging the inherent connections between spotting and recognition tasks, we propose a synergistic strategy that enhances overall analysis performance. Extensive experiments demonstrate that our method achieves state-of-the-art performance. The codes and pre-trained models are available at https://github.com/zizheng-guo/ME-TST.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# ELSA:Vision Transformer AccelerationのためのレイヤワイズN:Mスポーサリティの爆発

ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration ( http://arxiv.org/abs/2409.09708v1 )

ライセンス: Link先を確認
Ning-Chi Huang, Chi-Chih Chang, Wei-Cheng Lin, Endri Taka, Diana Marculescu, Kai-Chiang Wu, (参考訳) N{:}M$ sparsityは、ディープニューラルネットワークにおけるスパース行列の乗算を高速化するために、より多くのアクセラレーターがサポートする新しいモデル圧縮手法である。 既存のほとんどの$N{:}M$ sparsityメソッドは、ネットワーク内のすべてのレイヤに対して均一な設定でニューラルネットワークを圧縮する。 しかし、視覚変換器(ViT)のための層単位でカスタマイズされた$N{:}M$スパース構成(通常は同じ数のパラメータを含む変圧器ブロックからなる)を得るために設計された手法はほとんどない。 本研究では, VT のスパース構成を$N{:}M$スペーサ性支援アクセラレータ上で選択する問題に対処するため, ELSA, Exploiting Layer-wise $N{:}M$ Sparsity for ViTsを提案する。 N{:}M$スパシティレベルが与えられたアクセラレータでサポートされているだけでなく、スループットの向上も期待できるので、VTモデルのメモリ使用量と推論時間の両方で無視できる精度損失を抑えることで、混合スパシティをサポートするアクセラレータの利点を享受できる。 例えば、我々の手法は、ImageNetの精度を極端に低下させるだけで、Swin-BとDeiT-Bの両方のFLOPを2.9$\times$で削減できる。 私たちのコードは受理後に解放されます。

$N{:}M$ sparsity is an emerging model compression method supported by more and more accelerators to speed up sparse matrix multiplication in deep neural networks. Most existing $N{:}M$ sparsity methods compress neural networks with a uniform setting for all layers in a network or heuristically determine the layer-wise configuration by considering the number of parameters in each layer. However, very few methods have been designed for obtaining a layer-wise customized $N{:}M$ sparse configuration for vision transformers (ViTs), which usually consist of transformer blocks involving the same number of parameters. In this work, to address the challenge of selecting suitable sparse configuration for ViTs on $N{:}M$ sparsity-supporting accelerators, we propose ELSA, Exploiting Layer-wise $N{:}M$ Sparsity for ViTs. Considering not only all $N{:}M$ sparsity levels supported by a given accelerator but also the expected throughput improvement, our methodology can reap the benefits of accelerators supporting mixed sparsity by trading off negligible accuracy loss with both memory usage and inference time reduction for ViT models. For instance, our approach achieves a noteworthy 2.9$\times$ reduction in FLOPs for both Swin-B and DeiT-B with only a marginal degradation of accuracy on ImageNet. Our code will be released upon paper acceptance.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# 野生における大規模ハンドイメージに対するコントラスト学習による3次元ハンドポース推定の事前評価

Pre-Training for 3D Hand Pose Estimation with Contrastive Learning on Large-Scale Hand Images in the Wild ( http://arxiv.org/abs/2409.09714v1 )

ライセンス: Link先を確認
Nie Lin, Takehiko Ohkawa, Mingfang Zhang, Yifei Huang, Ryosuke Furuta, Yoichi Sato, (参考訳) 我々は,ハンドCLRと呼ばれる3次元手ポーズ推定器の事前学習に適した,手動画像に基づくコントラスト学習フレームワークを提案する。 大規模画像の事前訓練は,様々なタスクにおいて有望な結果をもたらすが,先行3次元手ポーズによる事前訓練手法では,映像内からアクセス可能な多様な手画像の可能性を十分に活用できていない。 拡張性のある事前学習を容易にするため、まず、Wild ビデオから手動画像の広範なプールを作成し、コントラスト学習による手法を設計する。 具体的には、100DOHやEgo4Dといった最近の人間中心のビデオから、200万以上の手画像を収集しました。 これらの画像から識別的情報を抽出するために、異なるサンプルから派生した類似手ポーズのペアに着目し、類似手ペアを潜伏空間に近接して埋め込む新しいコントラスト学習法を提案する。 実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。 各種データセットの最先端手法に対して,FreiHandが15%,DexYCBが10%,AmblyHandsが4%向上した。

We present a contrastive learning framework based on in-the-wild hand images tailored for pre-training 3D hand pose estimators, dubbed HandCLR. Pre-training on large-scale images achieves promising results in various tasks, but prior 3D hand pose pre-training methods have not fully utilized the potential of diverse hand images accessible from in-the-wild videos. To facilitate scalable pre-training, we first prepare an extensive pool of hand images from in-the-wild videos and design our method with contrastive learning. Specifically, we collected over 2.0M hand images from recent human-centric videos, such as 100DOH and Ego4D. To extract discriminative information from these images, we focus on the similarity of hands; pairs of similar hand poses originating from different samples, and propose a novel contrastive learning method that embeds similar hand pairs closer in the latent space. Our experiments demonstrate that our method outperforms conventional contrastive learning approaches that produce positive pairs sorely from a single image with data augmentation. We achieve significant improvements over the state-of-the-art method in various datasets, with gains of 15% on FreiHand, 10% on DexYCB, and 4% on AssemblyHands.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# 視覚的優先を遠ざける:構成オートエンコーダを用いたシーン解釈の教師なし学習

Disentangling Visual Priors: Unsupervised Learning of Scene Interpretations with Compositional Autoencoder ( http://arxiv.org/abs/2409.09716v1 )

ライセンス: Link先を確認
Krzysztof Krawiec, Antoni Nowinowski, (参考訳) 現代のディープラーニングアーキテクチャには、オブジェクト、形状、幾何学変換など、基本的な視覚概念をキャプチャし、扱うための原則的な手段が欠けている。 本稿では、ドメイン固有言語を用いて、物体形状、外観、分類、幾何学変換など、画像形成の先駆的選択を捉えるニューロシンボリックアーキテクチャを提案する。 我々は、その言語でテンプレートプログラムを表現し、畳み込みニューラルネットワークによってシーンから抽出された特徴を用いてパラメータ化を学ぶ。 パラメータ化されたプログラムは、実行されると幾何学的プリミティブを生成し、シーンの内容に対応するようにレンダリングされ、評価され、勾配と自己連想することで訓練される。 提案手法は,合成ベンチマークのベースライン手法と対立し,画像形成プロセスの選択した側面をアンタングルし,小さなデータから学習し,ノイズの存在下での正しい推測,サンプル外一般化を行う能力を示す。

Contemporary deep learning architectures lack principled means for capturing and handling fundamental visual concepts, like objects, shapes, geometric transforms, and other higher-level structures. We propose a neurosymbolic architecture that uses a domain-specific language to capture selected priors of image formation, including object shape, appearance, categorization, and geometric transforms. We express template programs in that language and learn their parameterization with features extracted from the scene by a convolutional neural network. When executed, the parameterized program produces geometric primitives which are rendered and assessed for correspondence with the scene content and trained via auto-association with gradient. We confront our approach with a baseline method on a synthetic benchmark and demonstrate its capacity to disentangle selected aspects of the image formation process, learn from small data, correct inference in the presence of noise, and out-of-sample generalization.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# ヒューマンライクな推論による自動制御:言語モデルを用いた航空交通エージェントの探索

Automatic Control With Human-Like Reasoning: Exploring Language Model Embodied Air Traffic Agents ( http://arxiv.org/abs/2409.09717v1 )

ライセンス: Link先を確認
Justas Andriuškevičius, Junzi Sun, (参考訳) 近年の言語モデルの発展は、航空交通管制研究において新たな機会を生み出している。 現在の焦点は、主にテキストと言語ベースのユースケースである。 しかしながら、これらの言語モデルは、実施されたエージェント形式で航空交通環境と対話する能力により、航空交通制御領域に高い影響をもたらす可能性がある。 彼らはまた、自動航空交通制御の実装において重要な障害となっている、彼らの決定を説明するための言語ライクな推論能力も提供している。 本稿では,人間の介入なしに航空交通紛争を解決するために,関数呼び出しと学習機能を備えた言語モデルベースエージェントの適用について検討する。 この研究の主な構成要素は、基礎となる大きな言語モデル、エージェントがシミュレータと対話できるツール、新しい概念であるエクスペリエンスライブラリである。 この研究の革新的な部分であるエクスペリエンスライブラリは、エージェントがシミュレーションや言語モデルとの相互作用から学んだ合成知識を格納するベクトルデータベースである。 言語モデルに基づくエージェントの性能を評価するため,オープンソースモデルとクローズドソースモデルの両方を試験した。 本研究の結果,言語モデルに基づくエージェントの様々な構成において,性能に有意な差が認められた。 最高性能の機体は120機のほぼ全てを解決できたが、同時に最大4機の航空機を含む紛争シナリオは差し迫ったものだった。 最も重要なことは、エージェントは交通状況や紛争解決戦略に関する人間レベルのテキスト説明を提供することができることだ。

Recent developments in language models have created new opportunities in air traffic control studies. The current focus is primarily on text and language-based use cases. However, these language models may offer a higher potential impact in the air traffic control domain, thanks to their ability to interact with air traffic environments in an embodied agent form. They also provide a language-like reasoning capability to explain their decisions, which has been a significant roadblock for the implementation of automatic air traffic control. This paper investigates the application of a language model-based agent with function-calling and learning capabilities to resolve air traffic conflicts without human intervention. The main components of this research are foundational large language models, tools that allow the agent to interact with the simulator, and a new concept, the experience library. An innovative part of this research, the experience library, is a vector database that stores synthesized knowledge that agents have learned from interactions with the simulations and language models. To evaluate the performance of our language model-based agent, both open-source and closed-source models were tested. The results of our study reveal significant differences in performance across various configurations of the language model-based agents. The best-performing configuration was able to solve almost all 120 but one imminent conflict scenarios, including up to four aircraft at the same time. Most importantly, the agents are able to provide human-level text explanations on traffic situations and conflict resolution strategies.
翻訳日:2024-09-17 19:38:20 公開日:2024-09-15
# ペアワイズの違いを考慮に入れたCLIPの微調整

Finetuning CLIP to Reason about Pairwise Differences ( http://arxiv.org/abs/2409.09721v1 )

ライセンス: Link先を確認
Dylan Sam, Devin Willmott, Joao D. Semedo, J. Zico Kolter, (参考訳) CLIPのような視覚言語モデル(VLM)は、テキストと画像のペア間のコントラスト学習によって訓練される。 しかし、CLIPの顕著な欠点は、結果として生じる埋め込み空間が、純粋にテキストベースの代替手段の構造を欠いているように見えることである。 例えば、テキスト埋め込みは長い間、ベクトル算術を用いた埋め込み空間において \emph{analogies} を満たすことが知られているが、CLIP にはそのような性質はない。 本稿では,CLIPをネイティブに学習し,組込み空間の違いを推論する手法を提案する。 画像埋め込み空間の差分が画像差分表現のemph{text descriptions of the image difference}に対応するようにCLIPを微調整する。 筆者らはまず,特定の属性(例えば,ゾウは猫よりも大きい)で画像のランク付け能力を大幅に向上させ,属性に基づく分類器の検索や構築に有用であること,下流画像分類タスクにおけるゼロショット分類性能の向上を実証した。 さらに,本手法は,興味のあるクラス間の差異に関するテキスト記述の事前知識を活用して,より大きな性能向上を達成し,比較プロンプトと呼ばれる新たな推論機構を実現する。 最後に、結果の埋め込みは、テキスト・ツー・イメージ生成のような埋め込み空間において、より大きな幾何学的性質に従うことを示す。

Vision-language models (VLMs) such as CLIP are trained via contrastive learning between text and image pairs, resulting in aligned image and text embeddings that are useful for many downstream tasks. A notable drawback of CLIP, however, is that the resulting embedding space seems to lack some of the structure of their purely text-based alternatives. For instance, while text embeddings have been long noted to satisfy \emph{analogies} in embedding space using vector arithmetic, CLIP has no such property. In this paper, we propose an approach to natively train CLIP in a contrastive manner to reason about differences in embedding space. We finetune CLIP so that the differences in image embedding space correspond to \emph{text descriptions of the image differences}, which we synthetically generate with large language models on image-caption paired datasets. We first demonstrate that our approach yields significantly improved capabilities in ranking images by a certain attribute (e.g., elephants are larger than cats), which is useful in retrieval or constructing attribute-based classifiers, and improved zeroshot classification performance on many downstream image classification tasks. In addition, our approach enables a new mechanism for inference that we refer to as comparative prompting, where we leverage prior knowledge of text descriptions of differences between classes of interest, achieving even larger performance gains in classification. Finally, we illustrate that the resulting embeddings obey a larger degree of geometric properties in embedding space, such as in text-to-image generation.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# シーケンシャルレコメンデーションシステムにおける周波数バイアスの測定

Measuring Recency Bias In Sequential Recommendation Systems ( http://arxiv.org/abs/2409.09722v1 )

ライセンス: Link先を確認
Jeonglyul Oh, Sungzoon Cho, (参考訳) シーケンシャルレコメンデーションシステムにおける頻度バイアス(Recency bias)とは、ユーザセッション内の最近の項目に過度に重きを置くことを指す。 このバイアスは、レコメンデーションのセレンディピティーを低下させ、システムの長期的関心を捉える能力を阻害し、ユーザのエンゲージメントを低下させる。 本稿では, 簡易かつ効果的に, 回帰バイアスの定量化を図った新しい計量法を提案する。 また,提案手法で測定した高信頼バイアスが推奨性能に悪影響を及ぼし,その軽減効果が,実験で評価した全モデルにおける推奨性能の改善に寄与することを示し,その重要性を浮き彫りにした。

Recency bias in a sequential recommendation system refers to the overly high emphasis placed on recent items within a user session. This bias can diminish the serendipity of recommendations and hinder the system's ability to capture users' long-term interests, leading to user disengagement. We propose a simple yet effective novel metric specifically designed to quantify recency bias. Our findings also demonstrate that high recency bias measured in our proposed metric adversely impacts recommendation performance too, and mitigating it results in improved recommendation performances across all models evaluated in our experiments, thus highlighting the importance of measuring recency bias.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# MFCLIP:汎用拡散顔偽造検出のための多モードきめ細かいCLIP

MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection ( http://arxiv.org/abs/2409.09724v1 )

ライセンス: Link先を確認
Yaning Zhang, Tianyi Wang, Zitong Yu, Zan Gao, Linlin Shen, Shengyong Chen, (参考訳) フォトリアリスティックな顔生成手法の急速な発展は、社会や学界において重大な関心を喚起し、堅牢で一般化可能な顔偽造検出(FFD)技術の必要性を浮き彫りにした。 既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていないため、モデルの一般化能力は制限されている。 さらに、ほとんどのFFD法は、GANによって生成された顔画像を特定する傾向があるが、目に見えない拡散合成画像を検出するのに苦労している。 この制限に対処するため、我々はCLIP(Contentive Language-image Pre-Training)という最先端基盤モデルを活用し、一般化可能な拡散顔偽造検出(DFFD)を実現することを目指している。 本稿では,DFFDの進展を促進するために,言語誘導顔フォージェリー表現学習を通じて,画像のモーダル間の包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal fine-fine-grand CLIP)モデルを提案する。 具体的には、階層的なテキストプロンプトから細かなグローバル言語特徴を抽出する、きめ細かい言語エンコーダ(FLE)を考案する。 我々はMVE(Multi-modal vision encoder)を設計し、最もリッチなパッチから抽出した微細なノイズフォージェリーパターンだけでなく、グローバルな画像フォージェリー埋め込みをキャプチャし、それらを統合して一般的な視覚フォージェリートレースをマイニングする。 さらに,関連する負のペアを強調し,無関係なペアを抑えるために,より柔軟なアライメントを実現するための,革新的なプラグアンドプレイサンプルペアアテンション(SPA)手法を構築した。 大規模な実験と可視化により、我々のモデルは、クロスジェネレータ、クロスフォージェニー、クロスデータセット評価など、さまざまな設定において、最先端のモデルよりも優れています。

The rapid development of photo-realistic face generation methods has raised significant concerns in society and academia, highlighting the urgent need for robust and generalizable face forgery detection (FFD) techniques. Although existing approaches mainly capture face forgery patterns using image modality, other modalities like fine-grained noises and texts are not fully explored, which limits the generalization capability of the model. In addition, most FFD methods tend to identify facial images generated by GAN, but struggle to detect unseen diffusion-synthesized ones. To address the limitations, we aim to leverage the cutting-edge foundation model, contrastive language-image pre-training (CLIP), to achieve generalizable diffusion face forgery detection (DFFD). In this paper, we propose a novel multi-modal fine-grained CLIP (MFCLIP) model, which mines comprehensive and fine-grained forgery traces across image-noise modalities via language-guided face forgery representation learning, to facilitate the advancement of DFFD. Specifically, we devise a fine-grained language encoder (FLE) that extracts fine global language features from hierarchical text prompts. We design a multi-modal vision encoder (MVE) to capture global image forgery embeddings as well as fine-grained noise forgery patterns extracted from the richest patch, and integrate them to mine general visual forgery traces. Moreover, we build an innovative plug-and-play sample pair attention (SPA) method to emphasize relevant negative pairs and suppress irrelevant ones, allowing cross-modality sample pairs to conduct more flexible alignment. Extensive experiments and visualizations show that our model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# スコアベース拡散ネットワークを用いた精密ピック・アンド・プレイス

Precise Pick-and-Place using Score-Based Diffusion Networks ( http://arxiv.org/abs/2409.09725v1 )

ライセンス: Link先を確認
Shih-Wei Guo, Tsu-Ching Hsiao, Yu-Lun Liu, Chun-Yi Lee, (参考訳) 本稿では,ロボット操作作業におけるピック・アンド・プレイス操作の精度を高めるために,新しい粗い連続ポーズ拡散法を提案する。 拡散ネットワークの能力を活用して、オブジェクトのポーズの正確な認識を容易にする。 この正確な認識は、ピック・アンド・プレイスの成功率と全体的な操作精度の両方を高める。 提案手法は,RGB-Dカメラから投影されるトップダウンのRGB画像を利用し,粗いアーキテクチャを採用する。 このアーキテクチャは粗いモデルと細かなモデルの効率的な学習を可能にする。 このアプローチの際立った特徴は、特に回転角に関するより正確なオブジェクト操作を可能にする連続ポーズ推定に焦点をあてることである。 さらに、限られたデータによる効果的なトレーニングを可能にするために、ポーズとカラー増強技術を採用している。 シミュレーションおよび実世界のシナリオにおける広範な実験、およびアブレーション研究を通じて、提案手法を網羅的に評価した。 その結果, 高精度なピック・アンド・プレイス・タスクの実現の有効性が検証された。

In this paper, we propose a novel coarse-to-fine continuous pose diffusion method to enhance the precision of pick-and-place operations within robotic manipulation tasks. Leveraging the capabilities of diffusion networks, we facilitate the accurate perception of object poses. This accurate perception enhances both pick-and-place success rates and overall manipulation precision. Our methodology utilizes a top-down RGB image projected from an RGB-D camera and adopts a coarse-to-fine architecture. This architecture enables efficient learning of coarse and fine models. A distinguishing feature of our approach is its focus on continuous pose estimation, which enables more precise object manipulation, particularly concerning rotational angles. In addition, we employ pose and color augmentation techniques to enable effective training with limited data. Through extensive experiments in simulated and real-world scenarios, as well as an ablation study, we comprehensively evaluate our proposed methodology. Taken together, the findings validate its effectiveness in achieving high-precision pick-and-place tasks.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# 課題と落とし穴からレコメンデーションと機会へ:医療におけるフェデレートラーニングの実践

From Challenges and Pitfalls to Recommendations and Opportunities: Implementing Federated Learning in Healthcare ( http://arxiv.org/abs/2409.09727v1 )

ライセンス: Link先を確認
Ming Li, Pengcheng Xu, Junjie Hu, Zeyu Tang, Guang Yang, (参考訳) フェデレートされた学習は、複数のセンターで大規模なヘルスケア研究とコラボレーションを可能にし、データのプライバシとセキュリティが損なわれないようにする大きな可能性を秘めている。 近年の多くの研究は、医療におけるフェデレートラーニングに基づく手法を提案または活用しているが、どちらの方法が潜在的な臨床的有用性を持っているかは定かではない。 本稿では,2024年5月までの医療におけるフェデレーション・ラーニング・ベースの手法に関する最新の研究を考察し,分析する。 徹底的なレビューの結果、大多数は方法論上の欠陥やプライバシー問題、一般化問題、通信コストに限らず、根底にあるバイアスのために臨床利用には適さないことが判明した。 その結果、医療における連合学習の有効性は著しく損なわれている。 これらの課題を克服するため、我々は、これらの問題を解決するために実施されるレコメンデーションと有望な機会を提供し、医療連携学習におけるモデル開発の品質を向上させる。

Federated learning holds great potential for enabling large-scale healthcare research and collaboration across multiple centres while ensuring data privacy and security are not compromised. Although numerous recent studies suggest or utilize federated learning based methods in healthcare, it remains unclear which ones have potential clinical utility. This review paper considers and analyzes the most recent studies up to May 2024 that describe federated learning based methods in healthcare. After a thorough review, we find that the vast majority are not appropriate for clinical use due to their methodological flaws and/or underlying biases which include but are not limited to privacy concerns, generalization issues, and communication costs. As a result, the effectiveness of federated learning in healthcare is significantly compromised. To overcome these challenges, we provide recommendations and promising opportunities that might be implemented to resolve these problems and improve the quality of model development in federated learning with healthcare.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# プログラム可能な超伝導プロセッサにおける量子連続学習

Quantum continual learning on a programmable superconducting processor ( http://arxiv.org/abs/2409.09729v1 )

ライセンス: Link先を確認
Chuanyu Zhang, Zhide Lu, Liangtian Zhao, Shibo Xu, Weikang Li, Ke Wang, Jiachen Chen, Yaozu Wu, Feitong Jin, Xuhao Zhu, Yu Gao, Ziqi Tan, Zhengyi Cui, Aosai Zhang, Ning Wang, Yiren Zou, Tingting Li, Fanhao Shen, Jiarun Zhong, Zehang Bao, Zitian Zhu, Zixuan Song, Jinfeng Deng, Hang Dong, Pengfei Zhang, Wenjie Jiang, Zheng-Zhi Sun, Pei-Xin Shen, Hekang Li, Qiujiang Guo, Zhen Wang, Jie Hao, H. Wang, Dong-Ling Deng, Chao Song, (参考訳) 量子コンピュータは、機械学習タスクにおいて古典的コンピュータより優れている。 近年、機械学習の強化、高速化、革新のための非並列ポテンシャルを約束する様々な量子アルゴリズムが提案されている。 しかし、量子学習システムは古典的システムと似ていて、破滅的な忘れの問題に悩まされる可能性がある。 この問題は、複数のシーケンシャルなタスクの継続的な学習を達成するための重要な障害であると広く信じられている。 本稿では,完全プログラム可能な超伝導プロセッサ上での量子連続学習実験について報告する。 特に、量子分類器を3つのタスクで逐次訓練し、2つは実生活画像と、もう1つは量子状態の分類に関するものである。 このジレンマを克服するために、この弾性重み強化戦略を利用して、量子分類器が3つの異なるタスクの知識を段階的に学習し、保持し、平均予測精度が92.3%を超えることを示す。 さらに、量子工学的データを含む逐次的なタスクに対して、量子分類器は、多くの変動パラメータを持つ古典的フィードフォワードネットワークよりも優れた連続的な学習性能が得られることを示した。 本研究は,複数の逐次タスクに適応可能な量子学習システムを実現するための有効な戦略を確立し,量子人工知能の実現という長期的目標に向けた重要な実験的なステップを示すものである。

Quantum computers may outperform classical computers on machine learning tasks. In recent years, a variety of quantum algorithms promising unparalleled potential to enhance, speed up, or innovate machine learning have been proposed. Yet, quantum learning systems, similar to their classical counterparts, may likewise suffer from the catastrophic forgetting problem, where training a model with new tasks would result in a dramatic performance drop for the previously learned ones. This problem is widely believed to be a crucial obstacle to achieving continual learning of multiple sequential tasks. Here, we report an experimental demonstration of quantum continual learning on a fully programmable superconducting processor. In particular, we sequentially train a quantum classifier with three tasks, two about identifying real-life images and the other on classifying quantum states, and demonstrate its catastrophic forgetting through experimentally observed rapid performance drops for prior tasks. To overcome this dilemma, we exploit the elastic weight consolidation strategy and show that the quantum classifier can incrementally learn and retain knowledge across the three distinct tasks, with an average prediction accuracy exceeding 92.3%. In addition, for sequential tasks involving quantum-engineered data, we demonstrate that the quantum classifier can achieve a better continual learning performance than a commonly used classical feedforward network with a comparable number of variational parameters. Our results establish a viable strategy for empowering quantum learning systems with desirable adaptability to multiple sequential tasks, marking an important primary experimental step towards the long-term goal of achieving quantum artificial general intelligence.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# 磁気共鳴画像超解像のための2要素表現の学習

Learning Two-factor Representation for Magnetic Resonance Image Super-resolution ( http://arxiv.org/abs/2409.09731v1 )

ライセンス: Link先を確認
Weifeng Wei, Heng Chen, Pengxiang Su, (参考訳) 磁気共鳴イメージング(MRI)は、高分解能(HR)取得を困難にするため、解像度、信号対雑音比、走査時間の間のトレードオフを必要とする。 したがって、MR画像の超解像は実現可能な解である。 しかし、既存のほとんどの手法では、低解像度画像から連続的な容積表現を正確に学習するか、監督のためにHR画像を必要とするという課題に直面している。 これらの課題を解決するために,2要素表現に基づくMR画像の超解像法を提案する。 具体的には、強度信号を学習可能な基底と係数係数の線形結合に分解し、低分解能MR画像からの効率的な連続容積表現を可能にする。 さらに,スパースボクセル間の構造的関係を捕捉し,未観測領域でのスムーズな補完を容易にするコーディネートを用いた符号化手法を提案する。 BraTS 2019 と MSSEG 2016 データセットを用いた実験により,我々の手法は最先端の性能を実現し,特に大規模MR画像の高解像度化において,優れた視覚的忠実度とロバスト性を提供することが示された。

Magnetic Resonance Imaging (MRI) requires a trade-off between resolution, signal-to-noise ratio, and scan time, making high-resolution (HR) acquisition challenging. Therefore, super-resolution for MR image is a feasible solution. However, most existing methods face challenges in accurately learning a continuous volumetric representation from low-resolution image or require HR image for supervision. To solve these challenges, we propose a novel method for MR image super-resolution based on two-factor representation. Specifically, we factorize intensity signals into a linear combination of learnable basis and coefficient factors, enabling efficient continuous volumetric representation from low-resolution MR image. Besides, we introduce a coordinate-based encoding to capture structural relationships between sparse voxels, facilitating smooth completion in unobserved regions. Experiments on BraTS 2019 and MSSEG 2016 datasets demonstrate that our method achieves state-of-the-art performance, providing superior visual fidelity and robustness, particularly in large up-sampling scale MR image super-resolution.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# 量子コンピューティングによる流体流動のシミュレーション

Simulating fluid flows with quantum computing ( http://arxiv.org/abs/2409.09736v1 )

ライセンス: Link先を確認
Sachin S. Bharadwaj, Katepalli R. Sreenivasan, (参考訳) 流体流動の高忠実度シミュレーションの適用と影響は遠心性である。 乱気流に長く根本から疑問を抱くことも含まれる。 しかし、そのような取り組みに必要な計算資源は広い。 本稿では,近年の量子コンピューティングの計算パラダイムを用いて流体流動をシミュレートする可能性について考察する。 この新しいパラダイムの魅力は、古典コンピューティングと比較して、メモリとスピードの指数関数的な優位性である。 この分野は最近、興奮と貢献がかなり上昇しているのを目撃している。 本研究は, 流体流動に着目し, 持続的な努力を要する課題の列挙を伴って, これまでの進歩を簡潔に議論するものである。 流体の量子計算には将来性があるが、自然に非線形な流れの性質は、様々なボトルネックを解消し、理論的、数値的、実験的な面での進行の進行に真剣な努力を必要とする。 我々はまだ十分な注意を引いていないいくつかの重要な詳細を提示する。

The applications and impact of high fidelity simulation of fluid flows are far-reaching. They include settling some long-standing and fundamental questions in turbulence. However, the computational resources required for such efforts are extensive. Here, we explore the possibility of employing the recent computing paradigm of quantum computing to simulate fluid flows. The lure of this new paradigm is the potentially exponential advantage in memory and speed, in comparison with classical computing. This field has recently witnessed a considerable uptick in excitement and contributions. In this work, we give a succinct discussion of the progress made so far, with focus on fluid flows, accompanied by an enumeration of challenges that require sustained efforts for progress. Quantum computing of fluid flows has a promising future, but the inherently nonlinear nature of flows requires serious efforts on resolving various bottlenecks, and on synthesising progress on theoretical, numerical and experimental fronts. We present certain critical details that have not yet attracted adequate attention.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# PersonaMark: モデル保護とユーザ属性のためのパーソナライズされたLLM透かし

PersonaMark: Personalized LLM watermarking for model protection and user attribution ( http://arxiv.org/abs/2409.09739v1 )

ライセンス: Link先を確認
Yuehan Zhang, Peizhuo Lv, Yinpeng Liu, Yongqiang Ma, Wei Lu, Xiaofeng Wang, Xiaozhong Liu, Jiawei Liu, (参考訳) LLMの急速な開発は、利便性と潜在的な脅威をもたらす。 衣装やプライベートなLLMが広く採用されているため、モデル著作権保護の重要性が高まっている。 テキスト透かしは、AIが生成したテキストの検出とモデル保護の問題に対する有望な解決策として浮上している。 しかし、現在のテキスト透かしは、異なるユーザーに対して異なる透かしを注入する重要な必要性をほとんど無視している。 本稿では,LLM著作権保護などのシナリオに対して,パーソナライズされたテキスト透かし方式について検討し,コンテンツ生成における説明責任とトレーサビリティを確保する。 具体的には,文章構造を透かし情報の隠蔽媒体として利用し,文章レベルの生成アルゴリズムを最適化し,モデルの自然生成過程の破壊を最小限に抑える新しいテキスト透かし手法であるPersonaMarkを提案する。 パーソナライズされたハッシュ機能を用いて、異なるユーザに対してユニークな透かし信号を注入することにより、パーソナライズされた透かしテキストを得ることができる。 提案手法はトークンの確率ではなく文レベルで実行されるので,テキストの品質は高く保たれている。 異なるユーザに対するユニークな透かし信号の注入プロセスは、設計されたマルチユーザハッシュ機能を持つ多数のユーザにとって、時間効率が高い。 私たちが知る限り、私たちは初めてパーソナライズされたテキスト透かしを達成しました。 パープレキシティ,感情極性,アライメント,可読性などの観点から,4種類のLCMを広範囲に評価する。 その結果,本手法はモデルの振舞いを最小限に抑えながら性能を維持し,透かし情報のあいまいな挿入を可能にし,強い透かし認識能力を示すことがわかった。

The rapid development of LLMs brings both convenience and potential threats. As costumed and private LLMs are widely applied, model copyright protection has become important. Text watermarking is emerging as a promising solution to AI-generated text detection and model protection issues. However, current text watermarks have largely ignored the critical need for injecting different watermarks for different users, which could help attribute the watermark to a specific individual. In this paper, we explore the personalized text watermarking scheme for LLM copyright protection and other scenarios, ensuring accountability and traceability in content generation. Specifically, we propose a novel text watermarking method PersonaMark that utilizes sentence structure as the hidden medium for the watermark information and optimizes the sentence-level generation algorithm to minimize disruption to the model's natural generation process. By employing a personalized hashing function to inject unique watermark signals for different users, personalized watermarked text can be obtained. Since our approach performs on sentence level instead of token probability, the text quality is highly preserved. The injection process of unique watermark signals for different users is time-efficient for a large number of users with the designed multi-user hashing function. As far as we know, we achieved personalized text watermarking for the first time through this. We conduct an extensive evaluation of four different LLMs in terms of perplexity, sentiment polarity, alignment, readability, etc. The results demonstrate that our method maintains performance with minimal perturbation to the model's behavior, allows for unbiased insertion of watermark information, and exhibits strong watermark recognition capabilities.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# VGG-Tex:高忠実度モノクローナル3次元顔再構成のための視覚幾何学誘導顔のテクスチャ推定モデル

VGG-Tex: A Vivid Geometry-Guided Facial Texture Estimation Model for High Fidelity Monocular 3D Face Reconstruction ( http://arxiv.org/abs/2409.09740v1 )

ライセンス: Link先を確認
Haoyu Wu, Ziqiao Peng, Xukun Zhou, Yunfei Cheng, Jun He, Hongyan Liu, Zhaoxin Fan, (参考訳) モノクル画像からの3次元顔の再構成は、拡張現実などの様々な応用の開発を促進している。 既存の手法は目覚ましい進歩を遂げているが、そのほとんどは幾何学的復元を重視し、テクスチャ予測の重要性を軽視している。 この問題に対処するため,我々は,高忠実度モノクル3次元顔再構成のために設計されたVGG-Texという新しい顔テクスチャ推定モデルを提案する。 このアプローチの核心は、2次元紫外線テクスチャ推定の結果を高めるために、3Dパラメトリック先行値を活用することである。 具体的には、VGG-Texは、顔属性エンコードモジュール、幾何学誘導テクスチャジェネレータ、可視性強化テクスチャコンプリートモジュールを含む。 これらのコンポーネントは、パラメトリックな前駆体を抽出し、初期テクスチャを生成し、テクスチャの詳細を精製する役割を担っている。 テクスチャ・テクスチャの相補性原理に基づき、VGG-Texはテクスチャ誘導幾何精細モジュールを導入し、再構成された3次元面の全体的な忠実さとそれに伴う損失のバランスをとる。 包括的実験により,本手法は既存の最先端手法と比較してテクスチャ再構築性能を著しく向上することが示された。

3D face reconstruction from monocular images has promoted the development of various applications such as augmented reality. Though existing methods have made remarkable progress, most of them emphasize geometric reconstruction, while overlooking the importance of texture prediction. To address this issue, we propose VGG-Tex, a novel Vivid Geometry-Guided Facial Texture Estimation model designed for High Fidelity Monocular 3D Face Reconstruction. The core of this approach is leveraging 3D parametric priors to enhance the outcomes of 2D UV texture estimation. Specifically, VGG-Tex includes a Facial Attributes Encoding Module, a Geometry-Guided Texture Generator, and a Visibility-Enhanced Texture Completion Module. These components are responsible for extracting parametric priors, generating initial textures, and refining texture details, respectively. Based on the geometry-texture complementarity principle, VGG-Tex also introduces a Texture-guided Geometry Refinement Module to further balance the overall fidelity of the reconstructed 3D faces, along with corresponding losses. Comprehensive experiments demonstrate that our method significantly improves texture reconstruction performance compared to existing state-of-the-art methods.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# 政治コンテンツテキストにおけるLCMのベンチマーク--毒性とインキュビティデータを用いた概念実証

Benchmarking LLMs in Political Content Text-Annotation: Proof-of-Concept with Toxicity and Incivility Data ( http://arxiv.org/abs/2409.09741v1 )

ライセンス: Link先を確認
Bastián González-Bustamante, (参考訳) この記事では,OpenAI の GPT と,多数のオープンソース LLM の政治コンテンツに対するアノテーションタスクの実行能力をベンチマークした。 我々は、300万人以上のデジタルインタラクションからなる、新しい抗議イベントデータセットを使用し、ソーシャルメディア上での毒性と悪質について、人間のコーダーによって注釈付けされた地味なラベルを含む金の標準を作成しました。 当社のベンチマークにはGoogleのパースペクティブアルゴリズムが含まれており、GPTとともに各APIを通じて採用され、オープンソースLLMはローカルにデプロイされました。 その結果,ラキサーしきい値,GPT-4o,Nous Hermes 2mixtralを用いたパースペクティブAPIは,他のLCMのゼロショット分類アノテーションよりも優れていた。 さらに、Nous Hermes 2とMistral OpenOrcaは、パラメータが少なく、高いパフォーマンスでタスクを実行できる。 異なる温度レベルを設定する実験により、GPTは優れた計算時間だけでなく、全体的な信頼性レベルも示す傾向にあるが、オープンソースLCMだけがアノテーションの完全な再現性を保証していることを示している。

This article benchmarked the ability of OpenAI's GPTs and a number of open-source LLMs to perform annotation tasks on political content. We used a novel protest event dataset comprising more than three million digital interactions and created a gold standard that includes ground-truth labels annotated by human coders about toxicity and incivility on social media. We included in our benchmark Google's Perspective algorithm, which, along with GPTs, was employed throughout their respective APIs while the open-source LLMs were deployed locally. The findings show that Perspective API using a laxer threshold, GPT-4o, and Nous Hermes 2 Mixtral outperform other LLM's zero-shot classification annotations. In addition, Nous Hermes 2 and Mistral OpenOrca, with a smaller number of parameters, are able to perform the task with high performance, being attractive options that could offer good trade-offs between performance, implementing costs and computing time. Ancillary findings using experiments setting different temperature levels show that although GPTs tend to show not only excellent computing time but also overall good levels of reliability, only open-source LLMs ensure full reproducibility in the annotation.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# OML-AD:時系列データにおける異常検出のためのオンライン機械学習

OML-AD: Online Machine Learning for Anomaly Detection in Time Series Data ( http://arxiv.org/abs/2409.09742v1 )

ライセンス: Link先を確認
Sebastian Wette, Florian Heinrichs, (参考訳) 時系列はユビキタスで、製造プロセスのセンサーによって記録されたデータから、財務データストリームから気候データまで、さまざまなアプリケーションで自然に発生する。 時系列の回帰、分類、セグメンテーションなど、異なるタスクが発生する。 しかし、これらの課題を確実に解決するためには、時系列の通常の振る舞いから逸脱する異常な観測をフィルタリングすることが重要である。 独立データや定常時系列には異常検出法が多数存在するが,非定常時系列には適用できない。 そこで我々は,オンライン機械学習(OML)に基づく異常検出(AD)の新しいアプローチであるOML-ADを提案する。 我々はPythonライブラリRiverにおけるOML-ADの実装を提供し、精度と計算効率の点で最先端のベースライン手法よりも優れていることを示す。

Time series are ubiquitous and occur naturally in a variety of applications -- from data recorded by sensors in manufacturing processes, over financial data streams to climate data. Different tasks arise, such as regression, classification or segmentation of the time series. However, to reliably solve these challenges, it is important to filter out abnormal observations that deviate from the usual behavior of the time series. While many anomaly detection methods exist for independent data and stationary time series, these methods are not applicable to non-stationary time series. To allow for non-stationarity in the data, while simultaneously detecting anomalies, we propose OML-AD, a novel approach for anomaly detection (AD) based on online machine learning (OML). We provide an implementation of OML-AD within the Python library River and show that it outperforms state-of-the-art baseline methods in terms of accuracy and computational efficiency.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# 高次元二次最適化のための(加速)SGDの最適性

The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization ( http://arxiv.org/abs/2409.09745v1 )

ライセンス: Link先を確認
Haihan Zhang, Yuanshi Liu, Qianwen Chen, Cong Fang, (参考訳) 確率勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。 正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。 しかし、高次元学習問題SGDとその加速変種が最適性を達成できるかどうかという根本的な疑問は、まだ十分に研究されていない。 本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。 我々は、運動量加速SGD(ASGD)の収束上限を確立し、SGDまたはASGDがmin-max最適収束率を達成する学習問題の具体的なクラスを提案する。 対象関数のキャラクタリゼーションは、(機能的)線形回帰における標準的なパワーロー崩壊に基づいている。 SGDの学習バイアスを理解するための新たな知見が得られた。 (i)SGDは、対応する重みが無限ノルム制約を受ける「dense」の特徴を学ぶのに効率的である。 (II)SGDは、飽和効果に悩まされることなく、容易な問題に有効である。 三 学習問題が比較的困難である場合には、順に収束率を加速することができる。 我々の知る限り、軽度条件下での問題に対して、SGDとASGDの最適境界を明確に特定する最初の研究である。

Stochastic gradient descent (SGD) is a widely used algorithm in machine learning, particularly for neural network training. Recent studies on SGD for canonical quadratic optimization or linear regression show it attains well generalization under suitable high-dimensional settings. However, a fundamental question -- for what kinds of high-dimensional learning problems SGD and its accelerated variants can achieve optimality has yet to be well studied. This paper investigates SGD with two essential components in practice: exponentially decaying step size schedule and momentum. We establish the convergence upper bound for momentum accelerated SGD (ASGD) and propose concrete classes of learning problems under which SGD or ASGD achieves min-max optimal convergence rates. The characterization of the target function is based on standard power-law decays in (functional) linear regression. Our results unveil new insights for understanding the learning bias of SGD: (i) SGD is efficient in learning ``dense'' features where the corresponding weights are subject to an infinity norm constraint; (ii) SGD is efficient for easy problem without suffering from the saturation effect; (iii) momentum can accelerate the convergence rate by order when the learning problem is relatively hard. To our knowledge, this is the first work to clearly identify the optimal boundary of SGD versus ASGD for the problem under mild settings.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# MLLMの低レベル知覚に関する幻覚を探る

Explore the Hallucination on Low-level Perception for MLLMs ( http://arxiv.org/abs/2409.09748v1 )

ライセンス: Link先を確認
Yinan Sun, Zicheng Zhang, Haoning Wu, Xiaohong Liu, Weisi Lin, Guangtao Zhai, Xiongkuo Min, (参考訳) MLLM(Multi-modality Large Language Models)の急速な発展は、産業や日常生活の様々な側面に大きな影響を与え、視覚的知覚と理解における印象的な能力を示している。 しかし、これらのモデルは、特に低レベルの視覚知覚と理解を含むタスクにおいて、AIシステムとしての信頼性を制限する幻覚も示している。 幻覚は、これらのモデルにおける明示的な自己認識の欠如に起因し、その全体的なパフォーマンスに直接影響を与えている、と私たちは信じています。 本稿では,低レベルの視覚知覚・理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的とする。 この目的のために、低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを紹介し、明度や照明などの低レベルの属性に関連する視覚的質問応答を通じて、低レベルの視覚知覚における自己認識を調査する。 具体的には,2,990枚の画像と1,999枚の画像ペアからなるLLSAVisionQAデータセットを構築する。 15個のMLLMの評価を通して、いくつかのモデルでは頑健な低レベル視覚能力を示すが、その自己認識性は比較的未発達であることを示す。 特に、同じモデルの場合、単純な質問は複雑な質問よりも正確に答えられることが多い。 しかし、より困難な問題に対処する際の自己認識は改善しているように見える。 われわれのベンチマークは、特に低レベルの視覚知覚と理解を含むタスクにおけるMLLMの自己認識性の向上に焦点を当て、さらなる研究を動機付けることを願っている。

The rapid development of Multi-modality Large Language Models (MLLMs) has significantly influenced various aspects of industry and daily life, showcasing impressive capabilities in visual perception and understanding. However, these models also exhibit hallucinations, which limit their reliability as AI systems, especially in tasks involving low-level visual perception and understanding. We believe that hallucinations stem from a lack of explicit self-awareness in these models, which directly impacts their overall performance. In this paper, we aim to define and evaluate the self-awareness of MLLMs in low-level visual perception and understanding tasks. To this end, we present QL-Bench, a benchmark settings to simulate human responses to low-level vision, investigating self-awareness in low-level visual perception through visual question answering related to low-level attributes such as clarity and lighting. Specifically, we construct the LLSAVisionQA dataset, comprising 2,990 single images and 1,999 image pairs, each accompanied by an open-ended question about its low-level features. Through the evaluation of 15 MLLMs, we demonstrate that while some models exhibit robust low-level visual capabilities, their self-awareness remains relatively underdeveloped. Notably, for the same model, simpler questions are often answered more accurately than complex ones. However, self-awareness appears to improve when addressing more challenging questions. We hope that our benchmark will motivate further research, particularly focused on enhancing the self-awareness of MLLMs in tasks involving low-level visual perception and understanding.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# DARDA:ドメイン対応リアルタイムニューラルネットワーク適応

DARDA: Domain-Aware Real-Time Dynamic Neural Network Adaptation ( http://arxiv.org/abs/2409.09753v1 )

ライセンス: Link先を確認
Shahriar Rifat, Jonathan Ashdown, Francesco Restuccia, (参考訳) TTA(Test Time Adaptation)は、入力に影響を及ぼす破損やノイズの存在下でのディープニューラルネットワーク(DNN)の性能劣化を軽減するための実用的なソリューションとして登場した。 TTAの既存のアプローチは、DNNを継続的に適応させ、監督の欠如に起因するエラーの蓄積による過剰なリソース消費と性能低下をもたらす。 本研究では,ドメイン対応リアルタイム動的適応(DARDA)を提案する。 我々の主要なアプローチは、いくつかの汚職タイプの潜伏表現を積極的に学習することであり、それぞれが、汚職によって影響を受ける入力を正しく分類するように調整されたサブネットワーク状態と関連付けられている。 デプロイ後、DARDAはDNNを、教師なしの方法で以前見られなかった汚職に適応させる。 一 進行中の腐敗の遅滞表現を推定すること。 二 汚職が進行中の汚職に最も近い部分ネットワークを選択すること。 三) DNN の状態に適応し、その表現が進行中の腐敗と一致するようにすること。 このようにして、DARDAはリソース効率が良くなり、様々な入力データを必要とすることなく、異なる汚職によって引き起こされる新しい分布に迅速に適応することができる。 Raspberry PiとNVIDIA Jetson Nanoの2つの人気モバイルエッジデバイスによる実験により、DARDAは、最先端技術に関して、それぞれ1.74xと2.64xのエネルギー消費と平均キャッシュメモリフットプリントを削減し、CIFAR-10、CIFAR-100、TinyImagenetでは10.4%、5.7%、そして4.4%のパフォーマンスを向上した。

Test Time Adaptation (TTA) has emerged as a practical solution to mitigate the performance degradation of Deep Neural Networks (DNNs) in the presence of corruption/ noise affecting inputs. Existing approaches in TTA continuously adapt the DNN, leading to excessive resource consumption and performance degradation due to accumulation of error stemming from lack of supervision. In this work, we propose Domain-Aware Real-Time Dynamic Adaptation (DARDA) to address such issues. Our key approach is to proactively learn latent representations of some corruption types, each one associated with a sub-network state tailored to correctly classify inputs affected by that corruption. After deployment, DARDA adapts the DNN to previously unseen corruptions in an unsupervised fashion by (i) estimating the latent representation of the ongoing corruption; (ii) selecting the sub-network whose associated corruption is the closest in the latent space to the ongoing corruption; and (iii) adapting DNN state, so that its representation matches the ongoing corruption. This way, DARDA is more resource efficient and can swiftly adapt to new distributions caused by different corruptions without requiring a large variety of input data. Through experiments with two popular mobile edge devices - Raspberry Pi and NVIDIA Jetson Nano - we show that DARDA reduces energy consumption and average cache memory footprint respectively by 1.74x and 2.64x with respect to the state of the art, while increasing the performance by 10.4%, 5.7% and 4.4% on CIFAR-10, CIFAR-100 and TinyImagenet.
翻訳日:2024-09-17 17:40:52 公開日:2024-09-15
# All-in-Focus収差補正と単眼深度推定による単焦点可変深度イメージングに向けて

Towards Single-Lens Controllable Depth-of-Field Imaging via All-in-Focus Aberration Correction and Monocular Depth Estimation ( http://arxiv.org/abs/2409.09754v1 )

ライセンス: Link先を確認
Xiaolong Qian, Qi Jiang, Yao Gao, Shaohua Gao, Zhonghua Yi, Lei Sun, Kai Wei, Haifeng Li, Kailun Yang, Kaiwei Wang, Jian Bai, (参考訳) コントロール可能なDepth-of-Field(DoF)イメージングは、重くて高価なハイエンドレンズをベースとした素晴らしい視覚効果を一般的に生み出す。 しかし,モバイルシナリオの需要が増大する中で,Minimalist Optical Systems (MOS) による軽量ソリューションの実現が望ましい。 この研究は、MOSの2つの大きな限界、すなわち重度の光学収差と制御不能なDoFを中心とし、計算方法で単レンズ制御可能なDoFイメージングを実現する。 AiF(All-in-Focus)収差補正と単眼深度推定を併用したDepth-aware Controllable DoF Imaging (DCDI) フレームワークを提案する。 深度変化による光学劣化に対処するため,奥行き認識型劣化適応トレーニング(DA2T)方式を導入する。 データセットレベルでは、異なるオブジェクト距離下でのポイントスプレッド関数(PSF)のシミュレーションに基づいて、DAMOS(Depth-aware Aberration MOS)データセットを確立する。 さらに、2つのプラグアンドプレイ深度認識機構を設計し、深度情報を収差画像復元に埋め込むことにより、深度認識の劣化に対処する。 さらに,各種レンズの4次元PSFライブラリを表現するため,ストレージ効率の良いOmni-Lens-Fieldモデルを提案する。 Omni-Lens-Fieldにより推定された深度マップ、復元された画像、深度対応のPSFマップにより、シングルレンズ制御可能なDoFイメージングを実現する。 総合的な実験結果から,提案手法により回復性能が向上し,単レンズ制御可能なDoF撮像結果が得られた。 ソースコードと確立されたデータセットはhttps://github.com/XiaolongQian/DCDIで公開されている。

Controllable Depth-of-Field (DoF) imaging commonly produces amazing visual effects based on heavy and expensive high-end lenses. However, confronted with the increasing demand for mobile scenarios, it is desirable to achieve a lightweight solution with Minimalist Optical Systems (MOS). This work centers around two major limitations of MOS, i.e., the severe optical aberrations and uncontrollable DoF, for achieving single-lens controllable DoF imaging via computational methods. A Depth-aware Controllable DoF Imaging (DCDI) framework is proposed equipped with All-in-Focus (AiF) aberration correction and monocular depth estimation, where the recovered image and corresponding depth map are utilized to produce imaging results under diverse DoFs of any high-end lens via patch-wise convolution. To address the depth-varying optical degradation, we introduce a Depth-aware Degradation-adaptive Training (DA2T) scheme. At the dataset level, a Depth-aware Aberration MOS (DAMOS) dataset is established based on the simulation of Point Spread Functions (PSFs) under different object distances. Additionally, we design two plug-and-play depth-aware mechanisms to embed depth information into the aberration image recovery for better tackling depth-aware degradation. Furthermore, we propose a storage-efficient Omni-Lens-Field model to represent the 4D PSF library of various lenses. With the predicted depth map, recovered image, and depth-aware PSF map inferred by Omni-Lens-Field, single-lens controllable DoF imaging is achieved. Comprehensive experimental results demonstrate that the proposed framework enhances the recovery performance, and attains impressive single-lens controllable DoF imaging results, providing a seminal baseline for this field. The source code and the established dataset will be publicly available at https://github.com/XiaolongQian/DCDI.
翻訳日:2024-09-17 17:30:42 公開日:2024-09-15
# 深層学習に基づくエンゲージメント予測を用いた2速自動伝送における遠心クラッチの解析

Analysis of Centrifugal Clutches in Two-Speed Automatic Transmissions with Deep Learning-Based Engagement Prediction ( http://arxiv.org/abs/2409.09755v1 )

ライセンス: Link先を確認
Bo-Yi Lin, Kai Chun Lin, (参考訳) 本稿では,2速自動変速機と一体化した遠心クラッチシステムの総合的数値解析について述べる。 遠心クラッチは、外部制御なしで回転速度に基づくトルク伝達を可能にする。 本研究は, 異なる条件下でのトルク伝達, アップシフト, ダウンシフト挙動に着目し, 伝達力学に対するクラッチ構成の影響を系統的に検討した。 ディープニューラルネットワーク(DNN)モデルは、スプリングプリロードや靴の質量といったパラメータを使ってクラッチエンゲージメントを予測し、複雑なシミュレーションの効率的な代替手段を提供する。 ディープラーニングと数値モデリングの統合はクラッチ設計を最適化し、伝達性能と効率を向上するための重要な洞察を提供する。

This paper presents a comprehensive numerical analysis of centrifugal clutch systems integrated with a two-speed automatic transmission, a key component in automotive torque transfer. Centrifugal clutches enable torque transmission based on rotational speed without external controls. The study systematically examines various clutch configurations effects on transmission dynamics, focusing on torque transfer, upshifting, and downshifting behaviors under different conditions. A Deep Neural Network (DNN) model predicts clutch engagement using parameters such as spring preload and shoe mass, offering an efficient alternative to complex simulations. The integration of deep learning and numerical modeling provides critical insights for optimizing clutch designs, enhancing transmission performance and efficiency.
翻訳日:2024-09-17 17:30:42 公開日:2024-09-15
# MesonGS: 効率的な属性変換による3次元ガウスの学習後圧縮

MesonGS: Post-training Compression of 3D Gaussians via Efficient Attribute Transformation ( http://arxiv.org/abs/2409.09756v1 )

ライセンス: Link先を確認
Shuzhao Xie, Weixiang Zhang, Chen Tang, Yunpeng Bai, Rongwei Lu, Shijia Ge, Zhi Wang, (参考訳) 3D Gaussian Splattingは、新規なビュー合成において優れた品質と速度を示す。 それでも、3Dガウシアンの巨大なファイルサイズは、送信とストレージの課題を提示している。 現在の作業では、3Dガウスの相当量の体積と特性を置き換えるためにコンパクトなモデルを設計し、情報を蒸留するための集中的な訓練を行っている。 これらの取り組みには相当な訓練時間が必要であり、実践的な配備には厳しいハードルが伴う。 この目的のために,3次元ガウス圧縮後のコーデックであるMesonGSを提案する。 まず、各ガウス点がレンダリング出力に与える影響を評価するために、ビュー依存因子とビュー非依存因子の両方を考慮した測定基準を導入し、重要点の除去を可能にする。 その後、後続のエントロピー符号化技術を補完する2つの変換によって属性のエントロピーを減らし、ファイル圧縮率を向上する。 具体的には、まず回転四元数とオイラー角を置換し、次に、領域適応的階層変換を鍵属性に適用してエントロピーを減少させる。 最後に、過剰な情報損失を避けるために、よりきめ細かい量子化を採用する。 また、品質の回復を図るために、巧妙なファインチューン方式が考案されている。 大規模な実験により、MesonGSは競争品質を維持しながら3Dガウスのサイズを著しく減少させることが示された。

3D Gaussian Splatting demonstrates excellent quality and speed in novel view synthesis. Nevertheless, the huge file size of the 3D Gaussians presents challenges for transmission and storage. Current works design compact models to replace the substantial volume and attributes of 3D Gaussians, along with intensive training to distill information. These endeavors demand considerable training time, presenting formidable hurdles for practical deployment. To this end, we propose MesonGS, a codec for post-training compression of 3D Gaussians. Initially, we introduce a measurement criterion that considers both view-dependent and view-independent factors to assess the impact of each Gaussian point on the rendering output, enabling the removal of insignificant points. Subsequently, we decrease the entropy of attributes through two transformations that complement subsequent entropy coding techniques to enhance the file compression rate. More specifically, we first replace rotation quaternions with Euler angles; then, we apply region adaptive hierarchical transform to key attributes to reduce entropy. Lastly, we adopt finer-grained quantization to avoid excessive information loss. Moreover, a well-crafted finetune scheme is devised to restore quality. Extensive experiments demonstrate that MesonGS significantly reduces the size of 3D Gaussians while preserving competitive quality.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# ELMI: 歌声署名のための歌詞の対話的かつインテリジェントな手話翻訳

ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing ( http://arxiv.org/abs/2409.09760v1 )

ライセンス: Link先を確認
Suhyeon Yoo, Khai N. Truong, Young-Ho Kim, (参考訳) ビデオ共有プラットフォームでは、D/Deafやリスニング・ソングシグナーが一般的になるが、手話に曲を翻訳するのは面倒でアクセスしづらい。 我々の形式的研究は、意味論、構文論、表現論、翻訳におけるリズム的考察を含む、歌声シグナーが直面する課題を明らかにした。 ELMIは,歌詞を手話に翻訳するのを支援する,アクセス可能な楽曲署名ツールである。 ELMIでは、リアルタイムでシンクされた歌詞のハイライトとミュージックビデオのスニペットを使って、グロースを1行ずつ編集できる。 ユーザーは大きな言語モデル駆動AIとチャットして、意味、光沢、動機付け、タイミングについて議論することもできる。 13人のソングシグナーによる探索的研究を通じて,ELMIのワークフローの促進と,LLMによる翻訳チャットの活用と受信方法を検討した。 参加者はELMIの楽曲署名に成功し、活発な議論が行われた。 彼らはまた、彼らの翻訳における信頼と独立性の改善を報告し、ELMIは励まし、建設的、情報的であった。 文化に敏感な楽曲署名翻訳におけるLLMの活用に関する設計上の意義について論じる。

d/Deaf and hearing song-signers become prevalent on video-sharing platforms, but translating songs into sign language remains cumbersome and inaccessible. Our formative study revealed the challenges song-signers face, including semantic, syntactic, expressive, and rhythmic considerations in translations. We present ELMI, an accessible song-signing tool that assists in translating lyrics into sign language. ELMI enables users to edit glosses line-by-line, with real-time synced lyric highlighting and music video snippets. Users can also chat with a large language model-driven AI to discuss meaning, glossing, emoting, and timing. Through an exploratory study with 13 song-signers, we examined how ELMI facilitates their workflows and how song-signers leverage and receive an LLM-driven chat for translation. Participants successfully adopted ELMI to song-signing, with active discussions on the fly. They also reported improved confidence and independence in their translations, finding ELMI encouraging, constructive, and informative. We discuss design implications for leveraging LLMs in culturally sensitive song-signing translations.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# シングルボディPET/CTにおけるマルチトラセッティングにおける自動病変分割

Automated Lesion Segmentation in Whole-Body PET/CT in a multitracer setting ( http://arxiv.org/abs/2409.09766v1 )

ライセンス: Link先を確認
Qiaoyi Xue, Youdan Feng, Jiayi Liu, Tianming Xu, Kaixin Shen, Chuyun Shen, Yuhang Shi, (参考訳) 本研究はFDGおよびPSMA PET/CT画像における病変の自動分割のためのワークフローについて検討する。 FDGとPSMAのイメージ特性にかなりの違いがあるため、特別な前処理ステップが必要である。 データ分類にYOLOv8を用いると、FDGとPSMAの画像を個別に前処理してセグメント化モデルに投入し、病変分割精度を向上させる。 本研究は,マルチトラックPET画像の自動セグメンテーションワークフローの性能を評価することに焦点を当てた。 これらの知見は、診断ワークフローの強化と患者固有の治療計画に重要な洞察を与えるものと期待されている。 私たちのコードは、https://github.com/jiayiliu-pku/AP2024.comで公開されます。

This study explores a workflow for automated segmentation of lesions in FDG and PSMA PET/CT images. Due to the substantial differences in image characteristics between FDG and PSMA, specialized preprocessing steps are required. Utilizing YOLOv8 for data classification, the FDG and PSMA images are preprocessed separately before feeding them into the segmentation models, aiming to improve lesion segmentation accuracy. The study focuses on evaluating the performance of automated segmentation workflow for multitracer PET images. The findings are expected to provide critical insights for enhancing diagnostic workflows and patient-specific treatment plans. Our code will be open-sourced and available at https://github.com/jiayiliu-pku/AP2024.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# 類似性誘導型コントラストクラスタリングによるマルチビューグラフ異常検出に向けて

Towards Multi-view Graph Anomaly Detection with Similarity-Guided Contrastive Clustering ( http://arxiv.org/abs/2409.09770v1 )

ライセンス: Link先を確認
Lecheng Zheng, John R. Birge, Yifang Zhang, Jingrui He, (参考訳) グラフ上の異常検出は多くの実世界のアプリケーションにおいて重要な役割を果たす。 通常、これらのデータは複数のタイプ(例えば、財務データのためのユーザ情報やトランザクションレコード)で構成されており、ビューの不均一性を示す。 したがって、このような多視点情報を活用して、グラフの文脈情報を学習して稀な異常を識別することは困難である。 この問題に対処するために、多くのディープラーニングベースの手法は、優れた表現を学習するための正規化用語として対照的な学習損失を利用する。 しかし,既存のコントラストベースの手法の多くは,従来のコントラスト学習の損失が意味情報(クラスメンバーシップ情報など)を考慮できないことを示している。 さらに,クラスタリングに基づくコントラスト学習が準最適解につながることも理論的に示している。 そこで本稿では,類似性誘導型コントラスト損失により正規化され,異常ノードを検出するオートエンコーダベースのクラスタリングフレームワークを提案する。 具体的には、モデルが正対と負対のハードマージン制約を課すことなく、ロバスト表現を学習するための類似性マップを構築する。 理論的には、提案した類似性誘導損失は対照的な学習損失の変種であり、グラフスペクトルクラスタリングとの接続による信頼できない擬似ラベルの問題を軽減する方法を示す。 いくつかのデータセットに対する実験結果から,提案フレームワークの有効性と有効性を示す。

Anomaly detection on graphs plays an important role in many real-world applications. Usually, these data are composed of multiple types (e.g., user information and transaction records for financial data), thus exhibiting view heterogeneity. Therefore, it can be challenging to leverage such multi-view information and learn the graph's contextual information to identify rare anomalies. To tackle this problem, many deep learning-based methods utilize contrastive learning loss as a regularization term to learn good representations. However, many existing contrastive-based methods show that traditional contrastive learning losses fail to consider the semantic information (e.g., class membership information). In addition, we theoretically show that clustering-based contrastive learning also easily leads to a sub-optimal solution. To address these issues, in this paper, we proposed an autoencoder-based clustering framework regularized by a similarity-guided contrastive loss to detect anomalous nodes. Specifically, we build a similarity map to help the model learn robust representations without imposing a hard margin constraint between the positive and negative pairs. Theoretically, we show that the proposed similarity-guided loss is a variant of contrastive learning loss, and how it alleviates the issue of unreliable pseudo-labels with the connection to graph spectral clustering. Experimental results on several datasets demonstrate the effectiveness and efficiency of our proposed framework.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# $f$-divergence最小化によるテキスト・画像生成のアライメントパラダイムの一般化

Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$-divergence Minimization ( http://arxiv.org/abs/2409.09774v1 )

ライセンス: Link先を確認
Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang, (参考訳) 直接選好最適化(DPO)は、最近、大きな言語モデル(LLM)の整合化から、テキストから画像モデルと人間の選好の整合化まで、その成功例を拡張した。 しかし, これらの手法は, 微調整モデルと参照モデルとのアライメント過程において, 逆クルバック・リーブラー分岐の最小化にのみ依存している。 本研究では,テキスト・ツー・イメージ・モデルのアライメントパラダイムにおける逆のKullback-Leibler分散を$f$-divergenceに拡張することに着目し,優れたアライメント性能と優れた世代多様性を実現することを目的とした。 我々は、$f$-divergence条件下でのアライメントパラダイムの一般化式を提供し、勾配場の観点から異なる分散制約がアライメントプロセスに与える影響を徹底的に分析する。 本研究では, 画像テキストアライメント性能, 人的価値アライメント性能, 世代多様性パフォーマンスを, 異なる分散制約下で総合的に評価し, イェンセン=シャノンの発散に基づくアライメントが, それらの間に最高のトレードオフをもたらすことを示す。 テキストと画像のアライメントに使用する分散オプションは、アライメント性能(特に人的価値アライメント)とジェネレーション多様性のトレードオフに大きく影響する。

Direct Preference Optimization (DPO) has recently expanded its successful application from aligning large language models (LLMs) to aligning text-to-image models with human preferences, which has generated considerable interest within the community. However, we have observed that these approaches rely solely on minimizing the reverse Kullback-Leibler divergence during alignment process between the fine-tuned model and the reference model, neglecting the incorporation of other divergence constraints. In this study, we focus on extending reverse Kullback-Leibler divergence in the alignment paradigm of text-to-image models to $f$-divergence, which aims to garner better alignment performance as well as good generation diversity. We provide the generalized formula of the alignment paradigm under the $f$-divergence condition and thoroughly analyze the impact of different divergence constraints on alignment process from the perspective of gradient fields. We conduct comprehensive evaluation on image-text alignment performance, human value alignment performance and generation diversity performance under different divergence constraints, and the results indicate that alignment based on Jensen-Shannon divergence achieves the best trade-off among them. The option of divergence employed for aligning text-to-image models significantly impacts the trade-off between alignment performance (especially human value alignment) and generation diversity, which highlights the necessity of selecting an appropriate divergence for practical applications.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# DiFSD: 効率的なエンド・ツー・エンド自動運転のための不確実なデノジングと反復的リファインメントを備えたEgo-Centric Fully Sparse Paradigm

DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving ( http://arxiv.org/abs/2409.09777v1 )

ライセンス: Link先を確認
Haisheng Su, Wei Wu, Junchi Yan, (参考訳) 現在のエンドツーエンドの自動運転手法では、様々なタスク(知覚、予測、計画など)のためのモジュラー設計を統合する。 完全に差別化可能なフレームワークを備えた計画指向の精神で最適化されているが、既存のエゴ中心設計のエンド・ツー・エンド駆動システムは、ラスタ化されたシーン表現学習と冗長な情報伝達のために、未だに満足のいく性能と低効率に悩まされている。 本稿では,人間の運転行動を再考し,エンド・ツー・エンド自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。 特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 スパース認識モジュールは、運転シーンのスパース表現に基づいて、検出、追跡、オンラインマッピングを行う。 階層的な相互作用モジュールは、クローズト・イン・パス・ビークル/ステイナリー(CIPV/CIPS)を粗いものから粗いものへ選択することを目的としており、追加の幾何学的事前の恩恵を受けている。 反復運動プランナについては,複数モードのエゴ軌道を反復的に最適化した共同動作予測において,選択された対話エージェントとエゴ車両の両方が考慮される。 さらに、不確実性モデリングのために、位置レベルの運動拡散と軌道レベルの計画記述の両方を導入し、フレームワーク全体のトレーニング安定性と収束を容易にする。 nuScenesデータセット上で行った大規模な実験は、DiFSDの優れた計画性能と優れた効率を示しており、これは平均L2誤差をUniADより大幅に低減し、衝突速度をUniADより低くし、より高速なランニング効率を実現している。

Current end-to-end autonomous driving methods resort to unifying modular designs for various tasks (e.g. perception, prediction and planning). Although optimized in a planning-oriented spirit with a fully differentiable framework, existing end-to-end driving systems without ego-centric designs still suffer from unsatisfactory performance and inferior efficiency, owing to the rasterized scene representation learning and redundant information transmission. In this paper, we revisit the human driving behavior and propose an ego-centric fully sparse paradigm, named DiFSD, for end-to-end self-driving. Specifically, DiFSD mainly consists of sparse perception, hierarchical interaction and iterative motion planner. The sparse perception module performs detection, tracking and online mapping based on sparse representation of the driving scene. The hierarchical interaction module aims to select the Closest In-Path Vehicle / Stationary (CIPV / CIPS) from coarse to fine, benefiting from an additional geometric prior. As for the iterative motion planner, both selected interactive agents and ego-vehicle are considered for joint motion prediction, where the output multi-modal ego-trajectories are optimized in an iterative fashion. Besides, both position-level motion diffusion and trajectory-level planning denoising are introduced for uncertainty modeling, thus facilitating the training stability and convergence of the whole framework. Extensive experiments conducted on nuScenes dataset demonstrate the superior planning performance and great efficiency of DiFSD, which significantly reduces the average L2 error by \textbf{66\%} and collision rate by \textbf{77\%} than UniAD while achieves \textbf{8.2$\times$} faster running efficiency.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# Rewind-to-Delete: 非凸関数のための認定機械アンラーニング

Rewind-to-Delete: Certified Machine Unlearning for Nonconvex Functions ( http://arxiv.org/abs/2409.09778v1 )

ライセンス: Link先を確認
Siqiao Mu, Diego Klabjan, (参考訳) 機械学習アルゴリズムは、データのプライバシを強制したり、破損したデータや時代遅れのデータを削除したり、ユーザの‘忘れられる権利’を尊重するために、スクラッチからデータを再トレーニングすることなく、モデルから効率的にデータを削除することを目的としている。 「認定機械アンラーニング」は、モデルの重みからデータが消去される範囲を定量化する強力な理論的保証である。従来は、便利な収束保証とグローバル・ミニマの存在から恩恵を受ける凸や強凸の損失関数を訓練したモデルに重点を置いていた。非凸目的に対しては、既存のアルゴリズムは、実用的な実装を妨げる仮定や高価な計算に頼っている。本研究では、学習過程の早い段階で「巻き戻し」によって引き起こされる一般的な非凸の損失関数を学習するための単純な一階述語アルゴリズムを提案し、その後、保持されたデータポイントの損失関数に傾倒する。 我々のアルゴリズムはブラックボックスであり、未学習の事前考慮なしに、バニラ勾配降下で事前訓練されたモデルに直接適用することができる。 我々は、Polyak-Lojasiewiczの不等式を満たす非凸関数を特に考慮して、アルゴリズムのプライバシ・ユーティリティ・複雑さのトレードオフを確立するための認定未学習と性能保証を$(\epsilon, \delta)$で証明する。

Machine unlearning algorithms aim to efficiently remove data from a model without retraining it from scratch, in order to enforce data privacy, remove corrupted or outdated data, or respect a user's ``right to be forgotten." Certified machine unlearning is a strong theoretical guarantee that quantifies the extent to which data is erased from the model weights. Most prior works in certified unlearning focus on models trained on convex or strongly convex loss functions, which benefit from convenient convergence guarantees and the existence of global minima. For nonconvex objectives, existing algorithms rely on limiting assumptions and expensive computations that hinder practical implementations. In this work, we propose a simple first-order algorithm for unlearning on general nonconvex loss functions which unlearns by ``rewinding" to an earlier step during the learning process and then performs gradient descent on the loss function of the retained data points. Our algorithm is black-box, in that it can be directly applied to models pretrained with vanilla gradient descent with no prior consideration of unlearning. We prove $(\epsilon, \delta)$ certified unlearning and performance guarantees that establish the privacy-utility-complexity tradeoff of our algorithm, with special consideration for nonconvex functions that satisfy the Polyak-Lojasiewicz inequality.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# 脱毛・色復元による水中画像の強調

Underwater Image Enhancement via Dehazing and Color Restoration ( http://arxiv.org/abs/2409.09779v1 )

ライセンス: Link先を確認
Chengqin Wu, Shuai Yu, Qingson Hu, Jingxiang Xu, Lijun Zhang, (参考訳) 海洋資源抽出や海洋調査などの海洋工学プロジェクトの急速な発展に伴い、水中のビジュアルイメージングと分析が重要な技術となっている。 残念なことに、水中環境における光の避けられない非線形減衰のため、水中の画像やビデオは低コントラスト、ぼかし、色劣化に悩まされ、その後の研究を著しく複雑にしている。 既存の水中画像強調法は、ヘイズとカラーキャストを統一的な劣化過程として扱い、独立性や相互依存を無視し、性能改善を制限していることが多い。 本稿では,水中画像の品質を向上させるために,視覚変換器(ViT)ベースのネットワーク(WaterFormer)を提案する。 WaterFormerには3つの主要なコンポーネントが含まれている: 自己相関型ヘイズ機能をキャプチャし、深いレベルの特徴を抽出するデハズブロック(DehazeFormer Block)、自己相関型カラーキャスト機能をキャプチャするカラー復元ブロック(CRB)、ネットワーク内の融合機能をキャプチャするチャンネルフュージョンブロック(CFB)である。 信頼性を確保するため、水中イメージング物理モデルに基づくソフトリコンストラクション層を含む。 改良画像の品質向上のために,ネットワークのトレーニングにクロマティック一貫性損失とソベルカラー損失を導入する。 総合的な実験結果から、ウォーターホルダーは水中画像の高精細化において、他の最先端の手法よりも優れていることが示されている。

With the rapid development of marine engineering projects such as marine resource extraction and oceanic surveys, underwater visual imaging and analysis has become a critical technology. Unfortunately, due to the inevitable non-linear attenuation of light in underwater environments, underwater images and videos often suffer from low contrast, blurriness, and color degradation, which significantly complicate the subsequent research. Existing underwater image enhancement methods often treat the haze and color cast as a unified degradation process and disregard their independence and interdependence, which limits the performance improvement. Here, we propose a Vision Transformer (ViT)-based network (referred to as WaterFormer) to improve the underwater image quality. WaterFormer contains three major components: a dehazing block (DehazeFormer Block) to capture the self-correlated haze features and extract deep-level features, a Color Restoration Block (CRB) to capture self-correlated color cast features, and a Channel Fusion Block (CFB) to capture fusion features within the network. To ensure authenticity, a soft reconstruction layer based on the underwater imaging physics model is included. To improve the quality of the enhanced images, we introduce the Chromatic Consistency Loss and Sobel Color Loss to train the network. Comprehensive experimental results demonstrate that WaterFormer outperforms other state-of-the-art methods in enhancing underwater images.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# RandALO: タイムフラットでのサンプル外リスク推定

RandALO: Out-of-sample risk estimation in no time flat ( http://arxiv.org/abs/2409.09781v1 )

ライセンス: Link先を確認
Parth T. Nobel, Daniel LeJeune, Emmanuel J. Candès, (参考訳) 大規模な高次元データセットでトレーニングされたモデルのサンプル外リスクの推定は、マシンラーニングプロセスにおいて高価だが不可欠な部分であり、実践者がハイパーパラメータを最適にチューニングすることができる。 クロスバリデーション(Cross-validation, CV)は、リスク推定のデファクトスタンダードとして機能するが、計算コスト(リーブ・ワン・アウト・CV)に対して高いバイアス(K$fold CV)の取引が不十分である。 本稿では,高次元におけるリスクの一貫した推定器であるとともに,計算コストも$K$-fold CVよりも低いランダム化された約1回のリスク推定器を提案する。 我々は、合成データと実データに関する広範なシミュレーションを行い、PyPIでrundaloとして利用可能なRandALOとhttps://github.com/cvxgrp/randaloで実装したユーザフレンドリーなPythonパッケージを提供しています。

Estimating out-of-sample risk for models trained on large high-dimensional datasets is an expensive but essential part of the machine learning process, enabling practitioners to optimally tune hyperparameters. Cross-validation (CV) serves as the de facto standard for risk estimation but poorly trades off high bias ($K$-fold CV) for computational cost (leave-one-out CV). We propose a randomized approximate leave-one-out (RandALO) risk estimator that is not only a consistent estimator of risk in high dimensions but also less computationally expensive than $K$-fold CV. We support our claims with extensive simulations on synthetic and real data and provide a user-friendly Python package implementing RandALO available on PyPI as randalo and at https://github.com/cvxgrp/randalo.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# リプシッツ帯域を用いたディープニューラルネットワークの学習速度最適化

Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits ( http://arxiv.org/abs/2409.09783v1 )

ライセンス: Link先を確認
Padma Priyanka, Sheetal Kalyani, Avhishek Chatterjee, (参考訳) 学習率はニューラルネットワークのトレーニングにおいて重要なパラメータである。 適切に調整された学習率によって、より高速なトレーニングとテストの精度が向上する。 本稿では,ニューラルネットワークの学習率を調整するためのLipschitz bandit-drivenアプローチを提案する。 提案手法は,ハイパーパラメータ最適化に広く用いられているHyperOpt手法と,最近開発されたBliEアルゴリズムとの比較を行った。 複数のニューラルネットワークアーキテクチャの結果から,本手法が学習率の向上に寄与することが示唆された。 a) 評価が少なくなること b)HyperOptおよびBLiEと比較して評価毎のエポック数が少ない。 したがって、提案手法により、ニューラルネットワークのより効率的なトレーニングが可能となり、トレーニング時間が短縮され、計算コストが低減される。

Learning rate is a crucial parameter in training of neural networks. A properly tuned learning rate leads to faster training and higher test accuracy. In this paper, we propose a Lipschitz bandit-driven approach for tuning the learning rate of neural networks. The proposed approach is compared with the popular HyperOpt technique used extensively for hyperparameter optimization and the recently developed bandit-based algorithm BLiE. The results for multiple neural network architectures indicate that our method finds a better learning rate using a) fewer evaluations and b) lesser number of epochs per evaluation, when compared to both HyperOpt and BLiE. Thus, the proposed approach enables more efficient training of neural networks, leading to lower training time and lesser computational cost.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# 深層学習と高度なデータ前処理技術を用いたPET/CT画像における病変分割の促進

Enhancing Lesion Segmentation in PET/CT Imaging with Deep Learning and Advanced Data Preprocessing Techniques ( http://arxiv.org/abs/2409.09784v1 )

ライセンス: Link先を確認
Jiayi Liu, Qiaoyi Xue, Youdan Feng, Tianming Xu, Kaixin Shen, Chuyun Shen, Yuhang Shi, (参考訳) 世界的がん負担の増大は、腫瘍学における正確な診断ツールの重要性を浮き彫りにしている。 本研究は, PET/CT画像における病変セグメンテーションの深層学習を用いて, 900体FDG-PET/CTとオートPETチャレンジIIIによる600 PSMA-PET/CTのデータセットを用いた。 我々の方法論的アプローチは、モデルの堅牢性と一般化性を保証するために、ロバストな前処理とデータ拡張技術を含む。 我々は、RandGaussianSharpenの導入やガンマ変換パラメータの調整など、非ゼロ正規化とデータ拡張パイプラインへの修正の影響について検討する。 本研究の目的は,PET/CT画像における前処理および拡張戦略の標準化に寄与することであり,がん患者の診断精度とパーソナライズされた管理を改善することにある。 私たちのコードは、https://github.com/jiayiliu-pku/DC2024.comで公開されます。

The escalating global cancer burden underscores the critical need for precise diagnostic tools in oncology. This research employs deep learning to enhance lesion segmentation in PET/CT imaging, utilizing a dataset of 900 whole-body FDG-PET/CT and 600 PSMA-PET/CT studies from the AutoPET challenge III. Our methodical approach includes robust preprocessing and data augmentation techniques to ensure model robustness and generalizability. We investigate the influence of non-zero normalization and modifications to the data augmentation pipeline, such as the introduction of RandGaussianSharpen and adjustments to the Gamma transform parameter. This study aims to contribute to the standardization of preprocessing and augmentation strategies in PET/CT imaging, potentially improving the diagnostic accuracy and the personalized management of cancer patients. Our code will be open-sourced and available at https://github.com/jiayiliu-pku/DC2024.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# 大規模言語モデルに基づく生成誤り訂正:音声認識、話者タグ付け、感情認識の課題と基礎

Large Language Model Based Generative Error Correction: A Challenge and Baselines forSpeech Recognition, Speaker Tagging, and Emotion Recognition ( http://arxiv.org/abs/2409.09785v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Taejin Park, Yuan Gong, Yuanchao Li, Zhehuai Chen, Yen-Ting Lin, Chen Chen, Yuchen Hu, Kunal Dhawan, Piotr Żelasko, Chao Zhang, Yun-Nung Chen, Yu Tsao, Jagadeesh Balam, Boris Ginsburg, Sabato Marco Siniscalchi, Eng Siong Chng, Peter Bell, Catherine Lai, Shinji Watanabe, Andreas Stolcke, (参考訳) 生成AI技術の最近の進歩を踏まえると、大きな言語モデル(LLM)が、凍結した事前訓練された自動音声認識(ASR)モデルからテキストデコード結果を用いて、音響モデリングタスクをどのように強化できるかが重要な疑問である。 音声処理における言語モデリングの新機能を探るため,生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。 この課題は、ASR後の3つの言語モデリングタスクから成っている。 (i)ASR後の転写補正 (二)話者タグ付け、及び (三)感情認識。 これらのタスクは、オープンな事前訓練された言語モデルやエージェントベースのAPIを利用することで、音声ベースのインターフェースを扱う将来のLLMベースのエージェントのエミュレートを目的としている。 また,ベースライン評価から得られた知見や,今後の評価設計における教訓についても論じる。

Given recent advances in generative AI technology, a key question is how large language models (LLMs) can enhance acoustic modeling tasks using text decoding results from a frozen, pretrained automatic speech recognition (ASR) model. To explore new capabilities in language modeling for speech processing, we introduce the generative speech transcription error correction (GenSEC) challenge. This challenge comprises three post-ASR language modeling tasks: (i) post-ASR transcription correction, (ii) speaker tagging, and (iii) emotion recognition. These tasks aim to emulate future LLM-based agents handling voice-based interfaces while remaining accessible to a broad audience by utilizing open pretrained language models or agent-based APIs. We also discuss insights from baseline evaluations, as well as lessons learned for designing future evaluations.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# BEnDEM:ブートストラップ型Denoising Energy Matchingに基づくボルツマンサンプリング

BEnDEM:A Boltzmann Sampler Based on Bootstrapped Denoising Energy Matching ( http://arxiv.org/abs/2409.09787v1 )

ライセンス: Link先を確認
RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato, (参考訳) ボルツマン分布から独立で同一分布のIIDサンプルを生成することができる効率的なサンプリング器の開発は、例えば分子動力学などの科学的研究において重要な課題である。 本研究では,ボルツマン分布から得られたデータの代わりに,エネルギー関数を与えられたニューラルサンプリングを学習する。 ノイズデータのエネルギーを学習することにより,理論上より分散度と複雑さが低い拡散型サンプル装置ENERGY-BASED DENOISING ENERGY MATCHINGを提案する。 さらに, バイアスと分散のバランスをとるために, EnDEM に新しいブートストラップ技術を適用した。 本研究では,2次元ガウス混合モデル (GMM) と4次元粒子重畳ポテンシャル (DW-4) を用いてEnDEMとBEnDEMを評価した。 実験により,BEnDEMはより堅牢でありながら最先端の性能を達成できることが示された。

Developing an efficient sampler capable of generating independent and identically distributed (IID) samples from a Boltzmann distribution is a crucial challenge in scientific research, e.g. molecular dynamics. In this work, we intend to learn neural samplers given energy functions instead of data sampled from the Boltzmann distribution. By learning the energies of the noised data, we propose a diffusion-based sampler, ENERGY-BASED DENOISING ENERGY MATCHING, which theoretically has lower variance and more complexity compared to related works. Furthermore, a novel bootstrapping technique is applied to EnDEM to balance between bias and variance. We evaluate EnDEM and BEnDEM on a 2-dimensional 40 Gaussian Mixture Model (GMM) and a 4-particle double-welling potential (DW-4). The experimental results demonstrate that BEnDEM can achieve state-of-the-art performance while being more robust.
翻訳日:2024-09-17 17:30:41 公開日:2024-09-15
# 参照対象との共振経路による大規模視覚言語モデルにおける空間共振の定量化

Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models ( http://arxiv.org/abs/2409.09788v1 )

ライセンス: Link先を確認
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna, (参考訳) 近年,自然言語を用いた画像の複雑な関係を記述できる視覚言語モデル(VLM)の能力の実証が進んでいるが,物体の大きさや距離を定量的に判断する能力はいまだ検討されていない。 そこで本研究では,空間的推論を定量的に行うために設計された5つのカテゴリにわたる271の質問を手動でアノテートしたベンチマークQ-Spatial Benchを導入し,このタスクにおける最先端のVLMの性能を体系的に検討する。 分析の結果,オブジェクト間の距離の推論は,SoTA VLMでは特に困難であることが判明した。 また,参照オブジェクトを用いた推論パスが応答中に自然に現れると,トップパフォーマンスのVLMの成功率が19ポイント増加するという驚くべき観察を行う。 この観察に触発されて、VLMが視覚的手がかりとして参照対象を用いて量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。 SpacePrompt、Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4Vを通じて、VLMに推論パスで参照オブジェクトを使用するように指示することで、それぞれの成功率が40、20、30ポイント以上向上する。 これらの重要な改善は、より多くのデータ、モデルアーキテクチャの変更、微調整を必要とせずに得られることを強調します。

Despite recent advances demonstrating vision-language models' (VLMs) abilities to describe complex relationships in images using natural language, their capability to quantitatively reason about object sizes and distances remains underexplored. In this work, we introduce a manually annotated benchmark, Q-Spatial Bench, with 271 questions across five categories designed for quantitative spatial reasoning and systematically investigate the performance of state-of-the-art VLMs on this task. Our analysis reveals that reasoning about distances between objects is particularly challenging for SoTA VLMs; however, some VLMs significantly outperform others, with an over 40-point gap between the two best performing models. We also make the surprising observation that the success rate of the top-performing VLM increases by 19 points when a reasoning path using a reference object emerges naturally in the response. Inspired by this observation, we develop a zero-shot prompting technique, SpatialPrompt, that encourages VLMs to answer quantitative spatial questions using reference objects as visual cues. By instructing VLMs to use reference objects in their reasoning paths via SpatialPrompt, Gemini 1.5 Pro, Gemini 1.5 Flash, and GPT-4V improve their success rates by over 40, 20, and 30 points, respectively. We emphasize that these significant improvements are obtained without needing more data, model architectural modifications, or fine-tuning.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 拘束された重み付き深度行列係数による複数回転平均化

Multiple Rotation Averaging with Constrained Reweighting Deep Matrix Factorization ( http://arxiv.org/abs/2409.09790v1 )

ライセンス: Link先を確認
Shiqi Li, Jihua Zhu, Yifan Xie, Naiwen Hu, Mingchen Zhu, Zhongyu Li, Di Wang, (参考訳) コンピュータビジョンとロボティクス領域では、複数の回転平均化が重要な役割を果たす。 従来の最適化手法は,特定の雑音仮定に基づいて非線形コスト関数を最適化するが,従来の学習手法では教師あり学習過程において基底真理ラベルを必要とする。 本稿では,実世界のすべてのシナリオにおいて,手作り騒音の仮定が妥当ではないことを認識し,ラベルの要求を回避しつつ,学習方法でデータパターンをマイニングする効果的な回転平均化手法を提案する。 具体的には、非制約線型空間における多重回転平均化問題を直接解くために、ディープ行列分解を適用する。 深い行列係数化のために、我々は、複数回転平均化の背景に合うように、明らかに低ランクで対称なニューラルネットワークモデルを設計する。 一方,木をベースとしたエッジフィルタを用いて,回転外乱の影響を抑える。 さらに、ロバスト性をさらに向上するために、再重み付けスキームと動的深度選択戦略も採用しています。 本手法は最適化法と学習法の両方の利点を合成する。 提案手法の有効性を検証した各種データセットの実験結果を得た。

Multiple rotation averaging plays a crucial role in computer vision and robotics domains. The conventional optimization-based methods optimize a nonlinear cost function based on certain noise assumptions, while most previous learning-based methods require ground truth labels in the supervised training process. Recognizing the handcrafted noise assumption may not be reasonable in all real-world scenarios, this paper proposes an effective rotation averaging method for mining data patterns in a learning manner while avoiding the requirement of labels. Specifically, we apply deep matrix factorization to directly solve the multiple rotation averaging problem in unconstrained linear space. For deep matrix factorization, we design a neural network model, which is explicitly low-rank and symmetric to better suit the background of multiple rotation averaging. Meanwhile, we utilize a spanning tree-based edge filtering to suppress the influence of rotation outliers. What's more, we also adopt a reweighting scheme and dynamic depth selection strategy to further improve the robustness. Our method synthesizes the merit of both optimization-based and learning-based methods. Experimental results on various datasets validate the effectiveness of our proposed method.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 不均衡金融リスクデータに基づく自己学習によるデータ品質向上

Enhancing Data Quality through Self-learning on Imbalanced Financial Risk Data ( http://arxiv.org/abs/2409.09792v1 )

ライセンス: Link先を確認
Xu Sun, Zixuan Qin, Shun Zhang, Yuexian Wang, Li Huang, (参考訳) 金融リスク領域、特に信用デフォルト予測や不正検出では、リスクの高いクラスインスタンスの正確な識別が最重要である。 マシンラーニングモデルは、リスク予測のために広く採用されているが、そのパフォーマンスは、高品質なデータの不足と多様性によって妨げられていることが多い。 この制限は、小さなリスクサンプルサイズ、高いラベリングコスト、厳しいクラス不均衡といったデータセットの要素に起因しており、モデルが効果的に学習し、重要な事象を正確に予測する能力を妨げている。 本研究では,(1)マイノリティクラスに特化された合成サンプルを生成し,(2)バイナリフィードバックを用いてサンプルを精査し,(3)擬似ラベルを用いた自己学習を行うことで,既存の金融リスクデータセットを強化するためのデータ前処理技術について検討する。 6つのベンチマークデータセットを対象とした実験により、より堅牢な金融リスク予測システムを開発する上で重要な要素であるマイノリティクラスキャリブレーションの改善に焦点を当てたTriEnhanceの有効性が明らかにされた。

In the financial risk domain, particularly in credit default prediction and fraud detection, accurate identification of high-risk class instances is paramount, as their occurrence can have significant economic implications. Although machine learning models have gained widespread adoption for risk prediction, their performance is often hindered by the scarcity and diversity of high-quality data. This limitation stems from factors in datasets such as small risk sample sizes, high labeling costs, and severe class imbalance, which impede the models' ability to learn effectively and accurately forecast critical events. This study investigates data pre-processing techniques to enhance existing financial risk datasets by introducing TriEnhance, a straightforward technique that entails: (1) generating synthetic samples specifically tailored to the minority class, (2) filtering using binary feedback to refine samples, and (3) self-learning with pseudo-labels. Our experiments across six benchmark datasets reveal the efficacy of TriEnhance, with a notable focus on improving minority class calibration, a key factor for developing more robust financial risk prediction systems.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 敵対的環境におけるフェデレートラーニング--テストベッド設計とサイバーセキュリティのレジリエンス

Federated Learning in Adversarial Environments: Testbed Design and Poisoning Resilience in Cybersecurity ( http://arxiv.org/abs/2409.09794v1 )

ライセンス: Link先を確認
Hao Jian Huang, Bekzod Iskandarov, Mizanur Rahman, Hakan T. Otal, M. Abdullah Canbaz, (参考訳) 本稿では,フェデレート・ラーニング(FL)テストベッドの設計と実装について述べる。 フェデレートラーニング(Federated Learning)は、データプライバシとセキュリティ、特にサイバーセキュリティのようなセンシティブな分野における重要なニーズに対処しながら、データを分散化しながら、複数のクライアントが協力的にグローバルモデルをトレーニングすることを可能にする。 Flowerフレームワークを使用して構築されたテストベッドは、さまざまなFLフレームワークの実験を容易にし、そのパフォーマンス、スケーラビリティ、統合の容易さを評価します。 フェデレートされた侵入検知システムに関するケーススタディを通じて, ネットワークデータの機密化を伴わずに, 異常を検出し, 重要なインフラを確保するテストベッドの能力を実証した。 モデルとデータの整合性の両方をターゲットにした総合的な中毒検査は、敵の条件下でのシステムの堅牢性を評価する。 この結果から,フェデレーション学習はデータのプライバシと分散学習を促進するが,実際のアプリケーションで信頼性を確保するためには,有害な攻撃に対して脆弱であることが示唆された。

This paper presents the design and implementation of a Federated Learning (FL) testbed, focusing on its application in cybersecurity and evaluating its resilience against poisoning attacks. Federated Learning allows multiple clients to collaboratively train a global model while keeping their data decentralized, addressing critical needs for data privacy and security, particularly in sensitive fields like cybersecurity. Our testbed, built using the Flower framework, facilitates experimentation with various FL frameworks, assessing their performance, scalability, and ease of integration. Through a case study on federated intrusion detection systems, we demonstrate the testbed's capabilities in detecting anomalies and securing critical infrastructure without exposing sensitive network data. Comprehensive poisoning tests, targeting both model and data integrity, evaluate the system's robustness under adversarial conditions. Our results show that while federated learning enhances data privacy and distributed learning, it remains vulnerable to poisoning attacks, which must be mitigated to ensure its reliability in real-world applications.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 多面的特徴合成による医用画像分割のための普遍的トポロジー再構成

Universal Topology Refinement for Medical Image Segmentation with Polynomial Feature Synthesis ( http://arxiv.org/abs/2409.09796v1 )

ライセンス: Link先を確認
Liu Li, Hanchun Wang, Matthew Baugh, Qiang Ma, Weitong Zhang, Cheng Ouyang, Daniel Rueckert, Bernhard Kainz, (参考訳) 既存の医用画像分割法は、印象的なピクセル単位での精度を提供するが、トポロジカルな正確さを無視することが多く、多くの下流タスクでは利用できない。 1つの選択肢は、トポロジ駆動の損失コンポーネントを含む、そのようなモデルを再訓練することである。 しかし、これは計算コストが高く、しばしば実用的ではない。 より良い解決策は、任意のドメイン固有のセグメンテーションパイプラインと互換性のある、汎用的なプラグアンドプレイトポロジの洗練方法を持つことである。 トポロジカルエラーを軽減するために、直接処理後のモデルをトレーニングすることはしばしば失敗し、そのようなモデルはターゲットセグメンテーションネットワークのトポロジカルエラーに偏りがちである。 これらのエラーの多様性はラベル付きトレーニングセットが提供する情報に限られており、特に小さなデータセットでは問題となる。 本手法は,多種多様なトポロジ的誤りをカバーする合成セグメンテーションを用いて,モデルに依存しないトポロジ改善ネットワークを訓練することにより,この問題を解決する。 ストーン・ワイエルシュトラスの定理に着想を得て、直交多項式基底のランダムなサンプリング係数で位相摂動マスクを合成し、完全かつ偏りのない表現を保証する。 提案手法の効率と有効性は,多項式基底の複数のファミリーと互換性があることを検証し,我々の汎用的なプラグアンドプレイトポロジ改善ネットワークが既存のトポロジ駆動学習法と後処理法の両方より優れていることを示す。 また,本手法を学習ベースモデルと組み合わせることで,既存手法の性能向上に寄与する無力なアドオンを提供することを示す。

Although existing medical image segmentation methods provide impressive pixel-wise accuracy, they often neglect topological correctness, making their segmentations unusable for many downstream tasks. One option is to retrain such models whilst including a topology-driven loss component. However, this is computationally expensive and often impractical. A better solution would be to have a versatile plug-and-play topology refinement method that is compatible with any domain-specific segmentation pipeline. Directly training a post-processing model to mitigate topological errors often fails as such models tend to be biased towards the topological errors of a target segmentation network. The diversity of these errors is confined to the information provided by a labelled training set, which is especially problematic for small datasets. Our method solves this problem by training a model-agnostic topology refinement network with synthetic segmentations that cover a wide variety of topological errors. Inspired by the Stone-Weierstrass theorem, we synthesize topology-perturbation masks with randomly sampled coefficients of orthogonal polynomial bases, which ensures a complete and unbiased representation. Practically, we verified the efficiency and effectiveness of our methods as being compatible with multiple families of polynomial bases, and show evidence that our universal plug-and-play topology refinement network outperforms both existing topology-driven learning-based and post-processing methods. We also show that combining our method with learning-based models provides an effortless add-on, which can further improve the performance of existing approaches.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# クロスドメイン腺癌切除における領域と内容適応的畳み込み

Domain and Content Adaptive Convolutions for Cross-Domain Adenocarcinoma Segmentation ( http://arxiv.org/abs/2409.09797v1 )

ライセンス: Link先を確認
Frauke Wilm, Mathias Öttl, Marc Aubreville, Katharina Breininger, (参考訳) 病理組織学におけるコンピュータ支援診断の最近の進歩は, 画像の自動解析にディープラーニングモデルを用いることによって大きく進展している。 これらのネットワークは医療専門家と同等に機能するが、そのパフォーマンスはアウト・オブ・ディストリビューション・データによって阻害される。 COSAS(Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation)の課題は、形態学的およびスキャナーによるドメインシフトの存在下でのクロスドメイン腺癌セグメンテーションの課題に対処することであった。 本稿では,この課題に対処するためのU-Netベースのセグメンテーションフレームワークを提案する。 提案手法は,最終チャレンジテストセットのクロススキャントラックでは0.8020,クロススキャントラックでは0.8527のセグメンテーションスコアを得た。

Recent advances in computer-aided diagnosis for histopathology have been largely driven by the use of deep learning models for automated image analysis. While these networks can perform on par with medical experts, their performance can be impeded by out-of-distribution data. The Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation (COSAS) challenge aimed to address the task of cross-domain adenocarcinoma segmentation in the presence of morphological and scanner-induced domain shifts. In this paper, we present a U-Net-based segmentation framework designed to tackle this challenge. Our approach achieved segmentation scores of 0.8020 for the cross-organ track and 0.8527 for the cross-scanner track on the final challenge test sets, ranking it the best-performing submission.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# ディープ埋め込みによるビデオ中の異常事象検出

Abnormal Event Detection In Videos Using Deep Embedding ( http://arxiv.org/abs/2409.09804v1 )

ライセンス: Link先を確認
Darshan Venkatrayappa, (参考訳) 監視ビデオにおける異常事象の検出や異常検出は、現在、起こりうる事象の多様性のために課題となっている。 トレーニング時に異常なイベントが欠如しているため、異常検出には教師なしの学習方法の設計が必要である。 本研究では,ディープニューラルネットワークの目的とハイブリッドアーキテクチャを用いた異常検出タスクを協調的に最適化することを目的とした,ビデオ異常検出のための教師なしアプローチを提案する。 当初、畳み込みオートエンコーダは、深さ、動き、外観の融合を伴う教師なしの方法で事前訓練される。 2番目のステップでは、事前訓練されたオートエンコーダのエンコーダ部を利用して、融合した入力の埋め込みを抽出する。 現在、エンコーダをトレーニング/微調整して、埋め込みをハイパーセンタにマップしています。 したがって、通常のデータの埋め込みはハイパーセンタに近づき、異常データの埋め込みはハイパーセンタから遠く離れている。

Abnormal event detection or anomaly detection in surveillance videos is currently a challenge because of the diversity of possible events. Due to the lack of anomalous events at training time, anomaly detection requires the design of learning methods without supervision. In this work we propose an unsupervised approach for video anomaly detection with the aim to jointly optimize the objectives of the deep neural network and the anomaly detection task using a hybrid architecture. Initially, a convolutional autoencoder is pre-trained in an unsupervised manner with a fusion of depth, motion and appearance features. In the second step, we utilize the encoder part of the pre-trained autoencoder and extract the embeddings of the fused input. Now, we jointly train/ fine tune the encoder to map the embeddings to a hypercenter. Thus, embeddings of normal data fall near the hypercenter, whereas embeddings of anomalous data fall far away from the hypercenter.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# Famba-V:クロス層トーケン融合による高速ビジョンマンバ

Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion ( http://arxiv.org/abs/2409.09808v1 )

ライセンス: Link先を確認
Hui Shen, Zhongwei Wan, Xin Wang, Mi Zhang, (参考訳) MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。 この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。 Famba-Vの鍵となる考え方は、既存の作業が提案するすべてのレイヤに対してトークン融合を均一に適用するのではなく、異なるVim層にまたがって類似したトークンを識別し、融合することである。 CIFAR-100におけるFamba-Vの性能評価を行った。 この結果から,Famba-Vはトレーニング中のトレーニング時間とピークメモリ使用量の両方を削減することで,Vimモデルのトレーニング効率を向上させることができることがわかった。 さらに、提案したクロスレイヤー戦略により、Famba-Vはより優れた精度と効率のトレードオフを提供できる。 これらの結果はいずれも、Famba-V を Vim モデルの有望な効率向上技術として実証している。

Mamba and Vision Mamba (Vim) models have shown their potential as an alternative to methods based on Transformer architecture. This work introduces Fast Mamba for Vision (Famba-V), a cross-layer token fusion technique to enhance the training efficiency of Vim models. The key idea of Famba-V is to identify and fuse similar tokens across different Vim layers based on a suit of cross-layer strategies instead of simply applying token fusion uniformly across all the layers that existing works propose. We evaluate the performance of Famba-V on CIFAR-100. Our results show that Famba-V is able to enhance the training efficiency of Vim models by reducing both training time and peak memory usage during training. Moreover, the proposed cross-layer strategies allow Famba-V to deliver superior accuracy-efficiency trade-offs. These results all together demonstrate Famba-V as a promising efficiency enhancement technique for Vim models.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# PROSE-FD:流体力学予測のための複数演算子学習のための多モードPDE基礎モデル

PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics ( http://arxiv.org/abs/2409.09811v1 )

ライセンス: Link先を確認
Yuxuan Liu, Jingmin Sun, Xinjie He, Griffin Pinney, Zecheng Zhang, Hayden Schaeffer, (参考訳) ProSE-FD, ゼロショット多モードPDE基礎モデルを提案し, 異なる流体力学設定に関連する不均一な2次元物理系の同時予測を行う。 これらの系は浅い水方程式と、圧縮不能で圧縮不能な流れを持つナビエ・ストークス方程式、正規および複素幾何学、および異なる浮力設定を含む。 本研究は,演算子に基づくデータ予測,すなわち非自己回帰(non-autoregressive)を実行するために,シンボル情報を融合する,トランスフォーマーに基づく新しいマルチオペレータ学習手法を提案する。 入力に複数のモダリティを組み込むことで、PDEファンデーションモデルは物理行動の数学的記述を含む経路に構築される。 我々は、60K以上の軌道を含む13のデータセットから収集された6つのパラメトリック方程式の族に関する基礎モデルを事前訓練する。 我々のモデルは、ベンチマークフォワード予測タスクにおいて、一般的な演算子学習、コンピュータビジョン、マルチ物理モデルより優れています。 アーキテクチャの選択をアブレーション研究でテストします。

We propose PROSE-FD, a zero-shot multimodal PDE foundational model for simultaneous prediction of heterogeneous two-dimensional physical systems related to distinct fluid dynamics settings. These systems include shallow water equations and the Navier-Stokes equations with incompressible and compressible flow, regular and complex geometries, and different buoyancy settings. This work presents a new transformer-based multi-operator learning approach that fuses symbolic information to perform operator-based data prediction, i.e. non-autoregressive. By incorporating multiple modalities in the inputs, the PDE foundation model builds in a pathway for including mathematical descriptions of the physical behavior. We pre-train our foundation model on 6 parametric families of equations collected from 13 datasets, including over 60K trajectories. Our model outperforms popular operator learning, computer vision, and multi-physics models, in benchmark forward prediction tasks. We test our architecture choices with ablation studies.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 移動波光パラメトリック増幅におけるモードヒッチ

Mode hitching in traveling-wave optical parametric amplification ( http://arxiv.org/abs/2409.09813v1 )

ライセンス: Link先を確認
Joseph Kelly, Eleanor Fradgley, Vincent Boyer, (参考訳) 移動波構成における光パラメトリック増幅器(OPA)は、信号とアイドラビームの間の局所的な空間量子相関を生成することができる。 本研究は,信号とアイドラービームの古典的横方向ダイナミクスに着目した。 これは、ビームが固定された分離を維持しながら共伝播する傾向を示しており、これはヒッチングと呼ばれる現象である。 数値シミュレーションで検証したヒッチのモデルを提案し,熱水蒸気中の4波長混合(4WM)を用いた実験実験を行った。 OPAゲインが最終ヒッチング距離に大きく影響していることが示される。 これらの結果は、信号の量子ゆらぎとアイドラーの正確な空間対応が重要となる、量子イメージング応用のためのマルチ空間モード圧縮光の生成に影響を及ぼす。

Optical parametric amplifiers (OPAs) in traveling wave configuration can generate localized spatial quantum correlations between a signal and an idler beam, a useful resource for quantum imaging. This study focuses on the classical transverse dynamics of the signal and idler beams when they propagate in a generic thick OPA at a nominally small angle. It shows that the beams tend to copropagate while maintaining a fixed separation, a phenomenon that we term hitching. We provide a model for hitching, validated by a numerical simulation, and we provide an experimental demonstration using four-wave mixing (4WM) in a hot atomic vapor. It shows that the OPA gain is the primary influence on the final hitching distance. These results have implications for the generation of multi-spatial-mode squeezed light for quantum imaging applications, where the exact spatial correspondence between the quantum fluctuations of the signal and the idler is of prime importance.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 変分正規化対実リスク最小化の簡易化

A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization ( http://arxiv.org/abs/2409.09819v1 )

ライセンス: Link先を確認
Hua Chang Bakker, Shashank Gupta, Harrie Oosterhuis, (参考訳) 分散正規化対実リスク最小化(VRCRM)は、代替のオフ・ポリシー・ラーニング(OPL)手法として提案されている。 VRCRM法は,学習中の正規化としてログポリシと対象ポリシの$f$-divergenceの低い値を用いており,マルチラベル分類タスクにおける既存のOPL代替よりも性能が向上することが示されている。 本研究では,VRCRMの当初の実験的な設定を再考し,$f$-divergenceを直接最小化することを提案し,$f$-GANアプローチを用いて下位境界を最適化する。 意外なことに、元の設定で報告された結果を再現できなかったのです。 そこで本研究では,f$-GAN に基づく下界ではなく,f-divergence の直接近似を最小化することで,f-divergence 最適化の新たな選択肢を提案する。 実験の結果,$f$-GANを用いた分散の最小化は期待通りには機能しないことがわかった。

Variance regularized counterfactual risk minimization (VRCRM) has been proposed as an alternative off-policy learning (OPL) method. VRCRM method uses a lower-bound on the $f$-divergence between the logging policy and the target policy as regularization during learning and was shown to improve performance over existing OPL alternatives on multi-label classification tasks. In this work, we revisit the original experimental setting of VRCRM and propose to minimize the $f$-divergence directly, instead of optimizing for the lower bound using a $f$-GAN approach. Surprisingly, we were unable to reproduce the results reported in the original setting. In response, we propose a novel simpler alternative to f-divergence optimization by minimizing a direct approximation of f-divergence directly, instead of a $f$-GAN based lower bound. Experiments showed that minimizing the divergence using $f$-GANs did not work as expected, whereas our proposed novel simpler alternative works better empirically.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 大規模言語モデルによる因果推論:調査

Causal Inference with Large Language Model: A Survey ( http://arxiv.org/abs/2409.09822v1 )

ライセンス: Link先を確認
Jing Ma, (参考訳) 因果推論は医学や経済学などの様々な分野において重要な課題であり、人間の知識、数学的推論、データマイニング能力の複雑な統合を要求している。 自然言語処理(NLP)の最近の進歩、特に大規模言語モデル(LLM)の出現により、従来の因果推論タスクに有望な機会が導入された。 本稿では,LLMを因果推論に適用する最近の進歩を概説する。 主な因果問題とアプローチを要約し、その評価結果を異なる因果シナリオで比較する。 さらに、今後の研究の要点と方向性について論じ、因果推論手法の進歩におけるLCMの統合の可能性について考察する。

Causal inference has been a pivotal challenge across diverse domains such as medicine and economics, demanding a complicated integration of human knowledge, mathematical reasoning, and data mining capabilities. Recent advancements in natural language processing (NLP), particularly with the advent of large language models (LLMs), have introduced promising opportunities for traditional causal inference tasks. This paper reviews recent progress in applying LLMs to causal inference, encompassing various tasks spanning different levels of causation. We summarize the main causal problems and approaches, and present a comparison of their evaluation results in different causal scenarios. Furthermore, we discuss key findings and outline directions for future research, underscoring the potential implications of integrating LLMs in advancing causal inference methodologies.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# GP-GPT:遺伝子フェノタイプマッピングのための大規模言語モデル

GP-GPT: Large Language Model for Gene-Phenotype Mapping ( http://arxiv.org/abs/2409.09825v1 )

ライセンス: Link先を確認
Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu, (参考訳) 生物医学領域では, 自然言語処理の成功により, 事前学習型大規模言語モデル (LLM) が注目されている。 しかし、マルチソースゲノムデータの複雑な特性と不均一性は、これらのモデルをバイオインフォマティクスやバイオメディカル分野に適用する際に大きな課題を生じさせる。 これらの課題に対処するため、GP-GPTは、遺伝的・フェノタイプ知識表現とゲノム関係解析のための最初の専門的な大規模言語モデルである。 本モデルは, ゲノム学, プロテオミクス, 医学遺伝学において3,000,000以上の用語からなる包括的コーパス上で, 大規模に検証された複数のデータセットと学術出版物から得られた2段階の微調整を行った。 GP-GPTは、医学遺伝情報を正確に取得し、ゲノム情報検索や関係決定などの一般的なゲノム解析タスクを実行する能力を示す。 ドメイン固有のタスクの比較実験により、GP-GPTはLlama2、Llama3、GPT-4といった最先端のLLMよりも優れていた。 これらの結果は、GP-GPTが遺伝子疾患研究を強化し、ゲノム学と医学遺伝学の分野における正確かつ効率的な分析を促進する可能性を強調している。 本研究はGP-GPTにおける生体因子の表現の微妙な変化を実証し,遺伝子フェノタイプ研究へのLLMの適用の可能性を示した。

Pre-trained large language models(LLMs) have attracted increasing attention in biomedical domains due to their success in natural language processing. However, the complex traits and heterogeneity of multi-sources genomics data pose significant challenges when adapting these models to the bioinformatics and biomedical field. To address these challenges, we present GP-GPT, the first specialized large language model for genetic-phenotype knowledge representation and genomics relation analysis. Our model is fine-tuned in two stages on a comprehensive corpus composed of over 3,000,000 terms in genomics, proteomics, and medical genetics, derived from multiple large-scale validated datasets and scientific publications. GP-GPT demonstrates proficiency in accurately retrieving medical genetics information and performing common genomics analysis tasks, such as genomics information retrieval and relationship determination. Comparative experiments across domain-specific tasks reveal that GP-GPT outperforms state-of-the-art LLMs, including Llama2, Llama3 and GPT-4. These results highlight GP-GPT's potential to enhance genetic disease relation research and facilitate accurate and efficient analysis in the fields of genomics and medical genetics. Our investigation demonstrated the subtle changes of bio-factor entities' representations in the GP-GPT, which suggested the opportunities for the application of LLMs to advancing gene-phenotype research.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# ロボットエラーがヒューマン・トレーニング・ダイナミクスに及ぼす影響について

On the Effect of Robot Errors on Human Teaching Dynamics ( http://arxiv.org/abs/2409.09827v1 )

ライセンス: Link先を確認
Jindan Huang, Isaac Sheidlower, Reuben M. Aronson, Elaine Schaertl Short, (参考訳) ヒューマン・イン・ザ・ループ・ラーニング(Human-in-the-loop learning)は、特にロボット工学の分野で人気を集めている。 ロボットに教えると、ロボットのパフォーマンスの変化に応じて、自然に教える行動に適応する。 現在の研究は主に、アルゴリズムの観点からの人間の教育力学の統合に焦点を当てているが、人間中心の観点からこれらの力学を理解することは、未調査だが根本的な問題である。 この問題に対処することで、ロボット学習とユーザーエクスペリエンスの両方が強化される。 そこで本研究では,人間の教えのダイナミックな性質に寄与する1つの可能性として,ロボットの誤りについて考察する。 本研究では,ロボットの誤りの有無と重大さが,フィードバックの粒度,フィードバックの豊かさ,学習時間の3次元にどう影響するかを,強制選択とオープンエンドの両方の文脈で調査した。 その結果,ロボットの軌道の特定の部分に対してより詳細なフィードバックを提供し,ロボットの誤差が教師のフィードバックのモダリティに影響を及ぼすことが示唆された。 対話型学習のための効果的なインタフェースを設計し、人間の意図をよりよく理解するためにアルゴリズムを最適化するための貴重な洞察を提供する。

Human-in-the-loop learning is gaining popularity, particularly in the field of robotics, because it leverages human knowledge about real-world tasks to facilitate agent learning. When people instruct robots, they naturally adapt their teaching behavior in response to changes in robot performance. While current research predominantly focuses on integrating human teaching dynamics from an algorithmic perspective, understanding these dynamics from a human-centered standpoint is an under-explored, yet fundamental problem. Addressing this issue will enhance both robot learning and user experience. Therefore, this paper explores one potential factor contributing to the dynamic nature of human teaching: robot errors. We conducted a user study to investigate how the presence and severity of robot errors affect three dimensions of human teaching dynamics: feedback granularity, feedback richness, and teaching time, in both forced-choice and open-ended teaching contexts. The results show that people tend to spend more time teaching robots with errors, provide more detailed feedback over specific segments of a robot's trajectory, and that robot error can influence a teacher's choice of feedback modality. Our findings offer valuable insights for designing effective interfaces for interactive learning and optimizing algorithms to better understand human intentions.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# 制御可能なRNA配列生成のための潜時拡散モデル

Latent Diffusion Models for Controllable RNA Sequence Generation ( http://arxiv.org/abs/2409.09828v1 )

ライセンス: Link先を確認
Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang, (参考訳) 本稿では、離散RNA配列の生成と最適化のための遅延拡散モデルであるRNA拡散について述べる。 RNAは、生物学的プロセスにおいて特に動的で多用途な分子である。 RNA配列は、その可変長、柔軟な3次元構造、多様な機能によって特徴づけられる、高い多様性と多様性を示す。 我々は、事前訓練されたBERTモデルを用いて、生RNAをトークンレベルで生物学的に意味のある表現にエンコードする。 Q-Formerは、これらの表現を固定長の潜伏ベクトルの集合に圧縮するために使用され、これらの潜伏変数からRNA配列を再構成するように訓練された自己回帰デコーダである。 次に、この潜在空間内で連続拡散モデルを開発する。 最適化を実現するため、潜伏変数からRNAの機能特性を推定するために報酬ネットワークを訓練する。 我々は、より高い報酬に最適化されたRNA配列を生成することを目的として、後方拡散過程において勾配に基づくガイダンスを採用する。 実験的実験により、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。 我々はmRNAの翻訳されていない領域(UTR)の拡散モデルを微調整し、タンパク質翻訳効率を最適化した。 誘導拡散モデルでは, 平均リボソーム負荷 (MRL) と変換効率 (TE) がベースラインを超え, 多様な UTR 配列を効果的に生成する。 これらの結果は、RNA配列-機能関係の研究、タンパク質合成、および治療的RNA設計の強化を約束する。

This paper presents RNAdiffusion, a latent diffusion model for generating and optimizing discrete RNA sequences. RNA is a particularly dynamic and versatile molecule in biological processes. RNA sequences exhibit high variability and diversity, characterized by their variable lengths, flexible three-dimensional structures, and diverse functions. We utilize pretrained BERT-type models to encode raw RNAs into token-level biologically meaningful representations. A Q-Former is employed to compress these representations into a fixed-length set of latent vectors, with an autoregressive decoder trained to reconstruct RNA sequences from these latent variables. We then develop a continuous diffusion model within this latent space. To enable optimization, we train reward networks to estimate functional properties of RNA from the latent variables. We employ gradient-based guidance during the backward diffusion process, aiming to generate RNA sequences that are optimized for higher rewards. Empirical experiments confirm that RNAdiffusion generates non-coding RNAs that align with natural distributions across various biological indicators. We fine-tuned the diffusion model on untranslated regions (UTRs) of mRNA and optimize sample sequences for protein translation efficiencies. Our guided diffusion model effectively generates diverse UTR sequences with high Mean Ribosome Loading (MRL) and Translation Efficiency (TE), surpassing baselines. These results hold promise for studies on RNA sequence-function relationships, protein synthesis, and enhancing therapeutic RNA design.
翻訳日:2024-09-17 17:20:56 公開日:2024-09-15
# NARF24: インプシットレンダリングのための人工物体構造の推定

NARF24: Estimating Articulated Object Structure for Implicit Rendering ( http://arxiv.org/abs/2409.09829v1 )

ライセンス: Link先を確認
Stanley Lewis, Tom Gao, Odest Chadwicke Jenkins, (参考訳) 人工物とその表現はロボットにとって難しい問題を引き起こす。 これらの対象は、幾何学やテクスチャの表現だけでなく、各調音を構成する様々な接続や関節パラメータも必要である。 本稿では,少数のシーンに共通するニューラルラジアンス場(NeRF)の表現を学習する手法を提案する。 この表現は、部品ベースの画像セグメント化と組み合わせて暗黙の空間部分ローカライゼーションを生成し、そこから調音対象の接続性と関節パラメータを推定し、構成条件付きレンダリングを可能にする。

Articulated objects and their representations pose a difficult problem for robots. These objects require not only representations of geometry and texture, but also of the various connections and joint parameters that make up each articulation. We propose a method that learns a common Neural Radiance Field (NeRF) representation across a small number of collected scenes. This representation is combined with a parts-based image segmentation to produce an implicit space part localization, from which the connectivity and joint parameters of the articulated object can be estimated, thus enabling configuration-conditioned rendering.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 量子マーグリス符号

Quantum Margulis Codes ( http://arxiv.org/abs/2409.09830v1 )

ライセンス: Link先を確認
Michele Pacenti, Bane Vasic, (参考訳) 最近、LinとPryadkoは、非アベリア群のケイリーグラフから得られる自転車符号の一般化である量子二ブロック群代数符号(quantum two-block group algebra codes)を発表した。 それらの構成は、よく知られた古典的マルグリス符号の量子的等価性を得るのに自然に適していることに気付く。 本稿では、まず、左のケイリー複素数を用いた2ブロック群代数符号の代替記述を示し、次に、マルグリスの構成を2ブロック代数符号を得る方法を示す。 最後に、数個の量子Margulis符号を構築し、数値シミュレーションによりそれらの性能を評価する。

Recently, Lin and Pryadko presented the quantum two-block group algebra codes, a generalization of bicycle codes obtained from Cayley graphs of non-Abelian groups. We notice that their construction is naturally suitable to obtain a quantum equivalent of the well-known classical Margulis code. In this paper, we first present an alternative description of the two-block group algebra codes using the left-right Cayley complex; then, we show how to modify the construction of Margulis to get a two-block algebra code. Finally, we construct several quantum Margulis codes and evaluate their performance with numerical simulations.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# マスケッド言語モデリングを用いた低再同定リスクを有する合成自由テキスト医療記録の生成

Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling ( http://arxiv.org/abs/2409.09831v1 )

ライセンス: Link先を確認
Samuel Belkadi, Libo Ren, Nicolo Micheletti, Lifeng Han, Goran Nenadic, (参考訳) 本稿では,Masked Language Modeling (MLM) を用いて,退院要約,入院ノート,医師対応など,人工的なフリーテキスト医療記録を生成するシステムを提案する。 本システムは,重要な多様性を導入し,再識別リスクを最小限に抑えつつ,記録の重要な情報を保存するように設計されている。 このシステムは、Philterを使って保護された健康情報(PHI)をマスクし、次いで、重要な医療情報を保持するための医療エンティティ認識(NER)モデルを組み込む。 総合的な可読性に影響を与えることなく, 合成出力の多様性と忠実性のトレードオフをバランスさせるために, マスク比とマスク充填技術について検討した。 以上の結果から,HIPAA準拠のPHIリコール率0.96と0.035の低い再同定リスクを達成しつつ,高品質な合成データを生成することが可能であることが示唆された。 さらに、NERタスクを用いた下流評価では、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスで、合成データを効果的にトレーニングすることができる。 システムの柔軟性により、特定のユースケースに適応することが可能になり、医療研究や医療応用におけるプライバシー保護データ生成の貴重なツールとなる。

In this paper, we present a system that generates synthetic free-text medical records, such as discharge summaries, admission notes and doctor correspondences, using Masked Language Modeling (MLM). Our system is designed to preserve the critical information of the records while introducing significant diversity and minimizing re-identification risk. The system incorporates a de-identification component that uses Philter to mask Protected Health Information (PHI), followed by a Medical Entity Recognition (NER) model to retain key medical information. We explore various masking ratios and mask-filling techniques to balance the trade-off between diversity and fidelity in the synthetic outputs without affecting overall readability. Our results demonstrate that the system can produce high-quality synthetic data with significant diversity while achieving a HIPAA-compliant PHI recall rate of 0.96 and a low re-identification risk of 0.035. Furthermore, downstream evaluations using a NER task reveal that the synthetic data can be effectively used to train models with performance comparable to those trained on real data. The flexibility of the system allows it to be adapted for specific use cases, making it a valuable tool for privacy-preserving data generation in medical research and healthcare applications.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# テンプレートに基づくマルチドメイン顔認識

Template-based Multi-Domain Face Recognition ( http://arxiv.org/abs/2409.09832v1 )

ライセンス: Link先を確認
Anirudh Nanduri, Rama Chellappa, (参考訳) 可視光スペクトルにおける顔検出および認識タスクのためのディープニューラルネットワークの顕著なパフォーマンスにもかかわらず、より困難な非可視領域におけるそれらのパフォーマンスは、比較的不足している。 ドメイン適応とドメイン一般化の分野では重要な研究がなされているが,本論文では,対象ドメインからのトレーニングデータが不足しているため,これらの手法が適用範囲が限定されたシナリオに取り組む。 我々は,シングルソース(可視)とマルチターゲット(SWIR,長距離/遠隔,監視,体縫い)の課題に焦点をあてる。 実験を通して、ターゲット領域の複雑さが増大するにつれて、優れたテンプレート生成アルゴリズムが重要となることを示す。 この文脈では,Norm Pooling(およびSparse Poolingと呼ばれる変種)と呼ばれるテンプレート生成アルゴリズムを導入し,IARPA JANUS Benchmark Multi-domain Face (IJB-MDF)データセット上で,異なるドメインやネットワーク間の平均プールよりも優れていることを示す。

Despite the remarkable performance of deep neural networks for face detection and recognition tasks in the visible spectrum, their performance on more challenging non-visible domains is comparatively still lacking. While significant research has been done in the fields of domain adaptation and domain generalization, in this paper we tackle scenarios in which these methods have limited applicability owing to the lack of training data from target domains. We focus on the problem of single-source (visible) and multi-target (SWIR, long-range/remote, surveillance, and body-worn) face recognition task. We show through experiments that a good template generation algorithm becomes crucial as the complexity of the target domain increases. In this context, we introduce a template generation algorithm called Norm Pooling (and a variant known as Sparse Pooling) and show that it outperforms average pooling across different domains and networks, on the IARPA JANUS Benchmark Multi-domain Face (IJB-MDF) dataset.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 変形した4頭子猫状態によるサブショットノイズ感度

Sub-shot noise sensitivity via deformed four-headed kitten states ( http://arxiv.org/abs/2409.09840v1 )

ライセンス: Link先を確認
Naeem Akhtar, Xiaosen Yang, Jia-Xin Peng, Inaam Ul Haq, Yuee Xie, Yuanping Chen, (参考訳) 元のコンパス状態は、4つのコヒーレントな状態が重なり合わされ、異方性サブプランク構造となり、摂動に対する感度が向上し、量子センシングの利点をもたらす。 このコンパス状態の2つの変種を、光子加算と減算を異なる順序で同時に適用することにより提案する。 我々の変種はサブプランク構造を示し、光子付加とサブトラクションがこれらの特性に影響を与えるため、変位に対する感度を改善した。 我々の場合、光子を追加すると平均光子数が増加し、光子減算は第1のケースでは減少し、第2のケースでは効果がない。 さらに、付加光子数の増加はサブプランク構造のサイズを均一に減少させる一方、状態から抽出された光子数は増加し、これらのサブプランク構造が拡大する。 注目すべきは、最適パラメータの下では、我々の特定の変種は等方的サブプランク構造を達成し、コンパス状態を超える全方向にわたって等方的拡張感度を提供する。

The original compass state, created by superposing four coherent states, yields anisotropic sub-Planck structures and demonstrates enhanced sensitivity to perturbations, offering advantages for quantum sensing. We propose two variants of this compass state by simultaneously applying photon addition and subtraction in different orders: one with addition first and one with subtraction first to the state. Our variants display sub-Planck structures and improved sensitivity to displacements, with photon addition and subtraction influencing these characteristics. In our cases, adding photons increases the average photon number, while photon subtraction lowers it in the first case and has no effect in the second. Furthermore, an increment in the added number of photons uniformly reduces the size of sub-Planck structures, whereas increasing the number of photons subtracted from the state causes these sub-Planck structures to expand in size; higher photon addition improves sensitivity, while photon subtraction decreases it. Remarkably, under optimal parameters, our specific variants achieve isotropic sub-Planck structures and provide isotropic enhanced sensitivity across all directions, surpassing compass states.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 野生における仮想ミーティングの追跡:多人数仮想ミーティングにおける再同定

Tracking Virtual Meetings in the Wild: Re-identification in Multi-Participant Virtual Meetings ( http://arxiv.org/abs/2409.09841v1 )

ライセンス: Link先を確認
Oriel Perl, Ido Leshem, Uria Franko, Yuval Goldman, (参考訳) 近年、職場や教育機関は仮想会議プラットフォームを広く採用している。 これにより、これらのミーティングから洞察を分析し、抽出することへの関心が高まり、独特な個人を効果的に検出および追跡する必要がある。 実際には、ビデオ会議のレイアウトを記録し、それらを異なるプラットフォームやサービス間でどのようにキャプチャするかを記録できる標準化は存在しない。 これにより、このデータストリームを取得して、均一な方法で分析するという課題が生まれる。 提案手法は,1つのビデオソースからの参加者のグリッド(\cref{fig:videomeeting})を参加者の位置情報にメタデータを持たず,かつデータの取得方法に関する最小限の制約と仮定を用いて,最も一般的なビデオ記録方式のソリューションを提供する。 従来のアプローチでは、トラッキングアルゴリズムと結合したYOLOモデルを使用しており、CCTVの映像と同じような線形運動軌道を仮定している。 しかし、このような仮定は仮想ミーティングでは不十分であり、参加者のビデオフィードウィンドウはグリッド全体の位置を突然変更することができる。 オーガニックなビデオミーティングでは、参加者が頻繁に参加して出発し、ビデオグリッド上で突然、非線形の動きが発生する。 これは、線形運動に依存する光フローベースの追跡手法を妨害する。 したがって、標準のオブジェクト検出と追跡方法は、誤って複数の参加者を同じトラッカーに割り当てる可能性がある。 本稿では,遠隔ビデオ会議の参加者を追跡・再同定するための新しい手法を提案する。 これにより、一般的なオブジェクト追跡に比べてトラッキング能力が向上する。 本手法は, YOLOをベースラインとしたトラッキング手法と比較して, 誤差率を平均95%削減する。

In recent years, workplaces and educational institutes have widely adopted virtual meeting platforms. This has led to a growing interest in analyzing and extracting insights from these meetings, which requires effective detection and tracking of unique individuals. In practice, there is no standardization in video meetings recording layout, and how they are captured across the different platforms and services. This, in turn, creates a challenge in acquiring this data stream and analyzing it in a uniform fashion. Our approach provides a solution to the most general form of video recording, usually consisting of a grid of participants (\cref{fig:videomeeting}) from a single video source with no metadata on participant locations, while using the least amount of constraints and assumptions as to how the data was acquired. Conventional approaches often use YOLO models coupled with tracking algorithms, assuming linear motion trajectories akin to that observed in CCTV footage. However, such assumptions fall short in virtual meetings, where participant video feed window can abruptly change location across the grid. In an organic video meeting setting, participants frequently join and leave, leading to sudden, non-linear movements on the video grid. This disrupts optical flow-based tracking methods that depend on linear motion. Consequently, standard object detection and tracking methods might mistakenly assign multiple participants to the same tracker. In this paper, we introduce a novel approach to track and re-identify participants in remote video meetings, by utilizing the spatio-temporal priors arising from the data in our domain. This, in turn, increases tracking capabilities compared to the use of general object tracking. Our approach reduces the error rate by 95% on average compared to YOLO-based tracking methods as a baseline.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# イスラムテキストに対する非ファクトイド質問応答のための文脈を拡大したベンチマークデータセット

A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text ( http://arxiv.org/abs/2409.09844v1 )

ライセンス: Link先を確認
Faiza Qamar, Seemab Latif, Rabia Latif, (参考訳) 宗教文書、特にクルラン(イスラム教の聖典)やアハディス(預言者ムハンマドの言葉や伝統のコーパス)へのアクセスと解釈は、今日のデジタル時代には、効率的で正確なQAシステムを必要としている。 しかし、QAシステムの不足は、クアニック・タフシル(説明、解釈、明確化のためのクアランの文脈)とアハディスに関する質問の詳細な性質に特化している。 このギャップに対処するために、Quranic Tafsir と Ahadith のドメイン内で、QA 目的のために慎重に構築された包括的なデータセットを紹介します。 このデータセットは、73,000以上の質問応答ペアからなる堅牢なコレクションで構成されており、この特殊なドメインで報告されている最大のデータセットである。 重要なことは、データセット内の質問と回答の両方が文脈情報に精通しており、トレーニングと調整されたQAシステム評価のための貴重なリソースとして役立ちます。 しかし,本論文では,データセットのコントリビューションを強調し,QuranドメインとAhadithドメインのQAパフォーマンスを評価するためのベンチマークを確立するとともに,その後の人的評価から,既存の自動評価手法の限界に関する重要な洞察を得た。 ROUGEスコアなどの自動評価指標と人的評価の相違が明らかになった。 モデルと専門家との評定の整合性は11%から20%であり、文脈的理解は50%から90%の範囲に及んだ。 これらの知見は、伝統的な自動メトリクスの限界を超越して、宗教的テキストを理解するのに固有のニュアンスや複雑さを捉えるための評価技術の必要性を浮き彫りにした。

Accessing and comprehending religious texts, particularly the Quran (the sacred scripture of Islam) and Ahadith (the corpus of the sayings or traditions of the Prophet Muhammad), in today's digital era necessitates efficient and accurate Question-Answering (QA) systems. Yet, the scarcity of QA systems tailored specifically to the detailed nature of inquiries about the Quranic Tafsir (explanation, interpretation, context of Quran for clarity) and Ahadith poses significant challenges. To address this gap, we introduce a comprehensive dataset meticulously crafted for QA purposes within the domain of Quranic Tafsir and Ahadith. This dataset comprises a robust collection of over 73,000 question-answer pairs, standing as the largest reported dataset in this specialized domain. Importantly, both questions and answers within the dataset are meticulously enriched with contextual information, serving as invaluable resources for training and evaluating tailored QA systems. However, while this paper highlights the dataset's contributions and establishes a benchmark for evaluating QA performance in the Quran and Ahadith domains, our subsequent human evaluation uncovered critical insights regarding the limitations of existing automatic evaluation techniques. The discrepancy between automatic evaluation metrics, such as ROUGE scores, and human assessments became apparent. The human evaluation indicated significant disparities: the model's verdict consistency with expert scholars ranged between 11% to 20%, while its contextual understanding spanned a broader spectrum of 50% to 90%. These findings underscore the necessity for evaluation techniques that capture the nuances and complexities inherent in understanding religious texts, surpassing the limitations of traditional automatic metrics.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 量子アニーリングのためのエネルギーネットワーク再分散の形式化, 正規化, 分割

Formalizing, Normalizing, and Splitting the Energy Network Re-Dispatch for Quantum Annealing ( http://arxiv.org/abs/2409.09857v1 )

ライセンス: Link先を確認
Loong Kuan Lee, Johannes Knaute, Florian Gerhardt, Patrick Völker, Tomislav Maras, Alexander Dotterweich, Nico Piatkowski, (参考訳) 断熱量子計算(AQC)は、量子系の基底状態を近似するための確立された方法である。 量子アニールとして知られる実際のAQCデバイスは、ターゲットハミルトンの選択に関して一定の制限がある。 具体的には、ターゲットシステムは2次非制約バイナリ最適化(QUBO)問題から生じなければならない。 名前が示すように、QUBOは制約のない問題を表しており、その問題はハードウェアソルバの次元限界内に収まらなければならない。 しかし、大規模なQUBOを分解し、実現不可能な解をペナルティ化することで制約を符号化する様々な方法が存在する。 正しいペナルティ化と分解のテクニックを選択することは、様々な自由度のために問題に特化しており、面倒である。 本研究では,これらの問題をエネルギーネットワーク再分散問題の観点から検討する。 このような問題は、持続可能で費用効率の高いエネルギーシステムにとって最重要であり、再生可能エネルギー源への移行において重要な役割を担っている。 我々のQUBOインスタンスは、ドイツのエネルギーネットワークのオープンデータから派生しており、我々の結果は、オープンソースのエネルギーネットワークシミュレーションのベースラインと比較され、再現性が向上する。 不等式制約の実現,時空間整合性,および問題分解に関する新たな知見は,複雑なエネルギーディスパッチ問題を最適化するためのAQCの可能性を強調している。 これにより、エネルギー市場の利害関係者や研究者がグリッド管理を改善し、二酸化炭素排出量を減らすことを目的とした貴重な洞察が得られる。

Adiabatic quantum computation (AQC) is a well-established method to approximate the ground state of a quantum system. Actual AQC devices, known as quantum annealers, have certain limitations regarding the choice of target Hamiltonian. Specifically, the target system must arise from a quadratic unconstrained binary optimization (QUBO) problem. As the name suggests, QUBOs represent unconstrained problems, and the problem must fit within the dimensionality limits of the hardware solver. However, various approaches exist to decompose large QUBOs and encode constraints by penalizing infeasible solutions. Choosing the right penalization and decomposition techniques is problem-specific and cumbersome due to various degrees of freedom. In this work, we investigate these issues in the context of energy network re-dispatch problems. Such problems are paramount for sustainable and cost-effective energy systems and play a crucial role in the transition towards renewable energy sources. Our QUBO instances are derived from open data of the German energy network and our results are compared to baselines from an open-source energy network simulation, thereby fostering reproducibility. Our novel insights regarding the realization of inequality constraints, spatio-temporal state consistency, and problem decomposition highlight the potential of AQC for optimizing complex energy dispatch problems. This provides valuable insights for energy market stakeholders and researchers aiming to improve grid management and reduce carbon emissions.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 因果的視点から見たグラフ機械学習におけるアウト・オブ・ディストリビューションの一般化に関する調査

A Survey of Out-of-distribution Generalization for Graph Machine Learning from a Causal View ( http://arxiv.org/abs/2409.09858v1 )

ライセンス: Link先を確認
Jing Ma, (参考訳) グラフ機械学習(GML)は、幅広いタスクでうまく適用されている。 それでもGMLは、アウト・オブ・ディストリビューション(OOD)データを一般化する上で、大きな課題に直面している。 近年の進歩は、これらの一般化の課題を克服する上で、因果関係によるアプローチの重要な役割を浮き彫りにしている。 統計的依存に大きく依存する従来のGML手法とは違い、因果性を重視した戦略は、データ生成とモデル予測の根底にある因果的メカニズムを掘り下げ、異なる環境におけるGMLの一般化を著しく改善する。 本稿では,因果関係のGML一般化の最近の進歩を概観する。 本稿では,因果性を利用したグラフモデル一般化の基本的な概念を解明し,様々なアプローチを分類し,それらの方法論とそれらの相互関係を詳細に記述する。 さらに、信頼性の高いGMLの他の重要な領域、例えば説明、公正性、堅牢性における因果関係の組み入れについて検討する。 今後の研究方向性に関する議論をまとめて、このレビューはグラフ機械学習の信頼性を高めるための因果関係の継続的な発展と将来の可能性を明確にすることを目的としている。

Graph machine learning (GML) has been successfully applied across a wide range of tasks. Nonetheless, GML faces significant challenges in generalizing over out-of-distribution (OOD) data, which raises concerns about its wider applicability. Recent advancements have underscored the crucial role of causality-driven approaches in overcoming these generalization challenges. Distinct from traditional GML methods that primarily rely on statistical dependencies, causality-focused strategies delve into the underlying causal mechanisms of data generation and model prediction, thus significantly improving the generalization of GML across different environments. This paper offers a thorough review of recent progress in causality-involved GML generalization. We elucidate the fundamental concepts of employing causality to enhance graph model generalization and categorize the various approaches, providing detailed descriptions of their methodologies and the connections among them. Furthermore, we explore the incorporation of causality in other related important areas of trustworthy GML, such as explanation, fairness, and robustness. Concluding with a discussion on potential future research directions, this review seeks to articulate the continuing development and future potential of causality in enhancing the trustworthiness of graph machine learning.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 自己置換構造のメタ物理に関する一提案 II. 量子物理学

A proposal for a metaphysics of self-subsisting structures. II. Quantum physics ( http://arxiv.org/abs/2409.09859v1 )

ライセンス: Link先を確認
Antonio Vassallo, Pedro Naranjo, Tim Koslowski, (参考訳) 本稿では, 共用紙に設定した自己置換構造のメタ物理を非相対論的量子物理学の領域に拡張する。 この議論は、De Broglie-Bohm$N$-bodyシステムのリレーショナル実装を表すPure Shape Dynamicsモデルを中心に展開されている。 自己置換構造の観点からのこのモデルの解釈が提案され、量子物理学のメタ物理に関する議論の背景に対して評価され、波動関数の性質に特に重点を置いている。 この分析は、適切なライプニツィアン/マチャイアの量子世界のメタ物理を解明するには、世界-構築関係の概念をかなり改訂する必要があることを示している。

The paper presents an extension of the metaphysics of self-subsisting structures set out in a companion paper to the realm of non-relativistic quantum physics. The discussion is centered around a Pure Shape Dynamics model representing a relational implementation of a de Broglie-Bohm $N$-body system. An interpretation of this model in terms of self-subsisting structures is proposed and assessed against the background of the debate on the metaphysics of quantum physics, with a particular emphasis on the nature of the wave function. The analysis shows that elaborating an appropriate Leibnizian/Machian metaphysics of the quantum world requires a substantial revision of the notion of world-building relation.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 交通標識認識における身体的・世界的敵対的攻撃の再検討:商用システムの視点から

Revisiting Physical-World Adversarial Attack on Traffic Sign Recognition: A Commercial Systems Perspective ( http://arxiv.org/abs/2409.09860v1 )

ライセンス: Link先を確認
Ningfei Wang, Shaoyuan Xie, Takami Sato, Yunpeng Luo, Kaidi Xu, Qi Alfred Chen, (参考訳) 交通信号認識(TSR)は安全かつ正確な運転自動化に不可欠である。 近年の研究では、TSRモデルの物理的世界の敵攻撃に対する一般的な脆弱性が明らかにされており、低コストで、高度に展開可能であり、重要な交通標識を隠蔽したり、偽のものを偽造したりといった深刻な攻撃効果を生じさせる可能性がある。 しかしながら、既存の研究は一般に学術的なTSRモデルに対する攻撃効果の評価のみを考慮しており、実際の商用TSRシステムに対する攻撃の影響はほとんど不明である。 本稿では,商用TSRシステムに対する物理世界の敵対的攻撃を大規模に測定する。 テストの結果,既存の学界からの攻撃は,特定の商用TSRシステム機能に対して高い信頼性(100\%)の攻撃成功を達成できるが,そのような攻撃能力は一般化不可能であり,全体として予測されるよりもはるかに低い攻撃成功率が得られることがわかった。 主要な要因の1つは、今日の商用TSRシステムによく見られる空間記憶設計である。 我々は、TSRシステムレベルの攻撃成功に対するそのような設計の影響を数学的にモデル化できる新しい攻撃成功指標を設計し、既存の攻撃を再検討する。 これらの取り組みを通じて、7つの新しい観測結果が明らかとなり、そのうちのいくつかは、新しいメトリクスの導入による先行研究の観察や主張に直接挑戦するものである。

Traffic Sign Recognition (TSR) is crucial for safe and correct driving automation. Recent works revealed a general vulnerability of TSR models to physical-world adversarial attacks, which can be low-cost, highly deployable, and capable of causing severe attack effects such as hiding a critical traffic sign or spoofing a fake one. However, so far existing works generally only considered evaluating the attack effects on academic TSR models, leaving the impacts of such attacks on real-world commercial TSR systems largely unclear. In this paper, we conduct the first large-scale measurement of physical-world adversarial attacks against commercial TSR systems. Our testing results reveal that it is possible for existing attack works from academia to have highly reliable (100\%) attack success against certain commercial TSR system functionality, but such attack capabilities are not generalizable, leading to much lower-than-expected attack success rates overall. We find that one potential major factor is a spatial memorization design that commonly exists in today's commercial TSR systems. We design new attack success metrics that can mathematically model the impacts of such design on the TSR system-level attack success, and use them to revisit existing attacks. Through these efforts, we uncover 7 novel observations, some of which directly challenge the observations or claims in prior works due to the introduction of the new metrics.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 量子古典ハイブリッドダイナミクス:結合機構と拡散近似

Quantum-classical hybrid dynamics: coupling mechanisms and diffusive approximation ( http://arxiv.org/abs/2409.09861v1 )

ライセンス: Link先を確認
Adrián A. Budini, (参考訳) 本稿では、量子古典的ハイブリッド状態に対して完全に正の進化を定義するマルコフのマスター方程式が、常に4つの基本的なカップリング機構によって記述可能であることを実証する。 それぞれのサブシステムは、それぞれ異なる"バックアクション"によって特徴づけられる。 この条件に基づいて、各場合において、拡散極限が近づく条件、すなわち、時間発展は古典座標に関してハイブリッド状態の第1および第2微分の観点で近似することができる。 この極限において、結合機構が量子サブシステムと古典サブシステムの両方において無限小(非有限)な変化をもたらすとき、常にハイブリッド状態の正則性(量子フォッカー・プランクマスター方程式)を保証する制限された進化のクラスが出現する。 より広範な拡散進化のクラスは、正の時間が経過した後にのみ与えられるか、あるいは古典的な部分系の状態に初期有限幅を課した後で与えられるときに得られる。 代表的な例がこれらの結果を支持している。

In this paper we demonstrate that any Markovian master equation defining a completely positive evolution for a quantum-classical hybrid state can always be written in terms of four basic coupling mechanisms. Each of them is characterized by a different "backaction" on each subsystem. On this basis, for each case, we find the conditions under which a diffusive limit is approached, that is, the time evolution can be approximated in terms of the first and second derivatives of the hybrid state with respect to a classical coordinate. In this limit, the restricted class of evolutions that guaranty the positivity of the hybrid state at all times (quantum Fokker-Planck master equations) emerges when the coupling mechanisms lead to infinitesimal (non-finite) changes in both the quantum and classical subsystems. A broader class of diffusive evolutions is obtained when positivity is only granted after a transient time or alternatively is granted after imposing an initial finite width on the state of the classical subsystem. A set of representative examples support these results.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 歌唱スタイルのキャプションデータセットの構築

Constructing a Singing Style Caption Dataset ( http://arxiv.org/abs/2409.09866v1 )

ライセンス: Link先を確認
Hyunjong Ok, Jaeho Lee, (参考訳) 歌声合成と変換は、音声生成の重要なサブドメインとして現れており、プロンプト条件付き生成に対する多くの要求につながっている。 一般的な音声データとは異なり、歌唱音声を生成するには、歌手の声調や感情表現など、様々な声と音楽の特徴を理解する必要がある。 しかしながら、既存の音声生成のためのオープンソースのオーディオテキストデータセットは、非常に限られた範囲の属性のみをキャプチャする傾向にあり、しばしばオーディオの音楽的特徴を欠いている。 このギャップを埋めるために、さまざまな属性を持つオーディオテキストペアデータセットであるS2Capを紹介します。 S2Capは、ピッチ、ボリューム、テンポ、ムード、歌手の性別と年齢、音楽ジャンルと感情表現など、幅広い声楽と音楽の属性を持つテキストプロンプトと音楽オーディオのサンプルで構成されている。 S2Capを用いて,歌唱スタイルのキャプションに有効なベースラインアルゴリズムを提案する。 歌唱スタイルのキャプションは、最初に提案した発声特性のテキスト記述を生成する音声生成に対する相対的なタスクである。 まず,音声エンコーダとテキストデコーダのミスアライメントを軽減するため,事前学習したオーディオエンコーダの埋め込み空間を同期させ,テキストエンコーダに類似した埋め込みを実現するCRESCENDOという機構を提案する。 また、伴奏によってデミックスされた歌手の声を用いてモデルを監督する。 この監督により、モデルはより正確に声の特徴を捉え、歌手のスタイルを反映した歌唱スタイルのキャプションを改善することができる。 データセットとコードは \bulurl{https://github.com/HJ-Ok/S2cap} で公開されている。

Singing voice synthesis and conversion have emerged as significant subdomains of voice generation, leading to much demands on prompt-conditioned generation. Unlike common voice data, generating a singing voice requires an understanding of various associated vocal and musical characteristics, such as the vocal tone of the singer or emotional expressions. However, existing open-source audio-text datasets for voice generation tend to capture only a very limited range of attributes, often missing musical characteristics of the audio. To fill this gap, we introduce S2Cap, an audio-text pair dataset with a diverse set of attributes. S2Cap consists of pairs of textual prompts and music audio samples with a wide range of vocal and musical attributes, including pitch, volume, tempo, mood, singer's gender and age, and musical genre and emotional expression. Utilizing S2Cap, we suggest an effective novel baseline algorithm for singing style captioning. Singing style captioning is a relative task to voice generation that generates text descriptions of vocal characteristics, which we first suggested. First, to mitigate the misalignment between the audio encoder and the text decoder, we present a novel mechanism called CRESCENDO, which utilizes positive-pair similarity learning to synchronize the embedding spaces of a pretrained audio encoder to get similar embeddings with a text encoder. We additionally supervise the model using the singer's voice, which is demixed by the accompaniment. This supervision allows the model to more accurately capture vocal characteristics, leading to improved singing style captions that better reflect the style of the singer. The dataset and the codes are available at \bulurl{https://github.com/HJ-Ok/S2cap}.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# 潜時空間の動力学的操作に向けて

Towards Kinetic Manipulation of the Latent Space ( http://arxiv.org/abs/2409.09867v1 )

ライセンス: Link先を確認
Diego Porres, (参考訳) 多くの生成モデルの潜伏空間は、探索されていない谷や山々に富んでいる。 それらを調べるために使用されるツールの大部分は、これまではGUI(Graphical User Interfaces)に限られています。 このタスクには特別なハードウェアが使用できるが、ライブRGBカメラフィードから事前訓練された畳み込みニューラルネットワーク(CNN)の単純な特徴抽出は、シーンに単純な変更を加えて潜伏空間を操作するのに非常に良い働きをすることを示す。 この新しいパラダイムはVisual-Reactive Interpolationと呼ばれ、完全なコードはhttps://github.com/PDillis/stylegan3-fun.orgで見ることができる。

The latent space of many generative models are rich in unexplored valleys and mountains. The majority of tools used for exploring them are so far limited to Graphical User Interfaces (GUIs). While specialized hardware can be used for this task, we show that a simple feature extraction of pre-trained Convolutional Neural Networks (CNNs) from a live RGB camera feed does a very good job at manipulating the latent space with simple changes in the scene, with vast room for improvement. We name this new paradigm Visual-reactive Interpolation, and the full code can be found at https://github.com/PDillis/stylegan3-fun.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# リアプノフ関数(CALF)の批判 : モデルフリーで安定性を保った薬剤

Critic as Lyapunov function (CALF): a model-free, stability-ensuring agent ( http://arxiv.org/abs/2409.09869v1 )

ライセンス: Link先を確認
Pavel Osinenko, Grigory Yaremenko, Roman Zashchitin, Anton Bolychev, Sinan Ibrahim, Dmitrii Dobriborsci, (参考訳) この研究は、モデルフリーで、オンライン環境、つまり動的システムの安定化を保証する新しい強化学習エージェントであるCrytic As Lyapunov Function(CALF)を提示し、展示する。 オンラインとは、各学習エピソードにおいて、その環境が安定していることを意味する。 これは、モバイルロボットシミュレータを用いたケーススタディで示されたように、全体的な学習性能を大幅に向上させる。 CALFの基本的なアクター批判スキームは、SARSAと類似している。 後者は我々の研究で目標に達することには成功しなかった。 しかし、SARSA-mと呼ばれる修正版がいくつかの学習シナリオで成功した。 それでもCALFは、そのアプローチを大きく上回った。 CALFはまた、それが提供する名目安定剤を改善するためにも実証された。 要約すると, 提案エージェントは, 古典的制御と強化学習を融合させるための有効なアプローチであると考えられる。 その並行的なアプローチは、主にオフラインまたはモデルベース、例えば、モデル予測制御をエージェントに融合させるもののいずれかである。

This work presents and showcases a novel reinforcement learning agent called Critic As Lyapunov Function (CALF) which is model-free and ensures online environment, in other words, dynamical system stabilization. Online means that in each learning episode, the said environment is stabilized. This, as demonstrated in a case study with a mobile robot simulator, greatly improves the overall learning performance. The base actor-critic scheme of CALF is analogous to SARSA. The latter did not show any success in reaching the target in our studies. However, a modified version thereof, called SARSA-m here, did succeed in some learning scenarios. Still, CALF greatly outperformed the said approach. CALF was also demonstrated to improve a nominal stabilizer provided to it. In summary, the presented agent may be considered a viable approach to fusing classical control with reinforcement learning. Its concurrent approaches are mostly either offline or model-based, like, for instance, those that fuse model-predictive control into the agent.
翻訳日:2024-09-17 17:10:28 公開日:2024-09-15
# スパースフーリエドメイン学習による継続的カーネルのスケーリング

Scaling Continuous Kernels with Sparse Fourier Domain Learning ( http://arxiv.org/abs/2409.09875v1 )

ライセンス: Link先を確認
Clayton Harper, Luke Wood, Peter Gerstoft, Eric C. Larson, (参考訳) 連続カーネル表現の学習において,計算効率,パラメータ効率,スペクトルバイアスの3つの課題に対処する。 連続カーネルは大きな可能性を示しているが、その実践的採用は高い計算量とメモリ要求によって制限されることが多い。 さらに、これらの手法はスペクトルバイアスを起こしやすいため、高周波の詳細を捉えることができない。 これらの制限を克服するために、フーリエ領域におけるスパース学習を活用する新しいアプローチを提案する。 提案手法は, 連続カーネルの効率的なスケーリングを可能にし, 計算およびメモリ要求を大幅に削減し, ギブス現象を利用してスペクトルバイアスを緩和する。

We address three key challenges in learning continuous kernel representations: computational efficiency, parameter efficiency, and spectral bias. Continuous kernels have shown significant potential, but their practical adoption is often limited by high computational and memory demands. Additionally, these methods are prone to spectral bias, which impedes their ability to capture high-frequency details. To overcome these limitations, we propose a novel approach that leverages sparse learning in the Fourier domain. Our method enables the efficient scaling of continuous kernels, drastically reduces computational and memory requirements, and mitigates spectral bias by exploiting the Gibbs phenomenon.
翻訳日:2024-09-17 17:00:45 公開日:2024-09-15
# REG:視覚的検出とセグメント化モデルを用いたタイ国高速道路における道路アセット検出のための一般化された音声損失の修正

REG: Refined Generalized Focal Loss for Road Asset Detection on Thai Highways Using Vision-Based Detection and Segmentation Models ( http://arxiv.org/abs/2409.09877v1 )

ライセンス: Link先を確認
Teerapong Panboonyuen, (参考訳) 本稿では,先進的なRefined Generalized Focal Loss (REG) の定式化により,タイの高速道路における重要な道路資産を検知・分断するための新しい枠組みを提案する。 提案手法は,最先端の視覚に基づく検出・セグメンテーションモデルに統合され,クラス不均衡と,パビリオン,歩行者橋,情報標識,シングルアームポール,バス停,警告標識,コンクリートガードレールなどの道路要素の局所化という課題に効果的に対処する。 検出とセグメンテーションの精度を改善するために、複数のタスク間でREGを最適化するマルチタスク学習戦略が採用された。 REGは、道路資産の空間分布を考慮に入れた空間コンテキスト調整項と、様々な照明条件や散在した背景などの複雑な環境における予測の不確実性を捉える確率的改善項を組み込むことにより、さらに強化される。 我々の厳密な数学的定式化は、REGが局所化と分類誤差を最小限に抑えながら、検出しにくいインスタンスに適応重み付けを適用して、より簡単な例を示す。 実験の結果、80.34のmAP50と77.87のF1スコアを達成し、従来の方法よりも大幅に性能が向上した。 本研究は、道路資産検出・分断の堅牢性と正確性を高めるため、道路安全・インフラ管理の改善に寄与する、高度な損失関数改善の能力を強調した。 数学の背景と関連する方法に関する詳細な議論については、以前の研究を \url{https://github.com/kaopanboonyuen/REG} で参照してください。

This paper introduces a novel framework for detecting and segmenting critical road assets on Thai highways using an advanced Refined Generalized Focal Loss (REG) formulation. Integrated into state-of-the-art vision-based detection and segmentation models, the proposed method effectively addresses class imbalance and the challenges of localizing small, underrepresented road elements, including pavilions, pedestrian bridges, information signs, single-arm poles, bus stops, warning signs, and concrete guardrails. To improve both detection and segmentation accuracy, a multi-task learning strategy is adopted, optimizing REG across multiple tasks. REG is further enhanced by incorporating a spatial-contextual adjustment term, which accounts for the spatial distribution of road assets, and a probabilistic refinement that captures prediction uncertainty in complex environments, such as varying lighting conditions and cluttered backgrounds. Our rigorous mathematical formulation demonstrates that REG minimizes localization and classification errors by applying adaptive weighting to hard-to-detect instances while down-weighting easier examples. Experimental results show a substantial performance improvement, achieving a mAP50 of 80.34 and an F1-score of 77.87, significantly outperforming conventional methods. This research underscores the capability of advanced loss function refinements to enhance the robustness and accuracy of road asset detection and segmentation, thereby contributing to improved road safety and infrastructure management. For an in-depth discussion of the mathematical background and related methods, please refer to previous work available at \url{https://github.com/kaopanboonyuen/REG}.
翻訳日:2024-09-17 17:00:45 公開日:2024-09-15
# 格子フェルミオンに対する測定分解能強化コヒーレンス

Measurement resolution enhanced coherence for lattice fermions ( http://arxiv.org/abs/2409.09878v1 )

ライセンス: Link先を確認
I. B. Spielman, H. M. Hurst, (参考訳) 弱測定は、測定バックアクションによるデコヒーレンスを最小限にしながら、量子システムからターゲット情報を抽出することを可能にする。 しかし、多体量子系のバックアクションは波動関数の崩壊に予期せぬ影響を及ぼす。 理論的には、1次元格子内の弱測定された非相互作用フェルミオンからなる最小多粒子モデルについて検討する。 単点分解能のオンサイト占有数を繰り返し測定することで、初期状態に関わらず、システムをフォック状態に向けて確率的に駆動する。 これは、原則として、単一部位の空間分解能を持っていなくてもよい。 空間分解能の低下が各量子軌道の確率的進化の速度と許容された最終状態の両方に強く影響する16の部位を持つ系について数値的に示す。 ヒルベルト空間はバックアクションのない部分空間(BFS)に分割することができ、それらの要素はこれらの測度と区別できない。 反復測定は、任意の初期状態を単一のBFSに駆動し、測定プロセスの固定点である定常状態に導く。 最大32箇所までの系に対するこれらのBFSの特性を正確に計算し、測定分解能が適度に低下しても、非自明な定常的絡み合いとコヒーレンスをもたらすことを発見した。

Weak measurement enables the extraction of targeted information from a quantum system while minimizing decoherence due to measurement backaction. However, in many-body quantum systems backaction can have unexpected effects on wavefunction collapse. We theoretically study a minimal many-particle model consisting of weakly measured non-interacting fermions in a one dimensional lattice. Repeated measurement of on-site occupation number with single-site resolution stochastically drives the system toward a Fock state, regardless of the initial state. This need not be the case for measurements that do not, even in principle, have single-site spatial resolution. We numerically show for systems with up to 16 sites that decreasing the spatial resolution strongly affects both the rate of stochastic evolution for each quantum trajectory and the allowed final states. The full Hilbert space can be partitioned into backaction-free subspaces (BFSs) the elements of which are indistinguishable to these measurements. Repeated measurements will drive any initial state into a single BFS, leading to a steady state that is a fixed point of the measurement process. We exactly calculate the properties of these BFSs for systems up to 32 sites and find that even for moderate reductions in measurement resolution they yield non-trivial steady state entanglement and coherence.
翻訳日:2024-09-17 17:00:45 公開日:2024-09-15
# 対実的学習における実践的安全のための近位政策最適化

Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank ( http://arxiv.org/abs/2409.09881v1 )

ライセンス: Link先を確認
Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke, (参考訳) CLTR(Counterfactual Learning to rank)はリスクがあり、様々な状況において、デプロイ時のパフォーマンスを損なう準最適モデルを生成することができる。 位置バイアスの補正に逆相対性スコアを用いた場合,これらのリスクを軽減するために安全CLTRを導入した。 しかし、CLTRの既存の安全対策は最先端のCLTR手法には適用されず、信頼バイアスに対処できず、ユーザの行動に関する特定の仮定に依存している。 本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。 PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。 これにより、PRPOは、特定のユーザの仮定に頼ることなく、学習したモデルがパフォーマンスメトリクスをどれだけ劣化させるかに制限を課す。 実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。 PRPOは常に安全を維持している。 PRPOは仮定を避けることで、デプロイにおいて無条件の安全性を持つ最初の方法であり、現実のアプリケーションにとって堅牢な安全性をもたらす。

Counterfactual learning to rank (CLTR) can be risky and, in various circumstances, can produce sub-optimal models that hurt performance when deployed. Safe CLTR was introduced to mitigate these risks when using inverse propensity scoring to correct for position bias. However, the existing safety measure for CLTR is not applicable to state-of-the-art CLTR methods, cannot handle trust bias, and relies on specific assumptions about user behavior. We propose a novel approach, proximal ranking policy optimization (PRPO), that provides safety in deployment without assumptions about user behavior. PRPO removes incentives for learning ranking behavior that is too dissimilar to a safe ranking model. Thereby, PRPO imposes a limit on how much learned models can degrade performance metrics, without relying on any specific user assumptions. Our experiments show that PRPO provides higher performance than the existing safe inverse propensity scoring approach. PRPO always maintains safety, even in maximally adversarial situations. By avoiding assumptions, PRPO is the first method with unconditional safety in deployment that translates to robust safety for real-world applications.
翻訳日:2024-09-17 17:00:45 公開日:2024-09-15
# メモリ強化量子貯留層計算

Memory-Augmented Quantum Reservoir Computing ( http://arxiv.org/abs/2409.09886v1 )

ライセンス: Link先を確認
J. Settino, L. Salatino, L. Mariani, M. Channab, L. Bozzolo, S. Vallisa, P. Barillà, A. Policicchio, N. Lo Gullo, A. Giordano, C. Mastroianni, F. Plastina, (参考訳) 貯留層計算(Reservoir Computing, RC)は、学習フェーズを線形に保ちながら、内部重みを固定した高次元動的貯水池を用いてカオスシステムを予測するための有効な手法である。 量子貯水池コンピューティング(QRC)は、量子システムにおけるヒルベルト空間の指数的成長を利用して、情報処理、メモリ容量、計算能力を高める。 しかし、元のQRC提案では、入力を複数回コヒーレントに注入する必要があるため、実践的な実装が複雑になる。 本稿では、量子計測の古典的後処理を通じてメモリを実装するハイブリッド量子古典的アプローチを提案する。 このアプローチは複数のコヒーレントな入力インジェクションの必要性を回避し、カオスなMackey-Glass時系列予測を含むベンチマークタスクで評価される。 我々は、完全に連結されたIsingモデルとRydberg原子配列の2つの物理プラットフォーム上でモデルをテストした。 最適化されたモデルは期待できる予測能力を示し、以前報告されたアプローチよりも多くのステップを達成する。

Reservoir computing (RC) is an effective method for predicting chaotic systems by using a high-dimensional dynamic reservoir with fixed internal weights, while keeping the learning phase linear, which simplifies training and reduces computational complexity compared to fully trained recurrent neural networks (RNNs). Quantum reservoir computing (QRC) uses the exponential growth of Hilbert spaces in quantum systems, allowing for greater information processing, memory capacity, and computational power. However, the original QRC proposal requires coherent injection of inputs multiple times, complicating practical implementation. We present a hybrid quantum-classical approach that implements memory through classical post-processing of quantum measurements. This approach avoids the need for multiple coherent input injections and is evaluated on benchmark tasks, including the chaotic Mackey-Glass time series prediction. We tested our model on two physical platforms: a fully connected Ising model and a Rydberg atom array. The optimized model demonstrates promising predictive capabilities, achieving a higher number of steps compared to previously reported approaches.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# グラフ埋め込みの効果的な分散学習のためのライデンフュージョン分割法

Leiden-Fusion Partitioning Method for Effective Distributed Training of Graph Embeddings ( http://arxiv.org/abs/2409.09887v1 )

ライセンス: Link先を確認
Yuhe Bai, Camelia Constantin, Hubert Naacke, (参考訳) グラフ埋め込みの大規模トレーニングの分野では、大規模なネットワークを扱う上で効果的なトレーニングフレームワークとパーティショニング手法が重要である。 しかし、それらは2つの大きな課題に直面している。 1) 既存の同期分散フレームワークは、他のマシンからの情報にアクセスするために、継続的な通信を必要とする。 2) GNNを効果的に訓練するためには, 隣接するノードからの情報収集に頼っているため, 孤立ノードを使わずに, サブグラフが接続されたコンポーネントのままであることを保証するために, 現行のパーティショニング手法が欠如している。 これらの問題に対処するために,最小限の通信でグラフを大規模に学習するための分割手法Leiden-Fusionを導入する。 本手法は, 隣接する地域社会と最小のコミュニティを融合した, グリーディーなアルゴリズムを用いて, ライデンコミュニティ検出アルゴリズムを拡張した。 我々の手法は、初期連結グラフに対して、各分割が孤立ノードを持たない密連結な部分グラフであることを保証する。 分割を得た後、各パーティション毎にGNNを個別に訓練し、最終的にノード分類タスクのすべての埋め込みを統合することで、ネットワーク通信の必要性を大幅に低減し、分散グラフトレーニングの効率を高める。 本研究では,ノード分類タスクにおけるグラフ埋め込みの品質を保ちながら,高い効率性を実現するため,複数のベンチマークデータセットに対して広範囲な評価を行うことにより,本手法の有効性を実証する。

In the area of large-scale training of graph embeddings, effective training frameworks and partitioning methods are critical for handling large networks. However, they face two major challenges: 1) existing synchronized distributed frameworks require continuous communication to access information from other machines, and 2) the inability of current partitioning methods to ensure that subgraphs remain connected components without isolated nodes, which is essential for effective training of GNNs since training relies on information aggregation from neighboring nodes. To address these issues, we introduce a novel partitioning method, named Leiden-Fusion, designed for large-scale training of graphs with minimal communication. Our method extends the Leiden community detection algorithm with a greedy algorithm that merges the smallest communities with highly connected neighboring communities. Our method guarantees that, for an initially connected graph, each partition is a densely connected subgraph with no isolated nodes. After obtaining the partitions, we train a GNN for each partition independently, and finally integrate all embeddings for node classification tasks, which significantly reduces the need for network communication and enhances the efficiency of distributed graph training. We demonstrate the effectiveness of our method through extensive evaluations on several benchmark datasets, achieving high efficiency while preserving the quality of the graph embeddings for node classification tasks.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# パラメータ化ラプラシアンを用いた異種グラフ学習のためのフレキシブル拡散スコープ

Flexible Diffusion Scopes with Parameterized Laplacian for Heterophilic Graph Learning ( http://arxiv.org/abs/2409.09888v1 )

ライセンス: Link先を確認
Qincheng Lu, Jiaqi Zhu, Sitao Luan, Xiao-Wen Chang, (参考訳) グラフニューラルネットワーク(GNN)が長距離およびグローバルなトポロジ情報をキャプチャする能力は、従来のグラフラプラシアンのスコープによって制限されている。 この制限に対処するために、従来のグラフラプラシアンよりもノード間の拡散距離を制御する柔軟性が向上し、グラフ上の拡散を通じて長距離情報を適応的に取得できる新しいパラメータ化ラプラシアン行列を提案する。 具体的には、グラフ上の拡散距離とスペクトル距離が順序保存関係を持つことを最初に証明する。 この結果から,パラメータ化されたラプラシアンは長距離情報の拡散を加速し,ラプラシアンのパラメータが拡散範囲の柔軟性を実現することを示した。 理論的な結果に基づいて,異種グラフの長距離情報を取得するためのトポロジ誘導型スイッチング機構を提案する。 このメカニズムと新しいラプラシアンは、パラメータ化拡散に基づくグラフ畳み込みネットワーク(PD-GCN)とグラフ注意ネットワーク(PD-GAT)という、柔軟な拡散範囲を持つ2つのGNNを提案する。 合成実験により,新しいラプラシアンのパラメータと様々なグラフホモフィリーレベルにおけるパラメータ化GNNの性能との間に高い相関関係が明らかとなった。 また、彼らは7つの実世界のベンチマークデータセットのうち6つで最先端(SOTA)モデルよりも優れており、その優位性をさらに確認している。

The ability of Graph Neural Networks (GNNs) to capture long-range and global topology information is limited by the scope of conventional graph Laplacian, leading to unsatisfactory performance on some datasets, particularly on heterophilic graphs. To address this limitation, we propose a new class of parameterized Laplacian matrices, which provably offers more flexibility in controlling the diffusion distance between nodes than the conventional graph Laplacian, allowing long-range information to be adaptively captured through diffusion on graph. Specifically, we first prove that the diffusion distance and spectral distance on graph have an order-preserving relationship. With this result, we demonstrate that the parameterized Laplacian can accelerate the diffusion of long-range information, and the parameters in the Laplacian enable flexibility of the diffusion scopes. Based on the theoretical results, we propose topology-guided rewiring mechanism to capture helpful long-range neighborhood information for heterophilic graphs. With this mechanism and the new Laplacian, we propose two GNNs with flexible diffusion scopes: namely the Parameterized Diffusion based Graph Convolutional Networks (PD-GCN) and Graph Attention Networks (PD-GAT). Synthetic experiments reveal the high correlations between the parameters of the new Laplacian and the performance of parameterized GNNs under various graph homophily levels, which verifies that our new proposed GNNs indeed have the ability to adjust the parameters to adaptively capture the global information for different levels of heterophilic graphs. They also outperform the state-of-the-art (SOTA) models on 6 out of 7 real-world benchmark datasets, which further confirms their superiority.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# マルチタスク学習による転写音声からの発音知識の獲得

Acquiring Pronunciation Knowledge from Transcribed Speech Audio via Multi-task Learning ( http://arxiv.org/abs/2409.09891v1 )

ライセンス: Link先を確認
Siqi Sun, Korin Richmond, (参考訳) 最近の研究は、従来のパイプラインベースのテキスト音声(TTS)フロントエンドからSeq2Seq(Seq2Seq)言語フロントエンドをブートストラップする可能性とメリットを示している。 ブートストラップ学習データの一定の語彙的カバレッジを克服するため,従来の研究では,アクセシブルな実装フローの一部として補助的なASRモデルに依存する未発見語に対する発音知識を得るための追加の訓練源として,容易に転写された音声を利用する方法が提案されている。 そこで本研究では,マルチタスク学習(MTL)に基づく音声の書き起こしを学習源として活用するための代替手法を提案する。 実験の結果、ベースラインのSeq2Seqフロントエンドと比較して、提案手法はPERを2.5%から1.6%に減らし、従来の手法と類似した性能を実現するが、実装フローはよりシンプルであることがわかった。

Recent work has shown the feasibility and benefit of bootstrapping an integrated sequence-to-sequence (Seq2Seq) linguistic frontend from a traditional pipeline-based frontend for text-to-speech (TTS). To overcome the fixed lexical coverage of bootstrapping training data, previous work has proposed to leverage easily accessible transcribed speech audio as an additional training source for acquiring novel pronunciation knowledge for uncovered words, which relies on an auxiliary ASR model as part of a cumbersome implementation flow. In this work, we propose an alternative method to leverage transcribed speech audio as an additional training source, based on multi-task learning (MTL). Experiments show that, compared to a baseline Seq2Seq frontend, the proposed MTL-based method reduces PER from 2.5% to 1.6% for those word types covered exclusively in transcribed speech audio, achieving a similar performance to the previous method but with a much simpler implementation flow.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# 動的フラッド検出:グラフニューラルネットワークへの強化学習の統合

Dynamic Fraud Detection: Integrating Reinforcement Learning into Graph Neural Networks ( http://arxiv.org/abs/2409.09892v1 )

ライセンス: Link先を確認
Yuxin Dong, Jianhua Yao, Jiajing Wang, Yingbin Liang, Shuhan Liao, Minheng Xiao, (参考訳) 金融詐欺とは、不正な手段によって金銭的利益を得る行為である。 このような行動は金融市場の秩序を損なうだけでなく、経済や社会の発展に害を与え、他の違法な犯罪行為を繁殖させる。 インターネットの普及とオンライン支払いの方法により、多くの不正行為やマネーロンダリング行動がオフラインからオンラインに移行し、規制当局にとって大きな課題となっている。 これらの金融不正行為を効率的に検出する方法は、解決すべき緊急の問題となっている。 グラフニューラルネットワークは、グラフ構造内の対話的関係を利用することができるディープラーニングモデルの一種であり、不正検出の分野で広く応用されている。 しかし、まだいくつか問題がある。 第一に、不正行為は取引転送のごく一部を占めるだけで、不正検出においてラベルの不均衡が必然的に問題となる。 同時に、詐欺師はしばしば自分の行動を偽装し、最終的な予測結果に悪影響を及ぼす可能性がある。 さらに、既存の研究では、近隣情報と中央ノード情報のバランスをとることの重要性を見落としている。 例えば、中央ノードに隣接ノードが多すぎる場合、中央ノード自体の特徴は無視されることが多い。 最後に、不正行為やパターンは時間とともに常に変化しており、グラフエッジ関係の動的進化を考慮することも非常に重要である。

Financial fraud refers to the act of obtaining financial benefits through dishonest means. Such behavior not only disrupts the order of the financial market but also harms economic and social development and breeds other illegal and criminal activities. With the popularization of the internet and online payment methods, many fraudulent activities and money laundering behaviors in life have shifted from offline to online, posing a great challenge to regulatory authorities. How to efficiently detect these financial fraud activities has become an urgent issue that needs to be resolved. Graph neural networks are a type of deep learning model that can utilize the interactive relationships within graph structures, and they have been widely applied in the field of fraud detection. However, there are still some issues. First, fraudulent activities only account for a very small part of transaction transfers, leading to an inevitable problem of label imbalance in fraud detection. At the same time, fraudsters often disguise their behavior, which can have a negative impact on the final prediction results. In addition, existing research has overlooked the importance of balancing neighbor information and central node information. For example, when the central node has too many neighbors, the features of the central node itself are often neglected. Finally, fraud activities and patterns are constantly changing over time, so considering the dynamic evolution of graph edge relationships is also very important.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# マルチデータセット画像分割における一貫性のないセマンティクスの解消

Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation ( http://arxiv.org/abs/2409.09893v1 )

ライセンス: Link先を確認
Qilong Zhangli, Di Liu, Abhishek Aich, Dimitris Metaxas, Samuel Schulter, (参考訳) 複数のトレーニングデータセットを活用してイメージセグメンテーションモデルをスケールアップすることは、堅牢性とセマンティック理解を高める上で有用である。 個々のデータセットは、重複しないマスクレイアウトと相互に排他的な意味を持つ、明確に定義された真実を持っている。 しかし、これらをマルチデータセットトレーニングにマージすることは、この調和を阻害し、セマンティックな矛盾をもたらす。例えば、あるデータセットの"person"クラスと別のデータセットの"face"クラスは、特定のピクセルに対するマルチラベル処理を必要とする。 既存の手法は、特に個々のトレーニングセットから混合されたラベル空間で評価する場合、この設定に苦慮する。 これらの課題を克服するために、クラス名とラベル空間固有のクエリ埋め込みの言語ベースの埋め込みを統合することで、シンプルで効果的なマルチデータセットトレーニング手法を導入する。 本手法は,トレーニングデータセット間の不整合に拘わらず,高い性能を維持している。 特に、推論中にラベル空間の不整合を持つ4つのベンチマークデータセットでは、セマンティックセグメンテーションの1.6% mIoU、パン光学セグメンテーションの9.1% PQ、インスタンスセグメンテーションの12.1% AP、新たに提案されたPIQメトリックの3.0%よりも優れていた。

Leveraging multiple training datasets to scale up image segmentation models is beneficial for increasing robustness and semantic understanding. Individual datasets have well-defined ground truth with non-overlapping mask layouts and mutually exclusive semantics. However, merging them for multi-dataset training disrupts this harmony and leads to semantic inconsistencies; for example, the class "person" in one dataset and class "face" in another will require multilabel handling for certain pixels. Existing methods struggle with this setting, particularly when evaluated on label spaces mixed from the individual training sets. To overcome these issues, we introduce a simple yet effective multi-dataset training approach by integrating language-based embeddings of class names and label space-specific query embeddings. Our method maintains high performance regardless of the underlying inconsistencies between training datasets. Notably, on four benchmark datasets with label space inconsistencies during inference, we outperform previous methods by 1.6% mIoU for semantic segmentation, 9.1% PQ for panoptic segmentation, 12.1% AP for instance segmentation, and 3.0% in the newly proposed PIQ metric.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# 基礎モデルを用いた賃金格差の推定

Estimating Wage Disparities Using Foundation Models ( http://arxiv.org/abs/2409.09894v1 )

ライセンス: Link先を確認
Keyon Vafa, Susan Athey, David M. Blei, (参考訳) 社会科学における経験的研究の1つのスレッドは、結果の集団差を、観測可能な要因によって説明できない構成要素と構成要素に分解することに焦点を当てている。 本稿では、労働者のキャリア履歴から説明されるジェンダー賃金格差の一部を推定する必要があるジェンダー賃金の分解について検討する。 賃金格差を分解する古典的な方法は、労働史の単純な要約の小さなセットで条件付けられた単純な賃金の予測モデルを用いる。 問題は、これらの予測モデルは、労働者の歴史の完全な複雑さを生かすことができず、結果として生じる分解は、性別と賃金の両方に相関する共変量を含む、省略変数バイアス(OVB)に悩まされることである。 ここでは、予測エンジンとして大規模言語モデルなどの強力な基礎モデルを用いる、賃金格差の分解のための代替手法を検討する。 基礎モデルは複雑な高次元入力から正確な予測を行うのに優れている。 我々は、男女賃金格差を解消するために、全労働史から賃金を予測するために設計された、カスタム構築のファンデーションモデルを使用している。 このようなモデルのトレーニング方法がまだOVBにつながる可能性があることを証明していますが、この問題を実証的に緩和する微調整アルゴリズムを開発しています。 我々のモデルは単純なモデルよりもキャリア履歴の豊かな表現を捉え、賃金をより正確に予測する。 細調整された基礎モデルに基づく賃金格差の推定器が$\sqrt{n}$-consistent(=========================================================================================================================================。 この理論に基づいて,OVBを最小化する微調整基礎モデルを提案する。 パネル・スタディ・オブ・インカム・ダイナミクス(Panel Study of Income Dynamics)のデータから、標準的な計量モデルよりも性別の賃金格差を詳しく説明し、OVBを減らす上で重要な歴史要素を同定する。

One thread of empirical work in social science focuses on decomposing group differences in outcomes into unexplained components and components explained by observable factors. In this paper, we study gender wage decompositions, which require estimating the portion of the gender wage gap explained by career histories of workers. Classical methods for decomposing the wage gap employ simple predictive models of wages which condition on a small set of simple summaries of labor history. The problem is that these predictive models cannot take advantage of the full complexity of a worker's history, and the resulting decompositions thus suffer from omitted variable bias (OVB), where covariates that are correlated with both gender and wages are not included in the model. Here we explore an alternative methodology for wage gap decomposition that employs powerful foundation models, such as large language models, as the predictive engine. Foundation models excel at making accurate predictions from complex, high-dimensional inputs. We use a custom-built foundation model, designed to predict wages from full labor histories, to decompose the gender wage gap. We prove that the way such models are usually trained might still lead to OVB, but develop fine-tuning algorithms that empirically mitigate this issue. Our model captures a richer representation of career history than simple models and predicts wages more accurately. In detail, we first provide a novel set of conditions under which an estimator of the wage gap based on a fine-tuned foundation model is $\sqrt{n}$-consistent. Building on the theory, we then propose methods for fine-tuning foundation models that minimize OVB. Using data from the Panel Study of Income Dynamics, we find that history explains more of the gender wage gap than standard econometric models can measure, and we identify elements of history that are important for reducing OVB.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# GRIN:Pixel-Level Diffusionによるゼロショットメートル深度

GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion ( http://arxiv.org/abs/2409.09896v1 )

ライセンス: Link先を確認
Vitor Guizilini, Pavel Tokmakov, Achal Dave, Rares Ambrus, (参考訳) 単一の画像からの3D再構成は、コンピュータビジョンにおける長年の問題である。 学習ベースの手法は、ますます大きくラベル付けされラベル付けされていないデータセットを活用することで、その固有のスケールの曖昧さに対処し、ドメイン間で正確な予測を生成できる幾何学的事前情報を生成する。 その結果、ゼロショット相対およびメートル法深度推定において、最先端のアプローチは印象的な性能を示した。 近年、拡散モデルは、その学習表現に顕著なスケーラビリティと一般化可能な性質を示した。 しかし、これらのモデルは、もともと画像生成用に設計されたツールを再利用しているため、ほとんどのディープ・レーベル、特に現実世界の環境では利用できない高密度のグランド・トゥルースでしか動作できない。 本稿では,スパース非構造化トレーニングデータを取り込み,効率的な拡散モデルGRINを提案する。 画像特徴と3次元幾何的位置エンコーディングを用いて拡散過程をグローバルかつ局所的に調整し,画素レベルでの深度予測を生成する。 8つの屋内および屋外データセットの総合的な実験により、GRINはゼロショットメートル法における新しい最先端のモノクロ深度推定を、スクラッチから訓練しても確立することを示した。

3D reconstruction from a single image is a long-standing problem in computer vision. Learning-based methods address its inherent scale ambiguity by leveraging increasingly large labeled and unlabeled datasets, to produce geometric priors capable of generating accurate predictions across domains. As a result, state of the art approaches show impressive performance in zero-shot relative and metric depth estimation. Recently, diffusion models have exhibited remarkable scalability and generalizable properties in their learned representations. However, because these models repurpose tools originally designed for image generation, they can only operate on dense ground-truth, which is not available for most depth labels, especially in real-world settings. In this paper we present GRIN, an efficient diffusion model designed to ingest sparse unstructured training data. We use image features with 3D geometric positional encodings to condition the diffusion process both globally and locally, generating depth predictions at a pixel-level. With comprehensive experiments across eight indoor and outdoor datasets, we show that GRIN establishes a new state of the art in zero-shot metric monocular depth estimation even when trained from scratch.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-15
# BULKHEAD: PKSによるセキュアでスケーラブルで効率的なカーネル比較

BULKHEAD: Secure, Scalable, and Efficient Kernel Compartmentalization with PKS ( http://arxiv.org/abs/2409.09606v1 )

ライセンス: Link先を確認
Yinggang Guo, Zicheng Wang, Weiheng Bai, Qingkai Zeng, Kangjie Lu, (参考訳) 無限の脆弱性の流れは、搾取の効果を抑えるための原則的な緩和を緊急に要求する。 しかし、LinuxカーネルのようなコモディティOSカーネルのモノリシックなアーキテクチャは、攻撃者がカーネルコンポーネントの脆弱性を悪用することによってシステム全体に侵入することを可能にする。 カーネルの区画化は、最小特権原理に従う有望なアプローチである。 しかし、多くの複雑なコンポーネント間の相互の不信から生じる課題を考えると、既存のメカニズムはセキュリティ、スケーラビリティ、パフォーマンスのトレードオフに苦慮している。 本稿では,セキュアでスケーラブルで効率的なカーネルコンパートナライズ技術であるBULKHEADについて述べる。 Intelの新しいハードウェア機能であるPKSを活用して、データとコードを相互に信頼できないコンパートメントに分離し、高速コンパートメントスイッチによるメリットを享受する。 不信を念頭に置いて、BULKHEADは、データ整合性、実行専用メモリ、コンパートメントインターフェース整合性を含む、複数の重要なセキュリティ不変性を強制する軽量なカーネル内モニタを導入している。 さらに、無制限のコンパートメントにスケールするローカリティ対応の2レベルスキームも提供する。 ロード可能なカーネルモジュール(LKM)を分割するプロトタイプシステムをLinux v6.1で実装する。 広範囲な評価により,本手法の有効性が確認された。 システム全体の影響により、BULKHEADは160の複合化LKMを持つ現実世界のアプリケーションに対して平均2.44%のパフォーマンスオーバーヘッドを発生させる。 特定のコンパートメントにフォーカスしながら、ipv6のApacheBenchテストでは、オーバーヘッドは2%未満である。 さらに、パフォーマンスはコンパートメントの数にほとんど影響を受けないため、高いスケーラビリティを実現しています。

The endless stream of vulnerabilities urgently calls for principled mitigation to confine the effect of exploitation. However, the monolithic architecture of commodity OS kernels, like the Linux kernel, allows an attacker to compromise the entire system by exploiting a vulnerability in any kernel component. Kernel compartmentalization is a promising approach that follows the least-privilege principle. However, existing mechanisms struggle with the trade-off on security, scalability, and performance, given the challenges stemming from mutual untrustworthiness among numerous and complex components. In this paper, we present BULKHEAD, a secure, scalable, and efficient kernel compartmentalization technique that offers bi-directional isolation for unlimited compartments. It leverages Intel's new hardware feature PKS to isolate data and code into mutually untrusted compartments and benefits from its fast compartment switching. With untrust in mind, BULKHEAD introduces a lightweight in-kernel monitor that enforces multiple important security invariants, including data integrity, execute-only memory, and compartment interface integrity. In addition, it provides a locality-aware two-level scheme that scales to unlimited compartments. We implement a prototype system on Linux v6.1 to compartmentalize loadable kernel modules (LKMs). Extensive evaluation confirms the effectiveness of our approach. As the system-wide impacts, BULKHEAD incurs an average performance overhead of 2.44% for real-world applications with 160 compartmentalized LKMs. While focusing on a specific compartment, ApacheBench tests on ipv6 show an overhead of less than 2%. Moreover, the performance is almost unaffected by the number of compartments, which makes it highly scalable.
翻訳日:2024-09-17 14:28:32 公開日:2024-09-15
# 星雲:効率よく、プライベートで正確なヒストグラム推定

Nebula: Efficient, Private and Accurate Histogram Estimation ( http://arxiv.org/abs/2409.09676v1 )

ライセンス: Link先を確認
Ali Shahin Shamsabadi, Peter Snyder, Ralph Giles, Aurélien Bellet, Hamed Haddadi, (参考訳) 本稿では,クライアント間で分散したデータの個人的ヒストグラムの差分推定システムであるNebulaを提案する。 Nebulaは、クライアントがデータをローカルにサブサンプルし、エンコードすることで、信頼できないサーバが、差分プライバシー保証を満たすためのアグリゲーションしきい値を満たすデータ値のみを学ぶことができる。 他のプライベートなヒストグラム推定システムと比較すると、Nebulaは、プライバシー漏洩の厳格な上限である \textit{i)}、現実的な信頼の前提の下でのクライアントプライバシ、標準のローカルな差分プライバシーシステムよりもはるかに優れたユーティリティである \textit{iii}、信頼されたサードパーティ、マルチパーティ計算、信頼できるハードウェアを避ける \textit{iv} である。 我々は、Nebulaのプライバシ、ユーティリティ、効率保証の正式な評価と、3つの実世界のデータセットに関する実証的な評価の両方を提供する。 クライアントがデータを効率的にエンコードしてアップロードできること(実行時間0.0058秒と0.0027MBのデータ通信のみ)とプライベートに(特に差分プライバシー保証は$\varepsilon=1$)を実証します。 米国国勢調査データセットでは、ネビュラの信頼できない集計サーバは、既存の差分プライバシーのローカル展開よりも88\%以上の有効性でヒストグラムを推定している。 さらに、クライアントが同様のプライバシ、ユーティリティ、パフォーマンスを備えた多次元データを送信できるバリエーションについても説明します。 最後に、Nebulaのオープンソース実装を提供する。

We present Nebula, a system for differential private histogram estimation of data distributed among clients. Nebula enables clients to locally subsample and encode their data such that an untrusted server learns only data values that meet an aggregation threshold to satisfy differential privacy guarantees. Compared with other private histogram estimation systems, Nebula uniquely achieves all of the following: \textit{i)} a strict upper bound on privacy leakage; \textit{ii)} client privacy under realistic trust assumptions; \textit{iii)} significantly better utility compared to standard local differential privacy systems; and \textit{iv)} avoiding trusted third-parties, multi-party computation, or trusted hardware. We provide both a formal evaluation of Nebula's privacy, utility and efficiency guarantees, along with an empirical evaluation on three real-world datasets. We demonstrate that clients can encode and upload their data efficiently (only 0.0058 seconds running time and 0.0027 MB data communication) and privately (strong differential privacy guarantees $\varepsilon=1$). On the United States Census dataset, the Nebula's untrusted aggregation server estimates histograms with above 88\% better utility than the existing local deployment of differential privacy. Additionally, we describe a variant that allows clients to submit multi-dimensional data, with similar privacy, utility, and performance. Finally, we provide an open source implementation of Nebula.
翻訳日:2024-09-17 14:28:32 公開日:2024-09-15
# ランサムウェアの脅威に対処する - 合理的支払い決定のためのプロスペクト理論の活用

Taming the Ransomware Threats: Leveraging Prospect Theory for Rational Payment Decisions ( http://arxiv.org/abs/2409.09744v1 )

ライセンス: Link先を確認
Pranjal Sharma, (参考訳) 組織に対するランサムウェア攻撃の頻度は、日々急増している。 ラスベガスの巨大企業MGM Resorts、Caesar Entertainment、Boeingなどの大手企業による事件は、その大きな影響を浮き彫りにし、大きなビジネス障壁を生じさせている。 突然のサイバー攻撃が起こると、組織はしばしば、身代金を払うために荒れ果てたカウントダウンによって損失に遭い、即興で不利な決定のカスケードに繋がる。 本稿では,サイバー攻撃者が身代金の支払いに役立てるために利用する戦術を解明するために,プロスペクト理論を活用した新たなアプローチを採用する。 さらに、プロスペクト理論とアタック・リカバリ・プランに基づくアルゴリズムを導入し、組織が身代金要求に同意するか、抵抗するかについて情報的な決定を下せるようにした。 このアルゴリズムでは、Ransomware Risk Analysis and Decision Support (RADS) はプロスペクト理論を用いて、アタッカーによる知覚的な利得として操作されたシフト参照を再確認し、時間的緊急によって生じるフレーミング効果を調整する。 さらに、アプリケーションの臨界性を活用し、プロスペクト理論の確率の過小評価に関する洞察を取り入れることで、RADSは、組織が最適な決定を下すことを可能にする「一貫性」または「抵抗」の単純な枠組みを超越する情報的意思決定を促進する。

Day by day, the frequency of ransomware attacks on organizations is experiencing a significant surge. High-profile incidents involving major entities like Las Vegas giants MGM Resorts, Caesar Entertainment, and Boeing underscore the profound impact, posing substantial business barriers. When a sudden cyberattack occurs, organizations often find themselves at a loss, with a looming countdown to pay the ransom, leading to a cascade of impromptu and unfavourable decisions. This paper adopts a novel approach, leveraging Prospect Theory, to elucidate the tactics employed by cyber attackers to entice organizations into paying the ransom. Furthermore, it introduces an algorithm based on Prospect Theory and an Attack Recovery Plan, enabling organizations to make informed decisions on whether to consent to the ransom demands or resist. This algorithm Ransomware Risk Analysis and Decision Support (RADS) uses Prospect Theory to re-instantiate the shifted reference manipulated as perceived gains by attackers and adjusts for the framing effect created due to time urgency. Additionally, leveraging application criticality and incorporating Prospect Theory's insights into under/over weighing probabilities, RADS facilitates informed decision-making that transcends the simplistic framework of "consent" or "resistance," enabling organizations to achieve optimal decisions.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-15
# GenFace: 大規模ファイングラインド顔偽造ベンチマークとクロスプラットフォームエッジ学習

GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning ( http://arxiv.org/abs/2402.02003v3 )

ライセンス: Link先を確認
Yaning Zhang, Zitong Yu, Tianyi Wang, Xiaobin Huang, Linlin Shen, Zan Gao, Jianfeng Ren, (参考訳) フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。 したがって、デジタル操作を検出するためのベンチマークおよびプログレッシブ技術が緊急課題となる。 公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成され、拡散のような最新の技術は含まない。 拡散モデルにより生成された画像の多様性と品質は著しく改善され、SOTA偽造検出文献を評価するために、より困難な顔偽造データセットが使用される。 本稿では,拡散モデルなどの先進的なジェネレータが生成する多数の偽顔を含むディープフェイク検出の進展を促進するために,大規模で多種多様できめ細かな高忠実度データセットであるGenFaceを提案する。 ベンチマーク上でのSOTAアプローチの評価に加えて,多粒度な外見とエッジグローバルな表現を抽出し,識別的および一般的な偽トレースを検出する,革新的なクロスルックアップ・エッジ・ラーニング(CAEL)検出器を設計する。 さらに,2つの領域にまたがる様々な統合を探索するために,外観エッジ・クロスアテンション(AECA)モジュールを考案した。 大規模な実験結果と可視化の結果から,我々の検出モデルは,クロスジェネレータ,クロスフォージェニー,クロスデータセット評価など,さまざまな設定における最先端技術よりも優れていることがわかった。 コードとデータセットは \url{https://github.com/Jenine-321/GenFace で入手できる。

The rapid advancement of photorealistic generators has reached a critical juncture where the discrepancy between authentic and manipulated images is increasingly indistinguishable. Thus, benchmarking and advancing techniques detecting digital manipulation become an urgent issue. Although there have been a number of publicly available face forgery datasets, the forgery faces are mostly generated using GAN-based synthesis technology, which does not involve the most recent technologies like diffusion. The diversity and quality of images generated by diffusion models have been significantly improved and thus a much more challenging face forgery dataset shall be used to evaluate SOTA forgery detection literature. In this paper, we propose a large-scale, diverse, and fine-grained high-fidelity dataset, namely GenFace, to facilitate the advancement of deepfake detection, which contains a large number of forgery faces generated by advanced generators such as the diffusion-based model and more detailed labels about the manipulation approaches and adopted generators. In addition to evaluating SOTA approaches on our benchmark, we design an innovative cross appearance-edge learning (CAEL) detector to capture multi-grained appearance and edge global representations, and detect discriminative and general forgery traces. Moreover, we devise an appearance-edge cross-attention (AECA) module to explore the various integrations across two domains. Extensive experiment results and visualizations show that our detection model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations. Code and datasets will be available at \url{https://github.com/Jenine-321/GenFace
翻訳日:2024-09-17 12:29:39 公開日:2024-09-15
# TSELM:離散トークンと言語モデルを用いた話者抽出

TSELM: Target Speaker Extraction using Discrete Tokens and Language Models ( http://arxiv.org/abs/2409.07841v2 )

ライセンス: Link先を確認
Beilong Tang, Bang Zeng, Ming Li, (参考訳) 本稿では,離散トークンと言語モデルを利用した新たなターゲット話者抽出ネットワークであるTSELMを提案する。 TSELMは、WavLMからの複数の離散層を入力トークンとして利用し、ターゲット話者情報を統合するためのクロスアテンション機構を組み込んでいる。 言語モデルはシーケンスの依存関係をキャプチャするために使用され、スケーラブルなHiFi-GANはトークンからオーディオを再構築するために使用される。 クロスエントロピー損失を適用することで、TSELMは出力トークンの確率分布をモデル化し、オーディオ生成の複雑な回帰問題を分類タスクに変換する。 実験結果から,TSELMは音声品質において優れた結果が得られることがわかった。

We propose TSELM, a novel target speaker extraction network that leverages discrete tokens and language models. TSELM utilizes multiple discretized layers from WavLM as input tokens and incorporates cross-attention mechanisms to integrate target speaker information. Language models are employed to capture the sequence dependencies, while a scalable HiFi-GAN is used to reconstruct the audio from the tokens. By applying a cross-entropy loss, TSELM models the probability distribution of output tokens, thus converting the complex regression problem of audio generation into a classification task. Experimental results show that TSELM achieves excellent results in speech quality and comparable results in speech intelligibility.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-15
# LLM Honeypot: 対話型Honeypotシステムとしての大規模言語モデルを活用する

LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems ( http://arxiv.org/abs/2409.08234v2 )

ライセンス: Link先を確認
Hakan T. Otal, M. Abdullah Canbaz, (参考訳) サイバー脅威の急速な進化は、悪意ある活動を検出し分析するための革新的な解決策を必要とする。 ハニーポットは、攻撃者を誘惑し、相互作用するように設計されたデコイシステムであり、サイバーセキュリティにおいて重要な要素として浮上している。 本稿では,Large Language Models (LLMs) を用いた,現実的でインタラクティブなハニーポットシステム構築のための新しいアプローチを提案する。 攻撃者が生成したコマンドとレスポンスの多様なデータセットに基づいて事前学習されたオープンソース言語モデルを微調整することにより、攻撃者との高度なエンゲージメントが可能なハニーポットを開発した。 提案手法には,データ収集と処理,プロンプトエンジニアリング,モデル選択,モデルの性能最適化のための教師付き微調整など,いくつかの重要なステップが含まれていた。 類似度測定と実運用による評価により,本手法が正確かつ情報的応答を効果的に生成できることが実証された。 この結果は、LLMがハニーポット技術に革命をもたらす可能性を浮き彫りにし、サイバーセキュリティの専門家に悪意ある活動を検出し分析する強力なツールを提供し、それによって全体的なセキュリティインフラが強化される。

The rapid evolution of cyber threats necessitates innovative solutions for detecting and analyzing malicious activity. Honeypots, which are decoy systems designed to lure and interact with attackers, have emerged as a critical component in cybersecurity. In this paper, we present a novel approach to creating realistic and interactive honeypot systems using Large Language Models (LLMs). By fine-tuning a pre-trained open-source language model on a diverse dataset of attacker-generated commands and responses, we developed a honeypot capable of sophisticated engagement with attackers. Our methodology involved several key steps: data collection and processing, prompt engineering, model selection, and supervised fine-tuning to optimize the model's performance. Evaluation through similarity metrics and live deployment demonstrated that our approach effectively generates accurate and informative responses. The results highlight the potential of LLMs to revolutionize honeypot technology, providing cybersecurity professionals with a powerful tool to detect and analyze malicious activity, thereby enhancing overall security infrastructure.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-15